Sie sind auf Seite 1von 74

RADIODIFUSO

Revista de
volume 07- nmero 08 - 2013
ISSN impresso 1981-4984
ISSN eletrnico 2236-9619

pesquisas em
ambientes digitais
TV
CINEMA
INTERNET
RADIO
RADIODIFUSO
Revista de
volume 07 - nmero 07 - 2013
Pesquisas em ambientes digitais
tv - internet - radio - cinema
SET - Sociedade Brasileira de Engenharia de Televiso
Rio de Janeiro - RJ - Rua Jardim Botnico,700 - Sala 306 | CEP. 22461-000
Tel.: + 55 (21) 2512-8747 - Fax + 55 (21) 2294-2791
So Paulo - SP - Av. Auro Soares de Moura Andrade, 252- Cj. 11 | CEP. 01156-001
Tels: +55 (11) 3666 9604
www.set.org.br | set@set.org.br
volume 07 nmero 08 2013
Elaborada por: Silvania W. Martins
Revista Eletrnica de Radio Difuso / SET. -- v. 7, n. 8 (2013). So Paulo : Editora
Sociedade Brasileira de Engenharia de Televiso - SET, 2013-.

Semestral
Periodicidade do v. 7: semestral
Disponvel na Internet: : http://www.set.org.br/revistaderadiodifusao/
ISSN 2236-9619

1. Radiofuso - Peridicos. 2. TVDigital - Peridicos. 3. Broadcast Peridicos. I.
Sociedade Brasileira de Engenharia de Televiso. II. SET.

CDD (21. ed.) 384.54
Pesquisas em ambientes digitais - TV Internet Radio Cinema
Revista de Radiodifuso v. 07 n. 08 2013
Expediente
volume 07 nmero 08 2013
Presidncia
Olmpio Jos Franco
Vice Presidente
Nelson Faria Jr
Diretoria Editorial
Valderez de Almeida Donzelli
Valdecir Becker
Comit Editorial
Almir Almas
Francisco S. Husni Ribeiro
Jos Olairson Valentim
Rodrigo Dias Arnaut
Tom Jones Moreira
Diretoria de Ensino
Jos Raimundo Cristvam
Jose Frederico Rehme
Comit de Ensino
Carlos Nazareth Motta Marins
Eduardo de Oliveira Silva Bicudo
Gunnar Bedicks
Luana Bravo
Tatiana Aires Tavares
Diretoria de Tecnologia
Ana Eliza Faria
Alexandre Yoshida Sano
Comit de Tecnologia
Carlos Fini
Iury Saharovsky
Jos Antnio de Souza Garcia
Luiz Fausto
Paulo Henrique C. V. de Castro
Roberto Primo
Ana Slvia Mdola Unesp
Alexandre Pohl UTFPR
Andr Barbosa EBC/SET
Carlos Alberto Ynoguti INATEL
Carla Pagliari - IME
Carlos Montez UFSC
Carlos Nazareth Motta Marins INATEL/SET
Cosette Castro UCB
Dbora Christina Muchaluat Saade UFF
Eduardo Antonio Barros da Silva COPPE/UFRJ
Flavio Archangelo LABRE/SET
Guido Lemos UFPB
Gunnar Bedicks Mackenzie/SET
Luciano Leonel Mendes INATEL
Lus Geraldo Pedroso Meloni FEEC/Unicamp
Luiz Biscainho COPPE/UFRJ
Luiz Fernando Gomes Soares - PUC-RJ
Sandro Fasolo INATEL
Tatiana Tavares UFPB/SET
Valdecir Becker UFPB/SET
Yuzo Iano UNICAMP
Yvana Fechine UFPE
Diretoria da SET
Comit Cientfico
Editor
Projeto grfico / Verso eletrnica
Valdecir Becker
Solange Lorenzo
Revista de Radiodifuso v. 07 n. 08 2013
Pesquisas em ambientes digitais - TV Internet Radio Cinema
Sumrio
Pesquisas em ambientes digitais - TV - Internet - radio - cinema
06 Apresentao

ARTIGOS
Wyllian Bezerra da Silva 08 Mtrica sem referncia baseada em redes neurais
para avaliao objetiva de qualidade de vdeo digital
Eduardo Santos Bueno 16 Results of field tests of the ISDB-T system at 8 MHz
in Botswana
Willians Cerozzi Balan
Ramon Maia Borges 23 Anlise qualitativa de uma Rede SFN operando com
troca de Canal Virtual entre as Estaes
Retransmissoras
Jos Riccardo Bonavita 27 A Televiso Corporativa como Canal Miditico
34 O aplicativo de check-in de TV como ferramenta
de engajamento na era transmdia
44 A televiso a seu tempo: Netflix inova com produo
de contedo para o pblico assistir como e quando
achar melhor, mesmo que seja tudo de uma vez
52 A (re) valorizao do locutor na internet: estratgias
do rdio em um cenrio de reconfigurao digital
61 Modelo de anlise da audincia baseado no contexto

Alexandre de Almeida Prado Pohl
B
Edson Lemos Horta
Gunnar Bedicks Jr
Cristiano Akamine
Bruna Uehara
Joo Paulo Polo
Juliana Kulesza
Ulysses de Santi Bibbo
Daniel Gambaro
Eduardo Vicente
Valdecir Becker
Marcelo Zuffo
Pesquisas em ambientes digitais - TV Internet Radio Cinema
Revista de Radiodifuso v. 07 n. 08 2013
Apresentao
Pesquisas em ambientes digitais - TV Internet Radio Cinema
6 Revista de Radiodifuso v. 07 n. 08 2013
Esta edio da Revista de Radiodifuso tem como foco pesquisas em ambientes digitais, especificamente
rdio, TV, e internet. Os artigos abordam o desenvolvimento tecnolgico, cientfico, computacional,
comunicacional, social e sociolgico destes meios de comunicao. A constante mutao e as dvidas sobre
a capacidade destes veculos diante da convergncia tecnolgica e constantes mudanas mercadolgicas
permeiam praticamente todos os trabalhos. Percebe-se uma clara evoluo nas pesquisa e no pensamento
crtico em relao ao entendimento das necessidades cientficas de toda cadeia de valor da radiodifuso.
Como proposta de interdisciplinaridade do audiovisual, a Revista de Radiodifuso d mais um passo
importante ao mesclar vdeo digital, testes de transmisso com segunda tela, rdio, TV corporativa, novas
formas de ver o contedo audiovisual e suas formas de produo e consumo, anlise terica da medio da
audincia. Trata-se de um retrato interdisciplinar do desenvolvimento do mercado de radiodifuso, que no
existe sem uma engenharia forte, contedo com qualidade e um mercado consumidor plenamente
compreendido.
Alem do Call For Papers tradicional da Ravista, para esta edio tambm foram selecionados os trs
melhores artigos do Congresso da SET deste ano, realizado em agosto. A Revista recebeu um total de 17
submisses, e, ps o processo de reviso do Comit Cientfico, foram aprovados oito trabalhos.
Segue a relao dos trabalhos aprovados, e respectivos resumos.
Mtrica sem referncia baseada em redes neurais para avaliao objetiva de qualidade de vdeo
digital, de Wyllian Bezerra da Silva e Alexandre de Almeida Prado Pohl. O trabalho apresenta uma mtrica
sem referncia para avaliao de qualidade de vdeo digital baseada em uma rede neural artificial que usa
uma verso estendida do algoritmo de aprendizado ELM (Extreme Learning Machine). O mtodo proposto
realiza o treinamento da rede neural a partir de seis caractersticas espao-temporais. Os resultados
experimentais mostram que o mtodo proposto apresenta desempenho superior s mtricas de referncia
completa PSNR e MS-SSIM na tarefa de predio de qualidade de vdeo. Logo, o mtodo proposto pode ser
usado no monitoramento de qualidade em sistemas de transmisso e recepo de vdeo digital, tais como
IPTV e TV digital.
Results of field tests of the isdb-tb system at 8 mhz in Botswana, de Eduardo Santos Bueno, Gunnar
Bedicks Jr., Cristiano Akamine e Edson Lemos Horta. Botswana performed field tests of the Integrated
Services Digital Broadcasting - Terrestrial version B (ISDB-TB) system in order to choose which standard
should be used by the country. This paper presents the results of performance tests of the ISDB- TB system
and an analysis of test results from the cities of Gaborone, Mahalapye, Maun and Tsabong. The system was
configured with an 8 MHz bandwidth and central frequency of 770.000 MHz. The system was evaluated with
fixed reception using a single monopole antenna. Data collected in the field were used to analyze the power
level, C/N ratio, Bit Error Rate (BER) and Quasi Error Free (QEF). The results corroborate na adequate
reception of the test signal.
Pesquisas em ambientes digitais - TV Internet Radio Cinema
Revista de Radiodifuso v. 07 n. 08 2013 7
Anlise Qualitativa de uma Rede SFN Operando com troca de Canal Virtual entre as Estaes
Retransmissoras, de Ramon Maia Borges. O trabalho tem por finalidade investigar o comportamento de
uma rede SFN (Single Frequency Network) dentro do padro ISDB-T (Integrated Services Digital
Broadcasting Terrestrial), na condio em que as estaes retransmissoras utilizem canais virtuais
distintos. Resultados prticos demonstram a possibilidade de operao da rede na situao descrita, assim
como as penalidades decorridas desta configurao.
A Televiso Corporativa como Canal Miditico, de Jos Riccardo Bonavita. Este artigo tem por finalidade
analisar a forma como empresas do mundo inteiro usam a linguagem universal da mdia televisiva e, atravs
de transmisses de broadcasting (transmisses de televiso via satlite ou intranet), para filiais e pontos de
reunio de seus funcionrios e colaboradores espalhados em uma determinada regio de um pas, ou
mesmo em vrios pases, simultaneamente, copiam os modelos criados pela livre manifestao do canal
miditico televisivo como forma de tentar integrar seus funcionrios e repassar o discurso e a mentalidade
corporativa e seus valores.
O aplicativo de check-in de TV como ferramenta de engajamento na era transmdia, de Bruna Uehara e
Joo Paulo Polo. Este artigo se prope a discutir de que maneira um aplicativo (tambm chamado de app) de
check-in de TV pode colaborar com a fidelizao e engajamento de telespectadores, tendo em vista o
fenmeno atual da segunda tela. Refletir sobre como as empresas de comunicao podem utilizar esse
comportamento do pblico e o panorama transmiditico com o intuito de alavancar a audincia da emissora e
atrair anunciantes.
A televiso a seu tempo: Netflix inova com produo de contedo para o pblico assistir como e
quando achar melhor, mesmo que seja tudo de uma vez, de Juliana Kulesza e Ulysses de Santi Bibbo.
Este artigo analisa a entrada do servio de streaming online Netflix no mercado da produo de contedo
original, a partir do estudo de caso da srie House of Cards. Tambm se predispe a demonstrar uma
mudana de paradigma no setor, introduzindo a discusso sobre uma nova forma de consumo de contedo,
definida pelas possibilidades geradas por novas tecnologias e pela voracidade de seu pblico. Este novo
cenrio palco do embate entre majors de TV a cabo, at ento dominantes no mercado de contedo pago,
com a recm chegada Netflix, onde quem ganha o consumidor que ter mais opes de escolha.
A (re) valorizao do locutor na internet: estratgias do rdio em um cenrio de reconfigurao
digital, de Daniel Gambaro e Eduardo Vicente. O presente artigo traa uma breve reflexo sobre o modo
como as tecnologias digitais esto reconfigurando as formas de produzir e consumir rdio. O principal
argumento gira em torno da figura do locutor de rdio FM e sua renovada importncia em estratgias de
vinculao e fidelizao da audincia, aliada a outras estratgias que podem ser empreendidas pelas
emissoras de rdio. Para tanto, foi desenvolvida uma pesquisa com locutores do dial FM paulistano, que
expressaram suas opinies sobre o cenrio.
Modelo de anlise da audincia baseado no contexto, de Valdecir Becker e Marcelo Zuffo. As complexas
relaes e mediaes entre representaes mentais e os consequentes comportamentos so subestimadas
nos modelos tradicionais de medio da audincia. Este artigo prope um novo modelo terico, que
incorpora a base da mediao atual, e expande a anlise buscando as origens da necessidade e da
motivao da atividade ver TV.
Boa leitura,
Valdecir Becker
Editor
Mtrica sem referncia baseada em redes neurais
para avaliao objetiva de qualidade de vdeo digital
Wyllian Bezerra da Silva
wyllianbs@gmail.com
Alexandre de Almeida Prado Pohl
pohl@utfpr.edu.br
8 Revista de Radiodifuso v. 07 n. 08 2013
Pesquisas em ambientes digitais - TV Internet Radio Cinema
MTRICA SEM REFERNCIA BASEADA EM REDES NEURAIS
PARA AVALIAO OBJETIVA DE QUALIDADE DE VDEO DIGITAL

Wyllian Bezerra da Silva, Alexandre de Almeida Prado Pohl

Programa de Ps-Graduao em Engenharia Eltrica e Informtica Industrial (CPGEI) UTFPR, Curitiba, Brasil
wyllianbs@gmail.com, pohl@utfpr.edu.br



Resumo: Este trabalho apresenta uma mtrica sem
referncia para avaliao de qualidade de vdeo digital
baseada em uma rede neural artificial que usa uma
verso estendida do algoritmo de aprendizado ELM
(Extreme Learning Machine). O mtodo proposto
realiza o treinamento da rede neural a partir de seis
caractersticas espao-temporais. Os resultados
experimentais mostram que o mtodo proposto
apresenta desempenho superior s mtricas de
referncia completa PSNR e MS-SSIM na tarefa de
predio de qualidade de vdeo. Logo, o mtodo
proposto pode ser usado no monitoramento de
qualidade em sistemas de transmisso e recepo de
vdeo digital, tais como IPTV e TV digital.

Palavras chave: algoritmo ELM, avaliao objetiva de
vdeo, mtrica sem referncia, rede neural artificial.
1. INTRODUO
Durante os ltimos anos, a literatura tem
apresentado um nmero crescente publicaes acerca
de mtricas objetivas para avaliao de qualidade de
vdeo para diversas aplicaes em radiodifuso ou no
processamento de vdeo digital, seja na aquisio do
sinal, codificao e decodificao, compresso,
transmisso, restaurao, armazenamento,
segmentao e exibio de sinais de vdeo digital [1
4]. A avaliao de qualidade de vdeo digital pode ser
realizada por meio de mtricas subjetiva e objetiva. A
primeira requer uma grande quantidade de recursos
humanos e apresenta elevado custo em sua
implementao [13]. Porm, as mtricas objetivas
so vantajosas quando apresentam um determinado
grau de correlao com as mtricas subjetivas. Logo,
o desenvolvimento destas um desafio no campo de
avaliao de qualidade de vdeo e imagem. Alm
disso, as mtricas objetivas, devido natureza de seu
critrio objetivo, independem de interao humana e
so facilmente reprodutveis [3]. Dentre as mtricas
objetivas destacam-se as mtricas sem referncia
(No-Reference NR), pois no necessitam do vdeo
de referncia no clculo de sua medida. Entretanto,
estas requerem um conhecimento a priori sobre as
distores em vdeo digital para que seja estabelecida
uma correlao com os resultados subjetivos [3].
A maioria das mtricas NR encontradas na
literatura so baseadas na avaliao de qualidade de
imagens e em caractersticas relacionadas ao Sistema
Visual Humano (SVH). Assim, o desenvolvimento de
mtricas NR difcil, devido necessidade de emular
a percepo do SVH que envolve aspectos cognitivos,
emocionais e estticos relacionados ao contedo do
vdeo e que so altamente dependentes do
observador [4], [5].
A literatura reporta diversos esforos no
desenvolvimento de mtricas para avaliao de
qualidade de vdeo baseadas em redes neurais e em
algoritmos de aprendizado. Babu et al. [6] apresentam
uma mtrica para avaliar a qualidade de imagens
comprimidas em JPEG (Joint Photographic Experts
Group) por meio de um algoritmo de aprendizado de
crescimento e propem o uso de uma rede neural
GAP-RBF (Growing and Pruning Radial Basis
Function) que usa caractersticas relacionadas ao
SVH. Jiang et al. [7] desenvolveram uma mtrica NR
para avaliao de qualidade de vdeo em HD (High
Definition) baseada em uma rede neural treinada pelo
algoritmo BP (Back-Propagation) que usa seis
caractersticas espao-temporais e a RoI (Region of
Interest). Choe et al. [8] desenvolveram uma mtrica
NR baseada no fluxo de bits para avaliao de
qualidade de vdeo codificado em H.264. Esta mtrica
extrai caractersticas quadro a quadro e usa uma rede
neural alimentada adiante (feedforward) com trs
camadas. Suresh et al. [9] apresentaram uma
extenso do algoritmo ELM na tarefa de avaliar a
qualidade de imagens comprimidas em JPEG com
base no esquema de seleo mltipla KS-ELM (K-fold
selection Scheme using ELM) e no algoritmo RCGA-
ELM (Real-Coded Genetic Algorithm using ELM) para
seleo dos pesos de entrada e polarizaes.
Este trabalho apresenta uma verso estendida do
algoritmo ELM para redes neurais SLFN (Single-
hidden-Layer Feedforward Neural Networks) que
implementa um simples critrio de parada na fase de
treinamento. Alm disso, esse mtodo usa seis
caractersticas espao-temporais de vdeos
submetidos a diversas condies de distoro.
Este artigo est dividido da seguinte maneira: a
Seo 2 descreve as mtricas para avaliao de
qualidade de vdeo. A Seo 3 descreve o mtodo NR
proposto para avalio de qualidade de vdeo digital. A
Seo 4 apresenta os resultados experimentais, em
que so comparados o mtodo NR proposto e duas
mtricas FR. Finalmente, a Seo 5 apresenta a
concluso do artigo.

Pesquisas em ambientes digitais - TV Internet Radio Cinema
Revista de Radiodifuso v. 07 n. 08 2013 9
MTRICA SEM REFERNCIA BASEADA EM REDES NEURAIS
PARA AVALIAO OBJETIVA DE QUALIDADE DE VDEO DIGITAL
Wyllian Bezerra da Silva, Alexandre de Almeida Prado Pohl
Programa de Ps-Graduao em Engenharia Eltrica e Informtica Industrial (CPGEI) UTFPR, Curitiba, Brasil
wyllianbs@gmail.com, pohl@utfpr.edu.br
Resumo: Este trabalho apresenta uma mtrica sem referncia para avaliao de qualidade de vdeo digital baseada em uma rede neural artifcial que usa uma verso estendida do algoritmo de aprendizado ELM (Extreme Learning Machine). O mtodo proposto realiza o treinamento da rede neural a partir de seis caractersticas espao-temporais. Os resultados experimentais mostram que o mtodo proposto apresenta desempenho superior s mtricas de referncia completa PSNR e MS-SSIM na tarefa de predio de qualidade de vdeo. Logo, o mtodo proposto pode ser usado no monitoramento de qualidade em sistemas de transmisso e recepo de vdeo digital, tais como IPTV e TV digital.
Palavras chave: algoritmo ELM, avaliao objetiva de vdeo, mtrica sem referncia, rede neural artifcial.
1. INTRODUO
Durante os ltimos anos, a literatura tem apresentado um nmero crescente publicaes acerca de mtricas objetivas para avaliao de qualidade de vdeo para diversas aplicaes em radiodifuso ou no processamento de vdeo digital, seja na aquisio do sinal, codifcao e decodifcao, compresso, transmisso, restaurao, armazenamento, segmentao e exibio de sinais de vdeo digital [14]. A avaliao de qualidade de vdeo digital pode ser realizada por meio de mtricas subjetiva e objetiva. A primeira requer uma grande quantidade de recursos humanos e apresenta elevado custo em sua implementao [13]. Porm, as mtricas objetivas so vantajosas quando apresentam um determinado grau de correlao com as mtricas subjetivas. Logo, o desenvolvimento destas um desafo no campo de avaliao de qualidade de vdeo e imagem. Alm disso, as mtricas objetivas, devido natureza de seu critrio objetivo, independem de interao humana e so facilmente reprodutveis [3]. Dentre as mtricas objetivas destacam-se as mtricas sem referncia (No-Reference NR), pois no necessitam do vdeo de referncia no clculo de sua medida. Entretanto, estas requerem um conhecimento a priori sobre as distores em vdeo digital para que seja estabelecida uma correlao com os resultados subjetivos [3].
A maioria das mtricas NR encontradas na literatura so baseadas na avaliao de qualidade de imagens e em caractersticas relacionadas ao Sistema Visual Humano (SVH). Assim, o desenvolvimento de mtricas NR difcil, devido necessidade de emular a percepo do SVH que envolve aspectos cognitivos, emocionais e estticos relacionados ao contedo do vdeo e que so altamente dependentes do observador [4], [5].
A literatura reporta diversos esforos no desenvolvimento de mtricas para avaliao de qualidade de vdeo baseadas em redes neurais e em algoritmos de aprendizado. Babu et al. [6] apresentam uma mtrica para avaliar a qualidade de imagens comprimidas em JPEG (Joint Photographic Experts Group) por meio de um algoritmo de aprendizado de crescimento e propem o uso de uma rede neural GAP-RBF (Growing and Pruning Radial Basis Function) que usa caractersticas relacionadas ao SVH. Jiang et al. [7] desenvolveram uma mtrica NR para avaliao de qualidade de vdeo em HD (High Defnition) baseada em uma rede neural treinada pelo algoritmo BP (Back-Propagation) que usa seis caractersticas espao-temporais e a RoI (Region of Interest). Choe et al. [8] desenvolveram uma mtrica NR baseada no fuxo de bits para avaliao de qualidade de vdeo codifcado em H.264. Esta mtrica extrai caractersticas quadro a quadro e usa uma rede neural alimentada adiante (feedforward) com trs camadas. Suresh et al. [9] apresentaram uma extenso do algoritmo ELM na tarefa de avaliar a qualidade de imagens comprimidas em JPEG com base no esquema de seleo mltipla KS-ELM (K-fold selection Scheme using ELM) e no algoritmo RCGA-ELM (Real-Coded Genetic Algorithm using ELM) para seleo dos pesos de entrada e polarizaes.
Este trabalho apresenta uma verso estendida do algoritmo ELM para redes neurais SLFN (Single-hidden-Layer Feedforward Neural Networks) que implementa um simples critrio de parada na fase de treinamento. Alm disso, esse mtodo usa seis caractersticas espao-temporais de vdeos submetidos a diversas condies de distoro.
Este artigo est dividido da seguinte maneira: a Seo 2 descreve as mtricas para avaliao de qualidade de vdeo. A Seo 3 descreve o mtodo NR proposto para avalio de qualidade de vdeo digital. A Seo 4 apresenta os resultados experimentais, em que so comparados o mtodo NR proposto e duas mtricas FR. Finalmente, a Seo 5 apresenta a concluso do artigo.
2. AVALIAO DE QUALIDADE DE VDEO
O processo de avaliao de qualidade de vdeo
pode ser realizado com a aplicao de mtricas
subjetivas ou objetivas. As mtricas subjetivas
estimam a qualidade do vdeo por meio de avaliadores
humanos. Logo, exigem um alto custo, pois
necessitam de uma grande quantidade de recursos
humanos e apresentam problemas quanto aos
requisitos de imparcialidade e reprodutibilidade,
tornando-se inapropriadas em sistemas de
radiodifuso ou em provedores de contedo [10], [11].
Por outro lado, as mtricas objetivas so baseadas em
modelos matemticos, cujo objetivo produzir um
escore de qualidade que emule a percepo do SVH.
Alm disso, as mtricas objetivas requerem baixo
custo de implementao (quando comparadas com as
mtricas subjetivas) e no apresentam problemas
quanto reprodutibilidade e imparcialidade.
As mtricas objetivas para avaliao de qualidade
de vdeo podem ser classifcadas em trs categorias:
(i) mtricas de referncia completa (Full-Reference
FR); (ii) mtricas de referncia reduzida (Reduced-
Reference RR); (iii) mtricas sem referncia (NR).
2.1. Mtricas FR
As mtricas FR requerem o vdeo de referncia
(fonte) no clculo do escore de qualidade. Estas
mtricas so amplamente utilizadas no processo de
validao de mtricas RR ou NR, por meio da
comparao de desempenho defnida pelas
recomendaes do Grupo de Especialistas em
Qualidade de Vdeo (VQEG Video Quality Experts
Group) que um rgo de padronizao internacional
de mtricas subjetivas e objetivas de qualidade de
vdeo. Dentre as mtricas FR, destacam-se o PSNR
(Peak Signal-to-Noise Ratio), SSIM (Structural
SIMilarity index) [12] e MS-SSIM (Multi-Scale
Structural SIMilarity index) [13].
O PSNR uma mtrica FR baseada no erro pixel a
pixel de fcil implementao. Entretanto, apresenta
baixa correlao com o SVH [14]. A sua medida
processada sobre o erro quadro a quadro, i.e., entre o
quadro original x e o quadro y . A expresso a seguir
defne o PSNR para um conjunto de quadros F .
20
1
1
PSNR 20log ,
F
f
f f
v
F MSE



(1)
com

2
0 0
1
MSE , , , , ,
N M
f
i j
x f i j y f i j
NM

(2)
em que o termo f v igual a (2 1) k , cujo k o
nmero de bits por pixel, i.e., a componente de
luminncia do quadro f . Os termos x f ,i, j e
y f ,i, j so os valores de luminncia do quadro de
origem e degradado, respectivamente. As
componentes bidimensionais so representadas pelo
nmero de colunas N e pelo nmero de linhas M . O
termo f MSE defnido como erro quadrtico mdio
ou MSE (Mean Square Error).
A mtrica SSIM baseia-se no fato de que o SVH
fortemente adaptado para extrair informaes das
caractersticas estruturais de um quadro ou imagem.
Logo, uma medida de similaridade estrutural (ou
distoro) pode prover boa aproximao para a
qualidade perceptual de um vdeo [3, 79]. Sejam x e
y dois sinais no-negativos, em que y o sinal
degradado e x o sinal original (sem perda de
qualidade), a medida de similaridade utilizada como
um ndice quantitativo de qualidade do sinal distorcido,
ou seja, x tomado como a referncia para medir a
qualidade de y . A mtrica SSIM possui diversas
extenses, dentre as quais a verso MS-SSIM,
proposta por Wang et al. [13] que assume uma
abordagem multiescalar.
2.2. Mtricas RR
As mtricas de referncia reduzida retiram certa
quantidade de caractersticas do vdeo original (fonte),
baseadas em componentes espaciais, temporais, no
domnio da frequncia ou no fuxo de bits (bitstream).
Este tipo de mtrica amplamente utilizada no
monitoramento de transmisses em rede [17]. Neste
tipo de cenrio de aplicao, o vdeo transmitido
com uma sequncia de informao codifcada
(overhead) e no lado receptor ocorre a sua
decodifcao, seguido pelo clculo do ndice de
qualidade, o qual obtido por meio da comparao
entre a representao reduzida da informao nos
pares emissor e receptor [18]. Tipicamente, mtricas
RR so implementadas por meio de funes, divididas
em duas etapas [19]: (i) clculo do erro entre os
vdeos original e distorcido, constitudo pela diferena
de suas caractersticas, a fm de compor a
representao reduzida da informao; (ii) funo que
agrupa os erros ou diferenas para obter um ndice de
qualidade global. Algumas mtricas RR exploram
propriedades dos artefatos, por meio da extrao de
caractersticas e um modelo de parametrizao [20]
com foco em tipos especfcos de distores
(artefatos). Esta abordagem encontrada em Silva et
al. [17], cujo clculo do escore de qualidade
baseado na diferena de atividade dos coefcientes
DCT (Discrete Cosine Transform) em um macro bloco
com resoluo de 1616 pixels.
2.3. Mtricas NR
As mtricas NR extraem caractersticas
relacionadas ao SVH do vdeo distorcido, i.e., na
recepo do sinal de vdeo [14]. Tipicamente, h duas
abordagens no desenvolvimento destas mtricas: (i)
extrao dos parmetros sobre o fuxo de bits, tais
como a taxa de compresso, informaes
relacionadas ao GoP (Group of Pictures), estimao
de movimento, perfl e nvel de codifcao, bem como
o parmetro de quantizao ou QP (Quantization
Parameter) [2125]. Mtricas NR apresentam maior
complexidade quando so aplicadas em vdeo, devido
variao temporal dos quadros, contedos das
cenas e difculdade de compreenso das
caractersticas do SVH [26]. Assim, algumas mtricas
dessa categoria exploram caractersticas espaciais e
temporais na estimao de qualidade de vdeo [21].
3. MTODO PROPOSTO
O mtodo proposto, denominado NRVQA-ELMtc
(No-Reference Video Quality Assessment using
Extreme Learning Machine algorithm with termination
criteria) [27] combina caractersticas espaciais e
temporais, por meio de uma rede neural artifcial
SLFNs usando o algoritmo de treinamento ELM [28]
com a implementao de um simples critrio de
parada.
3.1. Caractersticas espao-temporais
As caractersticas espaciais incorporadas no
mtodo proposto so baseadas em medidas de
artefatos em vdeo digital, i.e., distores de blocagem
e borramento desenvolvidas por Wang et al. [20].
Assim, a componente de luminncia do quadro f
representada por y(f , i, j ) com i 1,M e j 1, N ,
em que M e N so os nmeros de linhas e colunas,
respectivamente, de um quadro. Logo, as diferenas
de luminncia ao longo das linhas e colunas so
representadas, respectivamente, pelas expresses a
seguir.


, , , , 1 , , , 1, 1 ,
, , , 1, , , , 1, 1 .
h
v
d f i j y f i j y f i j j N
d f i j y f i j y f i j i M


(3)
O efeito de blocagem pode ser estimado pela
mdia das diferenas entre as bordas dos blocos da
DCT (Discrete Cosine Transform) nas direes
horizontal e vertical para uma sequncia F de
quadros, conforme mostra a Equao (4), com um
macrobloco de dimenso , cujo tamanho tpico
de 8 [20].


1
1
1 1 1
1
1
1 1 1
1
, , 1 ,
1
1
1
, 1 , .
1
1
N
F M
h h
f i j
M
F N
v
i j
v
f
B d f i j
N
F M
B d f i j
M
F N












(4)
A medida de blocagem em uma sequncia de
vdeo com F quadros determinada pela mdia entre
h B e v B , caracterizando a medida B , conforme a
expresso a seguir.
.
2
h v B B
B

(5)
Os efeitos de borramento so estimados pelo
clculo da reduo de atividade entre os blocos ,
em que usada a medida de blocagem nas direes
horizontal e vertical, conforme as expresses




1
1 1 1
1
1 1 1
, , ,
1 1
, ,
1
.
1
F M N
h h h
f i j
F M N
v v
f
v
i j
A d f i j B
F M N
A d f i j B
F N M








(6)
A medida de borramento, representada por A ,
conforme a Equao (7), determinada pela mdia
entre h A e v A .
.
2
h v A A
A

(7)
O segundo fator que contribui para a deteco do
artefato de borramento baseado na taxa de
cruzamento por zero (Zero Crossing ZC) nas
direes horizontal e vertical, conforme as expresses
a seguir.




2
1 1 1
2
1 1 1
1
, , ,
2
1
, , ,
2
F M N
h h
f i j
F M N
v v
f i j
Z z f i j
F M N
Z z f i j
F N M




(8)
em que os termos h z e v z so determinados por


1, na direo horizontal
, , ,
0, caso contrrio
1, na direo vertical
, , .
0, caso contrrio
h
v
z f i j
z f i j



(9)
Assim, a medida de borramento Z determinada
pela mdia entre as componentes h Z e v Z .
.
2
h v Z Z
Z

(10)
O mtodo proposto tambm incorpora trs
caractersticas temporais no treinamento da rede
neural SLFN com o algoritmo ELM.
A primeira caracterstica temporal a diferena de
movimento entre quadros adjacentes, representada
pela varivel TI (Temporal perceptual Information) [31]
que considera os valores de luminncia de pixels
localizados em uma mesma regio de um quadro,
conforme a expresso a seguir.

2
1
, , ,
1
F
f
TI m f i j
F


(11)
em que o nmero total de quadros F e mf ,i, j

o desvio padro da diferena de movimento
(diferena de luminncia) entre o quadro atual
y f ,i, j e o quadro anterior y f 1,i, j .
A segunda caracterstica temporal a mdia da
diferena absoluta (Mean Absolute Diference MAD)
[31] entre quadros sucessivos, representada pela
Equao (12) que defne a medida global da MAD
para todos os quadros de um vdeo.


2 1 1
1
, , 1, , .
1
F M N
f i j
MAD y f i j y f i j
M N F



(12)
A terceira caracterstica temporal a mdia da
diferena absoluta ponderada (weighted Mean
Absolute Diference MADw) [32], a qual mede o grau
de variao das cenas de um vdeo que considera a
cena atual de um quadro f e do quadro anterior f 1,
conforme a expresso:
2 1
1
.
1
F
f
f f
MAD
MADw
F MAD


(13)
Assim, o mtodo proposto combina as
caractersticas espaciais e temporais em uma matriz
, , , , , f f f f f f f x A B Z TI MAD MADw , em que f o
nmero de amostras de vdeo. A Figura 1 apresenta
as caractersticas temporais espaciais de dezessete
bases de dados de vdeos (denominada superconjunto
S) usadas neste trabalho e reportadas em [27]. A
recomendao ITU-T P.910 [31] defne a medida SI
(Spatial perceptual Information) como informao
espacial perceptual. A inspeo visual dessa fgura
mostra que as amostras de vdeo usadas neste
trabalho apresentam uma grande variao espaotemporal.
Fig. 1. Caractersticas espaciais e temporais do superconjunto
S com 216 amostras de referncia
3.2. Mtrica NRVQA-ELMtc
O algoritmo ELM [28] desenvolvido para o
treinamento de uma rede SLFN atribui pesos e
polarizaes (biases) de maneira aleatria, segundo
uma distribuio uniforme. O treinamento compreende
N amostras distintas representadas pela varivel
, , , 1, , n m
f f f f x t x t f N , cujo clculo
conforme a expresso

1
, 1, , ,
K
K i j j f j f
f
f g b f N

x w x o (14)
em que f o a sada (escore objetivo), g(x) a
funo de ativao e j o peso que conecta o jsimo
neurnio da camada oculta ao neurnio de
sada. De acordo com [28], uma rede SLFN com K
ns na camada oculta e uma funo de ativao g(x)
pode apresentar um erro mdio prximo de zero, i.e.,
1
0
K
f f
f
o t . Logo, h parmetros j , j w e j b tal
que

1
, 1, , ,
K
j j f j f
f
g b f N

w x t (15)
em que f t o vetor alvo (escores subjetivos),
T
1, , j j jn w w w o vetor de peso que conecta o jsimo
neurnio da camada oculta ao neurnio da
camada de entrada, j b denota a polarizao (bias) do
j-simo neurnio da camada oculta, j f w x o
produto interno de j w e f x . A Figura 2 ilustra o
algoritmo ELM empregado em uma arquitetura de
rede neural SLFN.
xi
1
j
N
1
j
K
ti
bj
N input neuron K hidden neuron output neuron
1
K
wj
Fig. 2. Arquitetura de uma rede neural SLFN usando algoritmo
de treinamento ELM
O sistema linear da Equao (16) resume o mtodo
do algoritmo ELM.
H T, (16)
em que a matriz da camada oculta representada por
1, , and 1, , f H h f N j K com a primeira
linha da matriz de caractersticas f x igual a
T
1 2 , , , f f f fn x x x x , i.e., a primeira linha igual a
1 1 1 1 1 1 1 , , , , , f f f f f f f x A B Z TI MAD MADw . A matriz de
sada e o vetor alvo (target) so defnidos como
T
1 , K e
T
1, , N T t t , respectivamente. O
termo
T
1 , 1, , j jm j j K denota o vetor de
peso que conecta o j-simo neurnio da camada
oculta e os neurnios de sada. Hung et al. [28]
propuseram a atribuio aleatria de pesos aos
parmetros j w e j b , a fm de seja obtido um pequeno
erro no-nulo durante o treinamento. Considerando o
sistema linear da Equao (17), os pesos da camada
de sada podem ser aproximados por
H T (17)
em que H defnida como matriz inversa
generalizada de Moore-Penrose (MP) [33] da matriz
de sada da camada oculta H . Alm disso, o
conjunto de treinamento , n oculta K e uma
funo de ativao g x , e.g., funo de base radial
(Radial Basis Function RBF), hard-limiting (hardlim),
sigmoidal (sig) e seno (sin). Em resumo, o algoritmo
ELM compreende trs etapas [28]:
i) Atribuio aleatria dos pesos de entrada j w e
polarizaes j b ;
ii) Clculo da matriz da camada de sada H ;
iii) Clculo dos pesos de sada : H T .
O mtodo NRVQA-ELMtc [27] implementa um
simples critrio de parada no treinamento da rede
neural SLFN, quanto atribuio aleatria dos pesos
j w e j b . Embora este critrio no seja direcionado,
busca os pesos relacionados com o menor RMSE
(Root-Mean-Square Error) entre a sada desejada
(escore subjetivo) e o escore objetivo na fase de
treinamento com k iteraes (tipicamente, k 100 ) e
N neurnios na camada oculta. Alm disso, conforme
estudo realizado em [27], caso o RMSE seja menor do
que 0,5 o algoritmo cessa a busca pelos parmetros
j w e j b .
4. RESULTADOS EXPERIMENTAIS
Esta seo apresenta os resultados de acurcia,
i.e., os coefcientes de correlao linear de Pearson
(Pearson Linear Correlation Coefcient PLCC) [34],
[35], entre os escores objetivos e subjetivos de 2627
amostras de vdeo estudadas em [27].
A Figura 3 compara a acurcia (PLCC) entre as
mtricas de referncia completa (FR) PSNR e MSSSIM
com o mtodo proposto (NRVQA-ELMtc) para
as 2627 amostras de vdeo, pertencentes a 17 bases
de dados de vdeo disponibilizadas por diversas
instituies e laboratrios [27]. A funo de ativao
usada na rede neural SLFN foi o seno (sin) com o
nmero de amostras de teste igual ao nmero de
neurnios na camada oculta ( N ). O mtodo de
validao cruzada mltipla (K-fold) foi usado com o
objetivo de gerar uma distribuio de acurcia, a qual
foi analisada por meio do diagrama de caixa (box-plot)
[36], em que o trao, o crculo e o quadrado, ambos
em vermelho, representam a mediana, a mdia e o
desvio padro, respectivamente. Destaca-se que
neste trabalho foi empregada uma validao cruzada
com um grande nmero de amostras de treinamentoteste
com K 100 , i.e., cada caixa do box-plot
comporta 100 experimentos distintos. Tipicamente, a
literatura apresenta trabalhos no campo da avaliao
Fig. 3. Box-plot da predio da acurcia (PLCC) entre as mtricas PSNR, MS-SSIM e o mtodo proposto NRVQA-ELMtc
de qualidade de vdeo com K entre 5 e 10 [37], [38].
Pela inspeo visual da Figura 3 observa-se que o
desempenho do mtodo proposto superior s
mtricas FR, em quaisquer condies de teste, i.e.,
para qualquer quantidade de amostras de teste
(nmero de neurnios na camada oculta) entre 25 e
500. Em especial, para N 50 , o mtodo proposto
apresenta valores de PLCC, em termos da mdia e
mediana, acima de 0,8, denotando uma forte
associao entre os escores objetivos e subjetivos, na
tarefa de predio de qualidade de vdeo. Isto ocorre
devido grande quantidade de amostras de vdeo
usadas no treinamento, e.g., para N 300 foram
usadas 2327 amostras de treinamento, ou seja,
mesmo usando pares de treinamento-teste disjuntos,
o mtodo proposto mostra uma acurcia superior s
mtricas de referncia completa. A assimetria positiva,
i.e., a maior concentrao da acurcia entre o
segundo quartil (mediana) e o terceiro quartil, na
distribuio do box-plot nos testes com 300 e 500
neurnios na camada oculta, indica que o mtodo
proposto apresenta um desempenho expressivo em
comparao com as mtricas FR.
Entretanto, mesmo para N entre 25 e 50, o
mtodo proposto apresentou uma acurcia maior do
que as mtricas FR, cujo melhor resultado foi para
N 25 com o desvio-quartil (amplitude interquartlica)
confnado entre 0,65 e 0,8. Alm disso, este resultado
tambm apresentou assimetria positiva com a mdia
do PLCC em torno de 0,75.
5. CONCLUSO
Este trabalho apresentou uma mtrica NR baseada
em uma rede neural artifcial SLFN, cujo treinamento
determinado pelo algoritmo ELM, o qual considera
caractersticas espao-temporais e os escores
subjetivos (alvos) extrados de 2627 amostras
treinamento. Alm disso, este trabalho prope uma
extenso do algoritmo ELM por meio de um simples
critrio de parada, a fm de que sejam obtidos
parmetros da rede neural artifcial relacionados com
o menor RMSE. Tipicamente, a comparao entre
mtricas FR e NR injusta, devido ausncia do
vdeo de referncia na obteno do escore de
qualidade em mtricas NR. Entretanto, os resultados
experimentais mostram que o mtodo proposto
apresentou desempenho superior s mtricas de
referncia completa PSNR e MS-SSIM, sobretudo,
quando o nmero de amostras de teste e de neurnios
na camada oculta da rede SLFN maior do que 250.
Logo, a mtrica NRVQA-ELMtc pode ser empregada
no monitoramento de qualidade em sistemas de
transmisso e recepo de vdeo digital, tais como
IPTV (Internet Protocol Television), TV digital ou em
dispositivos mveis, tais como ultrabooks,
smartphones, tablets e em aparelhos WiDi (Wireless
Display).
REFERNCIAS
[1] S. Winkler, Issues in vision modeling for perceptual
video quality assessment, Signal Processing, vol. 78,
no. 2, pp. 231252, 1999.
[2] Z. Wang and A. C. Bovik, Modern image quality
assessment. San Rafael, CA: Morgan & Claypool,
2006.
[3] W. Lin and C.-C. Jay Kuo, Perceptual visual quality
metrics: A survey, Journal of Visual Communication
and Image Representation, vol. 22, no. 4, pp. 297312,
May 2011.
[4] S. S. Hemami and A. R. Reibman, No-reference image
and video quality estimation: Applications and humanmotivated
design, Signal Processing: Image
Communication, vol. 25, no. 7, pp. 469481, 2010.
[5] Z. Wang and A. Bovik, Reduced- and No-Reference
Image Quality Assessment, IEEE Signal Processing
Magazine, vol. 28, no. 6, pp. 2940, Nov. 2011.
[6] R. V. Babu, S. Suresh, and A. Perkis, No-reference
JPEG-image quality assessment using GAP-RBF,
Signal Processing, vol. 87, no. 6, pp. 14931503, 2007.
[7] X. Jiang, F. Meng, J. Xu, and W. Zhou, No-Reference
Perceptual Video Quality Measurement for High
Defnition Videos Based on an Artifcial Neural
Network, in Computer and Electrical Engineering,
2008. ICCEE 2008. International Conference on, 2008,
pp. 424427.
[8] J. Choe, K. Lee, C. Lee, and S. Korea, No-reference
video quality measurement using neural networks, in
2009 16th International Conference on Digital Signal
Processing, 2009, pp. 14.
[9] S. Suresh, R. Venkatesh Babu, and H. J. Kim, Noreference
image quality assessment using modifed
extreme learning machine classifer, Applied Soft
Computing, vol. 9, no. 2, pp. 541552, Mar. 2009.
[10] A. M. Eskicioglu and P. S. Fisher, Image quality
measures and their performance, IEEE Transactions
on Communications, vol. 43, no. 12, pp. 29592965,
1995.
[11] U. Engelke and H.-J. Zepernick, Perceptual-based
Quality Metrics for Image and Video Services: A
Survey, in Proceedings EuroNGI Conf. Next
Generation Internet Networks, 2007, pp. 190197.
[12] Z. Wang, A. C. Bovik, H. R. Sheikh, and E. P
Simoncelli, Image quality assessment: from error
visibility to structural similarity., IEEE Transactions on
Image Processing, vol. 13, no. 4, pp. 600612, 2004.
[13] Z. Wang, E. P. Simoncelli, and A. C. Bovik, Multiscale
structural similarity for image quality assessment, in
The Thrity-Seventh Asilomar Conference on Signals,
Systems & Computers, 2003, 2003, vol. 2, no. 1, pp.
13981402.
[14] H. R. Wu, K. R. Rao, and A. A. Kassim, Digital Video
Image Quality and Perceptual Coding, Journal of
Electronic Imaging, vol. 16, no. 3, 2007.
[15] Z. Wang and A. C. Bovik, A universal image quality
index, IEEE Signal Processing Letters, vol. 9, no. 3,
pp. 8184, Mar. 2002.
[16] Y. Shi, Y. Ding, R. Zhang, and J. Li, Structure and Hue
Similarity for Color Image Quality Assessment, in 2009
International Conference on Electronic Computer
Technology, 2009, pp. 329333.
[17] W. B. Silva, A. A. P. Pohl, and K. V. O. Fonseca, A
Reduced-Reference Video Quality Assessment Method
based on the Activity-Diference of DCT Coefcients,
IEICE Transactions on Information and Systems, vol. E96-D, no. 3, 2013.
[18] P. Le Callet, C. Viard-Gaudin, and D. Barba, A Convolutional Neural Network Approach for Objective Video Quality Assessment, IEEE Transactions on Neural Networks, vol. 17, no. 5, pp. 13161327, 2006.
[19] P. Le Callet and D. Barba, Image Quality Assessment: From Sites Errors to a Global Appreciation of Quality, in Proceedings of the Picture Coding Sympsium, 2001, pp. 105108.
[20] M. Miyahara, K. Kotani, and V. R. Algazi, Objective picture quality scale (PQS) for image coding, IEEE Transactions on Communications, vol. 46, no. 9, pp. 12151226, 1998.
[21] M. Slanina, V. Ricny, and R. Forchheimer, A Novel Metric for H.264/AVC No-Reference Quality Assessment, in 14th International Workshop on Systems, Signals and Image Processing and 6th EURASIP Conference focused on Speech and Image Processing, Multimedia Communications and Services, 2007, pp. 114117.
[22] O. Sugimoto, S. Naito, S. Sakazawa, and A. Koike, Objective perceptual video quality measurement method based on hybrid no reference framework, in 16th IEEE International Conference on Image Processing (ICIP09), 2009, pp. 22372240.
[23] T. Oelbaum, C. Keimel, and K. Diepold, Rule-Based No-Reference Video Quality Evaluation Using Additionally Coded Videos, IEEE Journal of Selected Topics in Signal Processing, vol. 3, no. 2, pp. 294303, 2009.
[24] N. Staelens, N. Vercammen, Y. Dhondt, B. Vermeulen, P. Lambert, R. de Walle, and P. Demeester, ViQID: A No-Reference bit stream-based visual quality impairment detector, in Proceedings of the Second Int Quality of Multimedia Experience (QoMEX) Workshop, 2010, pp. 206211.
[25] F. Yang, S. Wan, Q. Xie, and H. R. Wu, No-Reference Quality Assessment for Networked Video via Primary Analysis of Bit Stream, IEEE Transactions on Circuits and Systems for Video Technology, vol. 20, no. 11, pp. 15441554, Nov. 2010.
[26] Z. Wang, H. R. Sheikh, and A. C. Bovik, Objective Video Quality Assessment, in The Handbook of Video Databases: Design and Applications, B. Furht and O. Marques, Eds. Boca Raton, FL, USA: CRC Press, 2003, pp. 10411078.
[27] W. B. da Silva and A. de A. P. Pohl, Mtodos Sem Referncia Baseados em Caractersticas Espao-Temporais para Avaliao Objetiva de Qualidade de Vdeo Digital, Universidade Tecnolgica Federal do Paran (UTFPR), 2013.
[28] G.-B. Huang, Q.-Y. Zhu, and C.-K. Siew, Extreme learning machine: Theory and applications, Neurocomputing, vol. 70, no. 13, pp. 489501, Dec. 2006.
[29] Z. Wang, H. R. Sheikh, and A. C. Bovik, No-reference perceptual quality assessment of JPEG compressed images, in Image Processing. 2002. Proceedings. IEEE International Conference on Image Processing, 2002, vol. 1, pp. vol.1 I477 I480.
[30] W. B. Silva and A. A. P. Pohl, No-Reference Video Quality Assessment Method based on the Levenberg-Marquardt Minimization, in XXX Brazilian Symposium on Telecommunications (SBrT12), 2012.
[31] ITU-T P.910, Subjective video quality assessment methods for multimedia applications, Standardization Sector of ITU, 1999.
[32] W. Ding, Y. Tong, Q. Zhang, and D. Yang, Image and Video Quality Assessment Using Neural Network and SVM, Tsinghua Science & Technology, vol. 13, no. 1, pp. 112116, 2008.
[33] K. S. Banerjee, C. R. Rao, and S. K. Mitra, Generalized Inverse of Matrices and Its Applications, Technometrics, vol. 15, no. 1, p. 197, Feb. 1973.
[34] VQEG, Final report from the video quality experts group on the validation of reduced-reference and no-reference objective models for standard defnition television, Phase I, 2009.
[35] VQEG, Report on the validation of video quality models for high defnition video content, 2010.
[36] J. W. Tukey, Exploratory Data Analysis. New York: Addison-Wesley Publishing Company, 1977.
[37] P. Gastaldo and R. Zunino, Neural networks for the no-reference assessment of perceived quality, J. Electronic Imaging, vol. 14, no. 3, p. 033004, 2005.
[38] R. Herzog, M. adk, T. O. Aydn, K. I. Kim, K. Myszkowski, and H.-P. Seidel, NoRM: No-Reference Image Quality Metric for Realistic Image Synthesis, Comp. Graph. Forum, vol. 31, no. 2pt4, pp. 545554, 2012.
10 Revista de Radiodifuso v. 07 n. 08 2013
Pesquisas em ambientes digitais - TV Internet Radio Cinema
2. AVALIAO DE QUALIDADE DE VDEO
O processo de avaliao de qualidade de vdeo
pode ser realizado com a aplicao de mtricas
subjetivas ou objetivas. As mtricas subjetivas
estimam a qualidade do vdeo por meio de avaliadores
humanos. Logo, exigem um alto custo, pois
necessitam de uma grande quantidade de recursos
humanos e apresentam problemas quanto aos
requisitos de imparcialidade e reprodutibilidade,
tornando-se inapropriadas em sistemas de
radiodifuso ou em provedores de contedo [10], [11].
Por outro lado, as mtricas objetivas so baseadas em
modelos matemticos, cujo objetivo produzir um
escore de qualidade que emule a percepo do SVH.
Alm disso, as mtricas objetivas requerem baixo
custo de implementao (quando comparadas com as
mtricas subjetivas) e no apresentam problemas
quanto reprodutibilidade e imparcialidade.
As mtricas objetivas para avaliao de qualidade
de vdeo podem ser classificadas em trs categorias:
(i) mtricas de referncia completa (Full-Reference
FR); (ii) mtricas de referncia reduzida (Reduced-
Reference RR); (iii) mtricas sem referncia (NR).
2.1. Mtricas FR
As mtricas FR requerem o vdeo de referncia
(fonte) no clculo do escore de qualidade. Estas
mtricas so amplamente utilizadas no processo de
validao de mtricas RR ou NR, por meio da
comparao de desempenho definida pelas
recomendaes do Grupo de Especialistas em
Qualidade de Vdeo (VQEG Video Quality Experts
Group) que um rgo de padronizao internacional
de mtricas subjetivas e objetivas de qualidade de
vdeo. Dentre as mtricas FR, destacam-se o PSNR
(Peak Signal-to-Noise Ratio), SSIM (Structural
SIMilarity index) [12] e MS-SSIM (Multi-Scale
Structural SIMilarity index) [13].
O PSNR uma mtrica FR baseada no erro pixel a
pixel de fcil implementao. Entretanto, apresenta
baixa correlao com o SVH [14]. A sua medida
processada sobre o erro quadro a quadro, i.e., entre o
quadro original x e o quadro y . A expresso a seguir
define o PSNR para um conjunto de quadros F .
20
1
1
PSNR 20log ,
F
f
f
f
v
F MSE =
| |
= |
|
\ .


(1)
com
( ) ( )
2
0 0
1
MSE , , , , ,
N M
f
i j
x f i j y f i j
NM
= =
( =


(2)
em que o termo
f
v igual a (2 1)
k
, cujo k o
nmero de bits por pixel, i.e., a componente de
luminncia do quadro f . Os termos ( ) , , x f i j e
( ) , , y f i j so os valores de luminncia do quadro de
origem e degradado, respectivamente. As
componentes bidimensionais so representadas pelo
nmero de colunas N e pelo nmero de linhas M . O
termo
f
MSE definido como erro quadrtico mdio
ou MSE (Mean Square Error).
A mtrica SSIM baseia-se no fato de que o SVH
fortemente adaptado para extrair informaes das
caractersticas estruturais de um quadro ou imagem.
Logo, uma medida de similaridade estrutural (ou
distoro) pode prover boa aproximao para a
qualidade perceptual de um vdeo [3, 79]. Sejam x e
y dois sinais no-negativos, em que y o sinal
degradado e x o sinal original (sem perda de
qualidade), a medida de similaridade utilizada como
um ndice quantitativo de qualidade do sinal distorcido,
ou seja, x tomado como a referncia para medir a
qualidade de y . A mtrica SSIM possui diversas
extenses, dentre as quais a verso MS-SSIM,
proposta por Wang et al. [13] que assume uma
abordagem multiescalar.
2.2. Mtricas RR
As mtricas de referncia reduzida retiram certa
quantidade de caractersticas do vdeo original (fonte),
baseadas em componentes espaciais, temporais, no
domnio da frequncia ou no fluxo de bits (bitstream).
Este tipo de mtrica amplamente utilizada no
monitoramento de transmisses em rede [17]. Neste
tipo de cenrio de aplicao, o vdeo transmitido
com uma sequncia de informao codificada
(overhead) e no lado receptor ocorre a sua
decodificao, seguido pelo clculo do ndice de
qualidade, o qual obtido por meio da comparao
entre a representao reduzida da informao nos
pares emissor e receptor [18]. Tipicamente, mtricas
RR so implementadas por meio de funes, divididas
em duas etapas [19]: (i) clculo do erro entre os
vdeos original e distorcido, constitudo pela diferena
de suas caractersticas, a fim de compor a
representao reduzida da informao; (ii) funo que
agrupa os erros ou diferenas para obter um ndice de
qualidade global. Algumas mtricas RR exploram
propriedades dos artefatos, por meio da extrao de
caractersticas e um modelo de parametrizao [20]
com foco em tipos especficos de distores
(artefatos). Esta abordagem encontrada em Silva et
al. [17], cujo clculo do escore de qualidade
baseado na diferena de atividade dos coeficientes
DCT (Discrete Cosine Transform) em um macro bloco
com resoluo de 16 16 pixels.
2.3. Mtricas NR
As mtricas NR extraem caractersticas
relacionadas ao SVH do vdeo distorcido, i.e., na
recepo do sinal de vdeo [14]. Tipicamente, h duas
abordagens no desenvolvimento destas mtricas: (i)
extrao dos parmetros sobre o fluxo de bits, tais
como a taxa de compresso, informaes
relacionadas ao GoP (Group of Pictures), estimao
de movimento, perfil e nvel de codificao, bem como
o parmetro de quantizao ou QP (Quantization
Parameter) [2125]. Mtricas NR apresentam maior
complexidade quando so aplicadas em vdeo, devido
variao temporal dos quadros, contedos das
cenas e dificuldade de compreenso das
caractersticas do SVH [26]. Assim, algumas mtricas
dessa categoria exploram caractersticas espaciais e
temporais na estimao de qualidade de vdeo [21].
3. MTODO PROPOSTO
O mtodo proposto, denominado NRVQA-ELMtc
(No-Reference Video Quality Assessment using
Extreme Learning Machine algorithm with termination
criteria) [27] combina caractersticas espaciais e
temporais, por meio de uma rede neural artificial
SLFNs usando o algoritmo de treinamento ELM [28]
com a implementao de um simples critrio de
parada.
3.1. Caractersticas espao-temporais
As caractersticas espaciais incorporadas no
mtodo proposto so baseadas em medidas de
artefatos em vdeo digital, i.e., distores de blocagem
e borramento desenvolvidas por Wang et al. [20].
Assim, a componente de luminncia do quadro f
representada por ( , , ) y f i j com 1, i M e (

e 1, j N e (

,
em que M e N so os nmeros de linhas e colunas,
respectivamente, de um quadro. Logo, as diferenas
de luminncia ao longo das linhas e colunas so
representadas, respectivamente, pelas expresses a
seguir.
( ) ( ) ( ) | |
( ) ( ) ( ) | |
, , , , 1 , , , 1, 1 ,
, , , 1, , , , 1, 1 .
h
v
d f i j y f i j y f i j j N
d f i j y f i j y f i j i M
= + e
= + e

(3)
O efeito de blocagem pode ser estimado pela
mdia das diferenas entre as bordas dos blocos da
DCT (Discrete Cosine Transform) nas direes
horizontal e vertical para uma sequncia F de
quadros, conforme mostra a Equao (4), com um
macrobloco de dimenso t t , cujo tamanho tpico
de 8 t = [20].
( ) ( )
( ) ( )
1
1
1 1 1
1
1
1 1 1
1
, , 1 ,
1
1
1
, 1 , .
1
1
N
F M
h h
f i j
M
F N
v
i j
v
f
B d f i j
N
F M
B d f i j
M
F N
t
t
t
t
t
t

= = =

= = =
=
| |

|

\ .
=
| |

|

\ .



(4)
A medida de blocagem em uma sequncia de
vdeo com F quadros determinada pela mdia entre
h
B e
v
B , caracterizando a medida B , conforme a
expresso a seguir.
.
2
h v
B B
B
+
=

(5)
Os efeitos de borramento so estimados pelo
clculo da reduo de atividade entre os blocos t t ,
em que usada a medida de blocagem nas direes
horizontal e vertical, conforme as expresses
( ) ( )
( )
( ) ( )
( )
1
1 1 1
1
1 1 1
, , ,
1 1
, ,
1
.
1
F M N
h h h
f i j
F M N
v v
f
v
i j
A d f i j B
F M N
A d f i j B
F N M
t
t
t
t

= = =

= = =
=

=




(6)
A medida de borramento, representada por A ,
conforme a Equao (7), determinada pela mdia
entre
h
A e
v
A .
.
2
h v
A A
A
+
=

(7)
O segundo fator que contribui para a deteco do
artefato de borramento baseado na taxa de
cruzamento por zero (Zero Crossing ZC) nas
direes horizontal e vertical, conforme as expresses
a seguir.
( )
( )
( )
( )
2
1 1 1
2
1 1 1
1
, , ,
2
1
, , ,
2
F M N
h h
f i j
F M N
v v
f i j
Z z f i j
F M N
Z z f i j
F N M

= = =

= = =
=

=




(8)
em que os termos
h
z e
v
z so determinados por
( )
( )
1, na direo horizontal
, , ,
0, caso contrrio
1, na direo vertical
, , .
0, caso contrrio
h
v
z f i j
z f i j


(9)
Assim, a medida de borramento Z determinada
pela mdia entre as componentes
h
Z e
v
Z .
.
2
h v
Z Z
Z
+
=

(10)
O mtodo proposto tambm incorpora trs
caractersticas temporais no treinamento da rede
neural SLFN com o algoritmo ELM.
A primeira caracterstica temporal a diferena de
movimento entre quadros adjacentes, representada
pela varivel TI (Temporal perceptual Information) [31]
que considera os valores de luminncia de pixels
localizados em uma mesma regio de um quadro,
conforme a expresso a seguir.
( )
2
1
, , ,
1
F
f
TI m f i j
F
o
=
( =



(11)
em que o nmero total de quadros F e ( ) , , m f i j o (


o desvio padro da diferena de movimento
(diferena de luminncia) entre o quadro atual
( ) , , y f i j e o quadro anterior ( ) 1, , y f i j .
A segunda caracterstica temporal a mdia da
diferena absoluta (Mean Absolute Difference MAD)
Pesquisas em ambientes digitais - TV Internet Radio Cinema
Revista de Radiodifuso v. 07 n. 08 2013 11
MTRICA SEM REFERNCIA BASEADA EM REDES NEURAIS
PARA AVALIAO OBJETIVA DE QUALIDADE DE VDEO DIGITAL
Wyllian Bezerra da Silva, Alexandre de Almeida Prado Pohl
Programa de Ps-Graduao em Engenharia Eltrica e Informtica Industrial (CPGEI) UTFPR, Curitiba, Brasil
wyllianbs@gmail.com, pohl@utfpr.edu.br
Resumo: Este trabalho apresenta uma mtrica sem referncia para avaliao de qualidade de vdeo digital baseada em uma rede neural artifcial que usa uma verso estendida do algoritmo de aprendizado ELM (Extreme Learning Machine). O mtodo proposto realiza o treinamento da rede neural a partir de seis caractersticas espao-temporais. Os resultados experimentais mostram que o mtodo proposto apresenta desempenho superior s mtricas de referncia completa PSNR e MS-SSIM na tarefa de predio de qualidade de vdeo. Logo, o mtodo proposto pode ser usado no monitoramento de qualidade em sistemas de transmisso e recepo de vdeo digital, tais como IPTV e TV digital.
Palavras chave: algoritmo ELM, avaliao objetiva de vdeo, mtrica sem referncia, rede neural artifcial.
1. INTRODUO
Durante os ltimos anos, a literatura tem apresentado um nmero crescente publicaes acerca de mtricas objetivas para avaliao de qualidade de vdeo para diversas aplicaes em radiodifuso ou no processamento de vdeo digital, seja na aquisio do sinal, codifcao e decodifcao, compresso, transmisso, restaurao, armazenamento, segmentao e exibio de sinais de vdeo digital [14]. A avaliao de qualidade de vdeo digital pode ser realizada por meio de mtricas subjetiva e objetiva. A primeira requer uma grande quantidade de recursos humanos e apresenta elevado custo em sua implementao [13]. Porm, as mtricas objetivas so vantajosas quando apresentam um determinado grau de correlao com as mtricas subjetivas. Logo, o desenvolvimento destas um desafo no campo de avaliao de qualidade de vdeo e imagem. Alm disso, as mtricas objetivas, devido natureza de seu critrio objetivo, independem de interao humana e so facilmente reprodutveis [3]. Dentre as mtricas objetivas destacam-se as mtricas sem referncia (No-Reference NR), pois no necessitam do vdeo de referncia no clculo de sua medida. Entretanto, estas requerem um conhecimento a priori sobre as distores em vdeo digital para que seja estabelecida uma correlao com os resultados subjetivos [3].
A maioria das mtricas NR encontradas na literatura so baseadas na avaliao de qualidade de imagens e em caractersticas relacionadas ao Sistema Visual Humano (SVH). Assim, o desenvolvimento de mtricas NR difcil, devido necessidade de emular a percepo do SVH que envolve aspectos cognitivos, emocionais e estticos relacionados ao contedo do vdeo e que so altamente dependentes do observador [4], [5].
A literatura reporta diversos esforos no desenvolvimento de mtricas para avaliao de qualidade de vdeo baseadas em redes neurais e em algoritmos de aprendizado. Babu et al. [6] apresentam uma mtrica para avaliar a qualidade de imagens comprimidas em JPEG (Joint Photographic Experts Group) por meio de um algoritmo de aprendizado de crescimento e propem o uso de uma rede neural GAP-RBF (Growing and Pruning Radial Basis Function) que usa caractersticas relacionadas ao SVH. Jiang et al. [7] desenvolveram uma mtrica NR para avaliao de qualidade de vdeo em HD (High Defnition) baseada em uma rede neural treinada pelo algoritmo BP (Back-Propagation) que usa seis caractersticas espao-temporais e a RoI (Region of Interest). Choe et al. [8] desenvolveram uma mtrica NR baseada no fuxo de bits para avaliao de qualidade de vdeo codifcado em H.264. Esta mtrica extrai caractersticas quadro a quadro e usa uma rede neural alimentada adiante (feedforward) com trs camadas. Suresh et al. [9] apresentaram uma extenso do algoritmo ELM na tarefa de avaliar a qualidade de imagens comprimidas em JPEG com base no esquema de seleo mltipla KS-ELM (K-fold selection Scheme using ELM) e no algoritmo RCGA-ELM (Real-Coded Genetic Algorithm using ELM) para seleo dos pesos de entrada e polarizaes.
Este trabalho apresenta uma verso estendida do algoritmo ELM para redes neurais SLFN (Single-hidden-Layer Feedforward Neural Networks) que implementa um simples critrio de parada na fase de treinamento. Alm disso, esse mtodo usa seis caractersticas espao-temporais de vdeos submetidos a diversas condies de distoro.
Este artigo est dividido da seguinte maneira: a Seo 2 descreve as mtricas para avaliao de qualidade de vdeo. A Seo 3 descreve o mtodo NR proposto para avalio de qualidade de vdeo digital. A Seo 4 apresenta os resultados experimentais, em que so comparados o mtodo NR proposto e duas mtricas FR. Finalmente, a Seo 5 apresenta a concluso do artigo.
2. AVALIAO DE QUALIDADE DE VDEO
O processo de avaliao de qualidade de vdeo
pode ser realizado com a aplicao de mtricas
subjetivas ou objetivas. As mtricas subjetivas
estimam a qualidade do vdeo por meio de avaliadores
humanos. Logo, exigem um alto custo, pois
necessitam de uma grande quantidade de recursos
humanos e apresentam problemas quanto aos
requisitos de imparcialidade e reprodutibilidade,
tornando-se inapropriadas em sistemas de
radiodifuso ou em provedores de contedo [10], [11].
Por outro lado, as mtricas objetivas so baseadas em
modelos matemticos, cujo objetivo produzir um
escore de qualidade que emule a percepo do SVH.
Alm disso, as mtricas objetivas requerem baixo
custo de implementao (quando comparadas com as
mtricas subjetivas) e no apresentam problemas
quanto reprodutibilidade e imparcialidade.
As mtricas objetivas para avaliao de qualidade
de vdeo podem ser classifcadas em trs categorias:
(i) mtricas de referncia completa (Full-Reference
FR); (ii) mtricas de referncia reduzida (Reduced-
Reference RR); (iii) mtricas sem referncia (NR).
2.1. Mtricas FR
As mtricas FR requerem o vdeo de referncia
(fonte) no clculo do escore de qualidade. Estas
mtricas so amplamente utilizadas no processo de
validao de mtricas RR ou NR, por meio da
comparao de desempenho defnida pelas
recomendaes do Grupo de Especialistas em
Qualidade de Vdeo (VQEG Video Quality Experts
Group) que um rgo de padronizao internacional
de mtricas subjetivas e objetivas de qualidade de
vdeo. Dentre as mtricas FR, destacam-se o PSNR
(Peak Signal-to-Noise Ratio), SSIM (Structural
SIMilarity index) [12] e MS-SSIM (Multi-Scale
Structural SIMilarity index) [13].
O PSNR uma mtrica FR baseada no erro pixel a
pixel de fcil implementao. Entretanto, apresenta
baixa correlao com o SVH [14]. A sua medida
processada sobre o erro quadro a quadro, i.e., entre o
quadro original x e o quadro y . A expresso a seguir
defne o PSNR para um conjunto de quadros F .
20
1
1
PSNR 20log ,
F
f
f f
v
F MSE



(1)
com

2
0 0
1
MSE , , , , ,
N M
f
i j
x f i j y f i j
NM

(2)
em que o termo f v igual a (2 1) k , cujo k o
nmero de bits por pixel, i.e., a componente de
luminncia do quadro f . Os termos x f ,i, j e
y f ,i, j so os valores de luminncia do quadro de
origem e degradado, respectivamente. As
componentes bidimensionais so representadas pelo
nmero de colunas N e pelo nmero de linhas M . O
termo f MSE defnido como erro quadrtico mdio
ou MSE (Mean Square Error).
A mtrica SSIM baseia-se no fato de que o SVH
fortemente adaptado para extrair informaes das
caractersticas estruturais de um quadro ou imagem.
Logo, uma medida de similaridade estrutural (ou
distoro) pode prover boa aproximao para a
qualidade perceptual de um vdeo [3, 79]. Sejam x e
y dois sinais no-negativos, em que y o sinal
degradado e x o sinal original (sem perda de
qualidade), a medida de similaridade utilizada como
um ndice quantitativo de qualidade do sinal distorcido,
ou seja, x tomado como a referncia para medir a
qualidade de y . A mtrica SSIM possui diversas
extenses, dentre as quais a verso MS-SSIM,
proposta por Wang et al. [13] que assume uma
abordagem multiescalar.
2.2. Mtricas RR
As mtricas de referncia reduzida retiram certa
quantidade de caractersticas do vdeo original (fonte),
baseadas em componentes espaciais, temporais, no
domnio da frequncia ou no fuxo de bits (bitstream).
Este tipo de mtrica amplamente utilizada no
monitoramento de transmisses em rede [17]. Neste
tipo de cenrio de aplicao, o vdeo transmitido
com uma sequncia de informao codifcada
(overhead) e no lado receptor ocorre a sua
decodifcao, seguido pelo clculo do ndice de
qualidade, o qual obtido por meio da comparao
entre a representao reduzida da informao nos
pares emissor e receptor [18]. Tipicamente, mtricas
RR so implementadas por meio de funes, divididas
em duas etapas [19]: (i) clculo do erro entre os
vdeos original e distorcido, constitudo pela diferena
de suas caractersticas, a fm de compor a
representao reduzida da informao; (ii) funo que
agrupa os erros ou diferenas para obter um ndice de
qualidade global. Algumas mtricas RR exploram
propriedades dos artefatos, por meio da extrao de
caractersticas e um modelo de parametrizao [20]
com foco em tipos especfcos de distores
(artefatos). Esta abordagem encontrada em Silva et
al. [17], cujo clculo do escore de qualidade
baseado na diferena de atividade dos coefcientes
DCT (Discrete Cosine Transform) em um macro bloco
com resoluo de 1616 pixels.
2.3. Mtricas NR
As mtricas NR extraem caractersticas
relacionadas ao SVH do vdeo distorcido, i.e., na
recepo do sinal de vdeo [14]. Tipicamente, h duas
abordagens no desenvolvimento destas mtricas: (i)
extrao dos parmetros sobre o fuxo de bits, tais
como a taxa de compresso, informaes
relacionadas ao GoP (Group of Pictures), estimao
de movimento, perfl e nvel de codifcao, bem como
o parmetro de quantizao ou QP (Quantization
Parameter) [2125]. Mtricas NR apresentam maior
complexidade quando so aplicadas em vdeo, devido
variao temporal dos quadros, contedos das
cenas e difculdade de compreenso das
caractersticas do SVH [26]. Assim, algumas mtricas
dessa categoria exploram caractersticas espaciais e
temporais na estimao de qualidade de vdeo [21].
3. MTODO PROPOSTO
O mtodo proposto, denominado NRVQA-ELMtc
(No-Reference Video Quality Assessment using
Extreme Learning Machine algorithm with termination
criteria) [27] combina caractersticas espaciais e
temporais, por meio de uma rede neural artifcial
SLFNs usando o algoritmo de treinamento ELM [28]
com a implementao de um simples critrio de
parada.
3.1. Caractersticas espao-temporais
As caractersticas espaciais incorporadas no
mtodo proposto so baseadas em medidas de
artefatos em vdeo digital, i.e., distores de blocagem
e borramento desenvolvidas por Wang et al. [20].
Assim, a componente de luminncia do quadro f
representada por y(f , i, j ) com i 1,M e j 1, N ,
em que M e N so os nmeros de linhas e colunas,
respectivamente, de um quadro. Logo, as diferenas
de luminncia ao longo das linhas e colunas so
representadas, respectivamente, pelas expresses a
seguir.


, , , , 1 , , , 1, 1 ,
, , , 1, , , , 1, 1 .
h
v
d f i j y f i j y f i j j N
d f i j y f i j y f i j i M


(3)
O efeito de blocagem pode ser estimado pela
mdia das diferenas entre as bordas dos blocos da
DCT (Discrete Cosine Transform) nas direes
horizontal e vertical para uma sequncia F de
quadros, conforme mostra a Equao (4), com um
macrobloco de dimenso , cujo tamanho tpico
de 8 [20].


1
1
1 1 1
1
1
1 1 1
1
, , 1 ,
1
1
1
, 1 , .
1
1
N
F M
h h
f i j
M
F N
v
i j
v
f
B d f i j
N
F M
B d f i j
M
F N












(4)
A medida de blocagem em uma sequncia de
vdeo com F quadros determinada pela mdia entre
h B e v B , caracterizando a medida B , conforme a
expresso a seguir.
.
2
h v B B
B

(5)
Os efeitos de borramento so estimados pelo
clculo da reduo de atividade entre os blocos ,
em que usada a medida de blocagem nas direes
horizontal e vertical, conforme as expresses




1
1 1 1
1
1 1 1
, , ,
1 1
, ,
1
.
1
F M N
h h h
f i j
F M N
v v
f
v
i j
A d f i j B
F M N
A d f i j B
F N M








(6)
A medida de borramento, representada por A ,
conforme a Equao (7), determinada pela mdia
entre h A e v A .
.
2
h v A A
A

(7)
O segundo fator que contribui para a deteco do
artefato de borramento baseado na taxa de
cruzamento por zero (Zero Crossing ZC) nas
direes horizontal e vertical, conforme as expresses
a seguir.




2
1 1 1
2
1 1 1
1
, , ,
2
1
, , ,
2
F M N
h h
f i j
F M N
v v
f i j
Z z f i j
F M N
Z z f i j
F N M




(8)
em que os termos h z e v z so determinados por


1, na direo horizontal
, , ,
0, caso contrrio
1, na direo vertical
, , .
0, caso contrrio
h
v
z f i j
z f i j



(9)
Assim, a medida de borramento Z determinada
pela mdia entre as componentes h Z e v Z .
.
2
h v Z Z
Z

(10)
O mtodo proposto tambm incorpora trs
caractersticas temporais no treinamento da rede
neural SLFN com o algoritmo ELM.
A primeira caracterstica temporal a diferena de
movimento entre quadros adjacentes, representada
pela varivel TI (Temporal perceptual Information) [31]
que considera os valores de luminncia de pixels
localizados em uma mesma regio de um quadro,
conforme a expresso a seguir.

2
1
, , ,
1
F
f
TI m f i j
F


(11)
em que o nmero total de quadros F e mf ,i, j

o desvio padro da diferena de movimento
(diferena de luminncia) entre o quadro atual
y f ,i, j e o quadro anterior y f 1,i, j .
A segunda caracterstica temporal a mdia da
diferena absoluta (Mean Absolute Diference MAD)
[31] entre quadros sucessivos, representada pela
Equao (12) que defne a medida global da MAD
para todos os quadros de um vdeo.


2 1 1
1
, , 1, , .
1
F M N
f i j
MAD y f i j y f i j
M N F



(12)
A terceira caracterstica temporal a mdia da
diferena absoluta ponderada (weighted Mean
Absolute Diference MADw) [32], a qual mede o grau
de variao das cenas de um vdeo que considera a
cena atual de um quadro f e do quadro anterior f 1,
conforme a expresso:
2 1
1
.
1
F
f
f f
MAD
MADw
F MAD


(13)
Assim, o mtodo proposto combina as
caractersticas espaciais e temporais em uma matriz
, , , , , f f f f f f f x A B Z TI MAD MADw , em que f o
nmero de amostras de vdeo. A Figura 1 apresenta
as caractersticas temporais espaciais de dezessete
bases de dados de vdeos (denominada superconjunto
S) usadas neste trabalho e reportadas em [27]. A
recomendao ITU-T P.910 [31] defne a medida SI
(Spatial perceptual Information) como informao
espacial perceptual. A inspeo visual dessa fgura
mostra que as amostras de vdeo usadas neste
trabalho apresentam uma grande variao espaotemporal.
Fig. 1. Caractersticas espaciais e temporais do superconjunto
S com 216 amostras de referncia
3.2. Mtrica NRVQA-ELMtc
O algoritmo ELM [28] desenvolvido para o
treinamento de uma rede SLFN atribui pesos e
polarizaes (biases) de maneira aleatria, segundo
uma distribuio uniforme. O treinamento compreende
N amostras distintas representadas pela varivel
, , , 1, , n m
f f f f x t x t f N , cujo clculo
conforme a expresso

1
, 1, , ,
K
K i j j f j f
f
f g b f N

x w x o (14)
em que f o a sada (escore objetivo), g(x) a
funo de ativao e j o peso que conecta o jsimo
neurnio da camada oculta ao neurnio de
sada. De acordo com [28], uma rede SLFN com K
ns na camada oculta e uma funo de ativao g(x)
pode apresentar um erro mdio prximo de zero, i.e.,
1
0
K
f f
f
o t . Logo, h parmetros j , j w e j b tal
que

1
, 1, , ,
K
j j f j f
f
g b f N

w x t (15)
em que f t o vetor alvo (escores subjetivos),
T
1, , j j jn w w w o vetor de peso que conecta o jsimo
neurnio da camada oculta ao neurnio da
camada de entrada, j b denota a polarizao (bias) do
j-simo neurnio da camada oculta, j f w x o
produto interno de j w e f x . A Figura 2 ilustra o
algoritmo ELM empregado em uma arquitetura de
rede neural SLFN.
xi
1
j
N
1
j
K
ti
bj
N input neuron K hidden neuron output neuron
1
K
wj
Fig. 2. Arquitetura de uma rede neural SLFN usando algoritmo
de treinamento ELM
O sistema linear da Equao (16) resume o mtodo
do algoritmo ELM.
H T, (16)
em que a matriz da camada oculta representada por
1, , and 1, , f H h f N j K com a primeira
linha da matriz de caractersticas f x igual a
T
1 2 , , , f f f fn x x x x , i.e., a primeira linha igual a
1 1 1 1 1 1 1 , , , , , f f f f f f f x A B Z TI MAD MADw . A matriz de
sada e o vetor alvo (target) so defnidos como
T
1 , K e
T
1, , N T t t , respectivamente. O
termo
T
1 , 1, , j jm j j K denota o vetor de
peso que conecta o j-simo neurnio da camada
oculta e os neurnios de sada. Hung et al. [28]
propuseram a atribuio aleatria de pesos aos
parmetros j w e j b , a fm de seja obtido um pequeno
erro no-nulo durante o treinamento. Considerando o
sistema linear da Equao (17), os pesos da camada
de sada podem ser aproximados por
H T (17)
em que H defnida como matriz inversa
generalizada de Moore-Penrose (MP) [33] da matriz
de sada da camada oculta H . Alm disso, o
conjunto de treinamento , n oculta K e uma
funo de ativao g x , e.g., funo de base radial
(Radial Basis Function RBF), hard-limiting (hardlim),
sigmoidal (sig) e seno (sin). Em resumo, o algoritmo
ELM compreende trs etapas [28]:
i) Atribuio aleatria dos pesos de entrada j w e
polarizaes j b ;
ii) Clculo da matriz da camada de sada H ;
iii) Clculo dos pesos de sada : H T .
O mtodo NRVQA-ELMtc [27] implementa um
simples critrio de parada no treinamento da rede
neural SLFN, quanto atribuio aleatria dos pesos
j w e j b . Embora este critrio no seja direcionado,
busca os pesos relacionados com o menor RMSE
(Root-Mean-Square Error) entre a sada desejada
(escore subjetivo) e o escore objetivo na fase de
treinamento com k iteraes (tipicamente, k 100 ) e
N neurnios na camada oculta. Alm disso, conforme
estudo realizado em [27], caso o RMSE seja menor do
que 0,5 o algoritmo cessa a busca pelos parmetros
j w e j b .
4. RESULTADOS EXPERIMENTAIS
Esta seo apresenta os resultados de acurcia,
i.e., os coefcientes de correlao linear de Pearson
(Pearson Linear Correlation Coefcient PLCC) [34],
[35], entre os escores objetivos e subjetivos de 2627
amostras de vdeo estudadas em [27].
A Figura 3 compara a acurcia (PLCC) entre as
mtricas de referncia completa (FR) PSNR e MSSSIM
com o mtodo proposto (NRVQA-ELMtc) para
as 2627 amostras de vdeo, pertencentes a 17 bases
de dados de vdeo disponibilizadas por diversas
instituies e laboratrios [27]. A funo de ativao
usada na rede neural SLFN foi o seno (sin) com o
nmero de amostras de teste igual ao nmero de
neurnios na camada oculta ( N ). O mtodo de
validao cruzada mltipla (K-fold) foi usado com o
objetivo de gerar uma distribuio de acurcia, a qual
foi analisada por meio do diagrama de caixa (box-plot)
[36], em que o trao, o crculo e o quadrado, ambos
em vermelho, representam a mediana, a mdia e o
desvio padro, respectivamente. Destaca-se que
neste trabalho foi empregada uma validao cruzada
com um grande nmero de amostras de treinamentoteste
com K 100 , i.e., cada caixa do box-plot
comporta 100 experimentos distintos. Tipicamente, a
literatura apresenta trabalhos no campo da avaliao
Fig. 3. Box-plot da predio da acurcia (PLCC) entre as mtricas PSNR, MS-SSIM e o mtodo proposto NRVQA-ELMtc
de qualidade de vdeo com K entre 5 e 10 [37], [38].
Pela inspeo visual da Figura 3 observa-se que o
desempenho do mtodo proposto superior s
mtricas FR, em quaisquer condies de teste, i.e.,
para qualquer quantidade de amostras de teste
(nmero de neurnios na camada oculta) entre 25 e
500. Em especial, para N 50 , o mtodo proposto
apresenta valores de PLCC, em termos da mdia e
mediana, acima de 0,8, denotando uma forte
associao entre os escores objetivos e subjetivos, na
tarefa de predio de qualidade de vdeo. Isto ocorre
devido grande quantidade de amostras de vdeo
usadas no treinamento, e.g., para N 300 foram
usadas 2327 amostras de treinamento, ou seja,
mesmo usando pares de treinamento-teste disjuntos,
o mtodo proposto mostra uma acurcia superior s
mtricas de referncia completa. A assimetria positiva,
i.e., a maior concentrao da acurcia entre o
segundo quartil (mediana) e o terceiro quartil, na
distribuio do box-plot nos testes com 300 e 500
neurnios na camada oculta, indica que o mtodo
proposto apresenta um desempenho expressivo em
comparao com as mtricas FR.
Entretanto, mesmo para N entre 25 e 50, o
mtodo proposto apresentou uma acurcia maior do
que as mtricas FR, cujo melhor resultado foi para
N 25 com o desvio-quartil (amplitude interquartlica)
confnado entre 0,65 e 0,8. Alm disso, este resultado
tambm apresentou assimetria positiva com a mdia
do PLCC em torno de 0,75.
5. CONCLUSO
Este trabalho apresentou uma mtrica NR baseada
em uma rede neural artifcial SLFN, cujo treinamento
determinado pelo algoritmo ELM, o qual considera
caractersticas espao-temporais e os escores
subjetivos (alvos) extrados de 2627 amostras
treinamento. Alm disso, este trabalho prope uma
extenso do algoritmo ELM por meio de um simples
critrio de parada, a fm de que sejam obtidos
parmetros da rede neural artifcial relacionados com
o menor RMSE. Tipicamente, a comparao entre
mtricas FR e NR injusta, devido ausncia do
vdeo de referncia na obteno do escore de
qualidade em mtricas NR. Entretanto, os resultados
experimentais mostram que o mtodo proposto
apresentou desempenho superior s mtricas de
referncia completa PSNR e MS-SSIM, sobretudo,
quando o nmero de amostras de teste e de neurnios
na camada oculta da rede SLFN maior do que 250.
Logo, a mtrica NRVQA-ELMtc pode ser empregada
no monitoramento de qualidade em sistemas de
transmisso e recepo de vdeo digital, tais como
IPTV (Internet Protocol Television), TV digital ou em
dispositivos mveis, tais como ultrabooks,
smartphones, tablets e em aparelhos WiDi (Wireless
Display).
REFERNCIAS
[1] S. Winkler, Issues in vision modeling for perceptual
video quality assessment, Signal Processing, vol. 78,
no. 2, pp. 231252, 1999.
[2] Z. Wang and A. C. Bovik, Modern image quality
assessment. San Rafael, CA: Morgan & Claypool,
2006.
[3] W. Lin and C.-C. Jay Kuo, Perceptual visual quality
metrics: A survey, Journal of Visual Communication
and Image Representation, vol. 22, no. 4, pp. 297312,
May 2011.
[4] S. S. Hemami and A. R. Reibman, No-reference image
and video quality estimation: Applications and humanmotivated
design, Signal Processing: Image
Communication, vol. 25, no. 7, pp. 469481, 2010.
[5] Z. Wang and A. Bovik, Reduced- and No-Reference
Image Quality Assessment, IEEE Signal Processing
Magazine, vol. 28, no. 6, pp. 2940, Nov. 2011.
[6] R. V. Babu, S. Suresh, and A. Perkis, No-reference
JPEG-image quality assessment using GAP-RBF,
Signal Processing, vol. 87, no. 6, pp. 14931503, 2007.
[7] X. Jiang, F. Meng, J. Xu, and W. Zhou, No-Reference
Perceptual Video Quality Measurement for High
Defnition Videos Based on an Artifcial Neural
Network, in Computer and Electrical Engineering,
2008. ICCEE 2008. International Conference on, 2008,
pp. 424427.
[8] J. Choe, K. Lee, C. Lee, and S. Korea, No-reference
video quality measurement using neural networks, in
2009 16th International Conference on Digital Signal
Processing, 2009, pp. 14.
[9] S. Suresh, R. Venkatesh Babu, and H. J. Kim, Noreference
image quality assessment using modifed
extreme learning machine classifer, Applied Soft
Computing, vol. 9, no. 2, pp. 541552, Mar. 2009.
[10] A. M. Eskicioglu and P. S. Fisher, Image quality
measures and their performance, IEEE Transactions
on Communications, vol. 43, no. 12, pp. 29592965,
1995.
[11] U. Engelke and H.-J. Zepernick, Perceptual-based
Quality Metrics for Image and Video Services: A
Survey, in Proceedings EuroNGI Conf. Next
Generation Internet Networks, 2007, pp. 190197.
[12] Z. Wang, A. C. Bovik, H. R. Sheikh, and E. P
Simoncelli, Image quality assessment: from error
visibility to structural similarity., IEEE Transactions on
Image Processing, vol. 13, no. 4, pp. 600612, 2004.
[13] Z. Wang, E. P. Simoncelli, and A. C. Bovik, Multiscale
structural similarity for image quality assessment, in
The Thrity-Seventh Asilomar Conference on Signals,
Systems & Computers, 2003, 2003, vol. 2, no. 1, pp.
13981402.
[14] H. R. Wu, K. R. Rao, and A. A. Kassim, Digital Video
Image Quality and Perceptual Coding, Journal of
Electronic Imaging, vol. 16, no. 3, 2007.
[15] Z. Wang and A. C. Bovik, A universal image quality
index, IEEE Signal Processing Letters, vol. 9, no. 3,
pp. 8184, Mar. 2002.
[16] Y. Shi, Y. Ding, R. Zhang, and J. Li, Structure and Hue
Similarity for Color Image Quality Assessment, in 2009
International Conference on Electronic Computer
Technology, 2009, pp. 329333.
[17] W. B. Silva, A. A. P. Pohl, and K. V. O. Fonseca, A
Reduced-Reference Video Quality Assessment Method
based on the Activity-Diference of DCT Coefcients,
IEICE Transactions on Information and Systems, vol. E96-D, no. 3, 2013.
[18] P. Le Callet, C. Viard-Gaudin, and D. Barba, A Convolutional Neural Network Approach for Objective Video Quality Assessment, IEEE Transactions on Neural Networks, vol. 17, no. 5, pp. 13161327, 2006.
[19] P. Le Callet and D. Barba, Image Quality Assessment: From Sites Errors to a Global Appreciation of Quality, in Proceedings of the Picture Coding Sympsium, 2001, pp. 105108.
[20] M. Miyahara, K. Kotani, and V. R. Algazi, Objective picture quality scale (PQS) for image coding, IEEE Transactions on Communications, vol. 46, no. 9, pp. 12151226, 1998.
[21] M. Slanina, V. Ricny, and R. Forchheimer, A Novel Metric for H.264/AVC No-Reference Quality Assessment, in 14th International Workshop on Systems, Signals and Image Processing and 6th EURASIP Conference focused on Speech and Image Processing, Multimedia Communications and Services, 2007, pp. 114117.
[22] O. Sugimoto, S. Naito, S. Sakazawa, and A. Koike, Objective perceptual video quality measurement method based on hybrid no reference framework, in 16th IEEE International Conference on Image Processing (ICIP09), 2009, pp. 22372240.
[23] T. Oelbaum, C. Keimel, and K. Diepold, Rule-Based No-Reference Video Quality Evaluation Using Additionally Coded Videos, IEEE Journal of Selected Topics in Signal Processing, vol. 3, no. 2, pp. 294303, 2009.
[24] N. Staelens, N. Vercammen, Y. Dhondt, B. Vermeulen, P. Lambert, R. de Walle, and P. Demeester, ViQID: A No-Reference bit stream-based visual quality impairment detector, in Proceedings of the Second Int Quality of Multimedia Experience (QoMEX) Workshop, 2010, pp. 206211.
[25] F. Yang, S. Wan, Q. Xie, and H. R. Wu, No-Reference Quality Assessment for Networked Video via Primary Analysis of Bit Stream, IEEE Transactions on Circuits and Systems for Video Technology, vol. 20, no. 11, pp. 15441554, Nov. 2010.
[26] Z. Wang, H. R. Sheikh, and A. C. Bovik, Objective Video Quality Assessment, in The Handbook of Video Databases: Design and Applications, B. Furht and O. Marques, Eds. Boca Raton, FL, USA: CRC Press, 2003, pp. 10411078.
[27] W. B. da Silva and A. de A. P. Pohl, Mtodos Sem Referncia Baseados em Caractersticas Espao-Temporais para Avaliao Objetiva de Qualidade de Vdeo Digital, Universidade Tecnolgica Federal do Paran (UTFPR), 2013.
[28] G.-B. Huang, Q.-Y. Zhu, and C.-K. Siew, Extreme learning machine: Theory and applications, Neurocomputing, vol. 70, no. 13, pp. 489501, Dec. 2006.
[29] Z. Wang, H. R. Sheikh, and A. C. Bovik, No-reference perceptual quality assessment of JPEG compressed images, in Image Processing. 2002. Proceedings. IEEE International Conference on Image Processing, 2002, vol. 1, pp. vol.1 I477 I480.
[30] W. B. Silva and A. A. P. Pohl, No-Reference Video Quality Assessment Method based on the Levenberg-Marquardt Minimization, in XXX Brazilian Symposium on Telecommunications (SBrT12), 2012.
[31] ITU-T P.910, Subjective video quality assessment methods for multimedia applications, Standardization Sector of ITU, 1999.
[32] W. Ding, Y. Tong, Q. Zhang, and D. Yang, Image and Video Quality Assessment Using Neural Network and SVM, Tsinghua Science & Technology, vol. 13, no. 1, pp. 112116, 2008.
[33] K. S. Banerjee, C. R. Rao, and S. K. Mitra, Generalized Inverse of Matrices and Its Applications, Technometrics, vol. 15, no. 1, p. 197, Feb. 1973.
[34] VQEG, Final report from the video quality experts group on the validation of reduced-reference and no-reference objective models for standard defnition television, Phase I, 2009.
[35] VQEG, Report on the validation of video quality models for high defnition video content, 2010.
[36] J. W. Tukey, Exploratory Data Analysis. New York: Addison-Wesley Publishing Company, 1977.
[37] P. Gastaldo and R. Zunino, Neural networks for the no-reference assessment of perceived quality, J. Electronic Imaging, vol. 14, no. 3, p. 033004, 2005.
[38] R. Herzog, M. adk, T. O. Aydn, K. I. Kim, K. Myszkowski, and H.-P. Seidel, NoRM: No-Reference Image Quality Metric for Realistic Image Synthesis, Comp. Graph. Forum, vol. 31, no. 2pt4, pp. 545554, 2012.
12 Revista de Radiodifuso v. 07 n. 08 2013
Pesquisas em ambientes digitais - TV Internet Radio Cinema
[31] entre quadros sucessivos, representada pela
Equao (12) que define a medida global da MAD
para todos os quadros de um vdeo.
( )
( ) ( )
2 1 1
1
, , 1, , .
1
F M N
f i j
MAD y f i j y f i j
M N F
= = =
=



(12)
A terceira caracterstica temporal a mdia da
diferena absoluta ponderada (weighted Mean
Absolute Difference MADw) [32], a qual mede o grau
de variao das cenas de um vdeo que considera a
cena atual de um quadro f e do quadro anterior 1 f ,
conforme a expresso:
2
1
1
.
1
F
f
f
f
MAD
MADw
F MAD
=

| |
=
|

\ .


(13)
Assim, o mtodo proposto combina as
caractersticas espaciais e temporais em uma matriz
{ }
, , , , ,
f f f f f f f
A B Z TI MAD MADw = x , em que f o
nmero de amostras de vdeo. A Figura 1 apresenta
as caractersticas temporais espaciais de dezessete
bases de dados de vdeos (denominada superconjunto
S) usadas neste trabalho e reportadas em [27]. A
recomendao ITU-T P.910 [31] define a medida SI
(Spatial perceptual Information) como informao
espacial perceptual. A inspeo visual dessa figura
mostra que as amostras de vdeo usadas neste
trabalho apresentam uma grande variao espao-
temporal.


Fig. 1. Caractersticas espaciais e temporais do superconjunto
S com 216 amostras de referncia

3.2. Mtrica NRVQA-ELMtc
O algoritmo ELM [28] desenvolvido para o
treinamento de uma rede SLFN atribui pesos e
polarizaes (biases) de maneira aleatria, segundo
uma distribuio uniforme. O treinamento compreende
N amostras distintas representadas pela varivel
( )
{ }
, , , 1, ,
n m
f f f f
f N = e e = x t x t , cujo clculo
conforme a expresso
( ) ( )
1
, 1, , ,
K
K i j j f j f
f
f g b f N |
=
= + = =

x w x o

(14)
em que
f
o a sada (escore objetivo), ( ) g x a
funo de ativao e
j
| o peso que conecta o j-
simo neurnio da camada oculta ao neurnio de
sada. De acordo com [28], uma rede SLFN com K
ns na camada oculta e uma funo de ativao ( ) g x
pode apresentar um erro mdio prximo de zero, i.e.,
1
0
K
f f
f =
= o t . Logo, h parmetros
j
| ,
j
w e
j
b tal
que
( )
1
, 1, , ,
K
j j f j f
f
g b f N |
=
+ = =

w x t

(15)
em que
f
t o vetor alvo (escores subjetivos),
T
1
, ,
j j jn
w w ( =

w o vetor de peso que conecta o j-
simo neurnio da camada oculta ao neurnio da
camada de entrada,
j
b denota a polarizao (bias) do
j-simo neurnio da camada oculta,
( )
j f
w x o
produto interno de
j
w e
f
x . A Figura 2 ilustra o
algoritmo ELM empregado em uma arquitetura de
rede neural SLFN.

x
i
1

j
N
1
j
K
t
i
b
j
N input neuron K hidden neuron output neuron

K
w
j

Fig. 2. Arquitetura de uma rede neural SLFN usando algoritmo
de treinamento ELM

O sistema linear da Equao (16) resume o mtodo
do algoritmo ELM.
, = H T

(16)
em que a matriz da camada oculta representada por
{ } ( ) 1, , and 1, ,
fj
h f N j K = = = H com a primeira
linha da matriz de caractersticas
f
x igual a
T
1 2
, , ,
f f f fn
x x x = (

x , i.e., a primeira linha igual a
{ }
1 1 1 1 1 1 1
, , , , ,
f f f f f f f
A B Z TI MAD MADw = x . A matriz de
sada e o vetor alvo (target) so definidos como
T
1
,
K


e
T
1
, ,
N


T t t , respectivamente. O
termo
T
1
, 1, ,
j jm
j j K

denota o vetor de
peso que conecta o j-simo neurnio da camada
oculta e os neurnios de sada. Hung et al. [28]
propuseram a atribuio aleatria de pesos aos
parmetros
j
w e
j
b , a fim de seja obtido um pequeno
erro no-nulo durante o treinamento. Considerando o
sistema linear da Equao (17), os pesos da camada
de sada podem ser aproximados por

H T
(17)
em que

H definida como matriz inversa


generalizada de Moore-Penrose (MP) [33] da matriz
de sada da camada oculta H . Alm disso, o
conjunto de treinamento , n oculta K e uma
funo de ativao g x , e.g., funo de base radial
(Radial Basis Function RBF), hard-limiting (hardlim),
sigmoidal (sig) e seno (sin). Em resumo, o algoritmo
ELM compreende trs etapas [28]:
i) Atribuio aleatria dos pesos de entrada
j
w e
polarizaes
j
b ;
ii) Clculo da matriz da camada de sada H ;
iii) Clculo dos pesos de sada

: H T .

O mtodo NRVQA-ELMtc [27] implementa um
simples critrio de parada no treinamento da rede
neural SLFN, quanto atribuio aleatria dos pesos
j
w e
j
b . Embora este critrio no seja direcionado,
busca os pesos relacionados com o menor RMSE
(Root-Mean-Square Error) entre a sada desejada
(escore subjetivo) e o escore objetivo na fase de
treinamento com k iteraes (tipicamente, 100 k ) e
N neurnios na camada oculta. Alm disso, conforme
estudo realizado em [27], caso o RMSE seja menor do
que 0,5 o algoritmo cessa a busca pelos parmetros
j
w e
j
b .
4. RESULTADOS EXPERIMENTAIS
Esta seo apresenta os resultados de acurcia,
i.e., os coeficientes de correlao linear de Pearson
(Pearson Linear Correlation Coefficient PLCC) [34],
[35], entre os escores objetivos e subjetivos de 2627
amostras de vdeo estudadas em [27].
A Figura 3 compara a acurcia (PLCC) entre as
mtricas de referncia completa (FR) PSNR e MS-
SSIM com o mtodo proposto (NRVQA-ELMtc) para
as 2627 amostras de vdeo, pertencentes a 17 bases
de dados de vdeo disponibilizadas por diversas
instituies e laboratrios [27]. A funo de ativao
usada na rede neural SLFN foi o seno (sin) com o
nmero de amostras de teste igual ao nmero de
neurnios na camada oculta ( N ). O mtodo de
validao cruzada mltipla (K-fold) foi usado com o
objetivo de gerar uma distribuio de acurcia, a qual
foi analisada por meio do diagrama de caixa (box-plot)
[36], em que o trao, o crculo e o quadrado, ambos
em vermelho, representam a mediana, a mdia e o
desvio padro, respectivamente. Destaca-se que
neste trabalho foi empregada uma validao cruzada
com um grande nmero de amostras de treinamento-
teste com 100 K , i.e., cada caixa do box-plot
comporta 100 experimentos distintos. Tipicamente, a
literatura apresenta trabalhos no campo da avaliao

Fig. 3. Box-plot da predio da acurcia (PLCC) entre as mtricas PSNR, MS-SSIM e o mtodo proposto NRVQA-ELMtc


Pesquisas em ambientes digitais - TV Internet Radio Cinema
Revista de Radiodifuso v. 07 n. 08 2013 13
MTRICA SEM REFERNCIA BASEADA EM REDES NEURAIS
PARA AVALIAO OBJETIVA DE QUALIDADE DE VDEO DIGITAL
Wyllian Bezerra da Silva, Alexandre de Almeida Prado Pohl
Programa de Ps-Graduao em Engenharia Eltrica e Informtica Industrial (CPGEI) UTFPR, Curitiba, Brasil
wyllianbs@gmail.com, pohl@utfpr.edu.br
Resumo: Este trabalho apresenta uma mtrica sem referncia para avaliao de qualidade de vdeo digital baseada em uma rede neural artifcial que usa uma verso estendida do algoritmo de aprendizado ELM (Extreme Learning Machine). O mtodo proposto realiza o treinamento da rede neural a partir de seis caractersticas espao-temporais. Os resultados experimentais mostram que o mtodo proposto apresenta desempenho superior s mtricas de referncia completa PSNR e MS-SSIM na tarefa de predio de qualidade de vdeo. Logo, o mtodo proposto pode ser usado no monitoramento de qualidade em sistemas de transmisso e recepo de vdeo digital, tais como IPTV e TV digital.
Palavras chave: algoritmo ELM, avaliao objetiva de vdeo, mtrica sem referncia, rede neural artifcial.
1. INTRODUO
Durante os ltimos anos, a literatura tem apresentado um nmero crescente publicaes acerca de mtricas objetivas para avaliao de qualidade de vdeo para diversas aplicaes em radiodifuso ou no processamento de vdeo digital, seja na aquisio do sinal, codifcao e decodifcao, compresso, transmisso, restaurao, armazenamento, segmentao e exibio de sinais de vdeo digital [14]. A avaliao de qualidade de vdeo digital pode ser realizada por meio de mtricas subjetiva e objetiva. A primeira requer uma grande quantidade de recursos humanos e apresenta elevado custo em sua implementao [13]. Porm, as mtricas objetivas so vantajosas quando apresentam um determinado grau de correlao com as mtricas subjetivas. Logo, o desenvolvimento destas um desafo no campo de avaliao de qualidade de vdeo e imagem. Alm disso, as mtricas objetivas, devido natureza de seu critrio objetivo, independem de interao humana e so facilmente reprodutveis [3]. Dentre as mtricas objetivas destacam-se as mtricas sem referncia (No-Reference NR), pois no necessitam do vdeo de referncia no clculo de sua medida. Entretanto, estas requerem um conhecimento a priori sobre as distores em vdeo digital para que seja estabelecida uma correlao com os resultados subjetivos [3].
A maioria das mtricas NR encontradas na literatura so baseadas na avaliao de qualidade de imagens e em caractersticas relacionadas ao Sistema Visual Humano (SVH). Assim, o desenvolvimento de mtricas NR difcil, devido necessidade de emular a percepo do SVH que envolve aspectos cognitivos, emocionais e estticos relacionados ao contedo do vdeo e que so altamente dependentes do observador [4], [5].
A literatura reporta diversos esforos no desenvolvimento de mtricas para avaliao de qualidade de vdeo baseadas em redes neurais e em algoritmos de aprendizado. Babu et al. [6] apresentam uma mtrica para avaliar a qualidade de imagens comprimidas em JPEG (Joint Photographic Experts Group) por meio de um algoritmo de aprendizado de crescimento e propem o uso de uma rede neural GAP-RBF (Growing and Pruning Radial Basis Function) que usa caractersticas relacionadas ao SVH. Jiang et al. [7] desenvolveram uma mtrica NR para avaliao de qualidade de vdeo em HD (High Defnition) baseada em uma rede neural treinada pelo algoritmo BP (Back-Propagation) que usa seis caractersticas espao-temporais e a RoI (Region of Interest). Choe et al. [8] desenvolveram uma mtrica NR baseada no fuxo de bits para avaliao de qualidade de vdeo codifcado em H.264. Esta mtrica extrai caractersticas quadro a quadro e usa uma rede neural alimentada adiante (feedforward) com trs camadas. Suresh et al. [9] apresentaram uma extenso do algoritmo ELM na tarefa de avaliar a qualidade de imagens comprimidas em JPEG com base no esquema de seleo mltipla KS-ELM (K-fold selection Scheme using ELM) e no algoritmo RCGA-ELM (Real-Coded Genetic Algorithm using ELM) para seleo dos pesos de entrada e polarizaes.
Este trabalho apresenta uma verso estendida do algoritmo ELM para redes neurais SLFN (Single-hidden-Layer Feedforward Neural Networks) que implementa um simples critrio de parada na fase de treinamento. Alm disso, esse mtodo usa seis caractersticas espao-temporais de vdeos submetidos a diversas condies de distoro.
Este artigo est dividido da seguinte maneira: a Seo 2 descreve as mtricas para avaliao de qualidade de vdeo. A Seo 3 descreve o mtodo NR proposto para avalio de qualidade de vdeo digital. A Seo 4 apresenta os resultados experimentais, em que so comparados o mtodo NR proposto e duas mtricas FR. Finalmente, a Seo 5 apresenta a concluso do artigo.
2. AVALIAO DE QUALIDADE DE VDEO
O processo de avaliao de qualidade de vdeo
pode ser realizado com a aplicao de mtricas
subjetivas ou objetivas. As mtricas subjetivas
estimam a qualidade do vdeo por meio de avaliadores
humanos. Logo, exigem um alto custo, pois
necessitam de uma grande quantidade de recursos
humanos e apresentam problemas quanto aos
requisitos de imparcialidade e reprodutibilidade,
tornando-se inapropriadas em sistemas de
radiodifuso ou em provedores de contedo [10], [11].
Por outro lado, as mtricas objetivas so baseadas em
modelos matemticos, cujo objetivo produzir um
escore de qualidade que emule a percepo do SVH.
Alm disso, as mtricas objetivas requerem baixo
custo de implementao (quando comparadas com as
mtricas subjetivas) e no apresentam problemas
quanto reprodutibilidade e imparcialidade.
As mtricas objetivas para avaliao de qualidade
de vdeo podem ser classifcadas em trs categorias:
(i) mtricas de referncia completa (Full-Reference
FR); (ii) mtricas de referncia reduzida (Reduced-
Reference RR); (iii) mtricas sem referncia (NR).
2.1. Mtricas FR
As mtricas FR requerem o vdeo de referncia
(fonte) no clculo do escore de qualidade. Estas
mtricas so amplamente utilizadas no processo de
validao de mtricas RR ou NR, por meio da
comparao de desempenho defnida pelas
recomendaes do Grupo de Especialistas em
Qualidade de Vdeo (VQEG Video Quality Experts
Group) que um rgo de padronizao internacional
de mtricas subjetivas e objetivas de qualidade de
vdeo. Dentre as mtricas FR, destacam-se o PSNR
(Peak Signal-to-Noise Ratio), SSIM (Structural
SIMilarity index) [12] e MS-SSIM (Multi-Scale
Structural SIMilarity index) [13].
O PSNR uma mtrica FR baseada no erro pixel a
pixel de fcil implementao. Entretanto, apresenta
baixa correlao com o SVH [14]. A sua medida
processada sobre o erro quadro a quadro, i.e., entre o
quadro original x e o quadro y . A expresso a seguir
defne o PSNR para um conjunto de quadros F .
20
1
1
PSNR 20log ,
F
f
f f
v
F MSE



(1)
com

2
0 0
1
MSE , , , , ,
N M
f
i j
x f i j y f i j
NM

(2)
em que o termo f v igual a (2 1) k , cujo k o
nmero de bits por pixel, i.e., a componente de
luminncia do quadro f . Os termos x f ,i, j e
y f ,i, j so os valores de luminncia do quadro de
origem e degradado, respectivamente. As
componentes bidimensionais so representadas pelo
nmero de colunas N e pelo nmero de linhas M . O
termo f MSE defnido como erro quadrtico mdio
ou MSE (Mean Square Error).
A mtrica SSIM baseia-se no fato de que o SVH
fortemente adaptado para extrair informaes das
caractersticas estruturais de um quadro ou imagem.
Logo, uma medida de similaridade estrutural (ou
distoro) pode prover boa aproximao para a
qualidade perceptual de um vdeo [3, 79]. Sejam x e
y dois sinais no-negativos, em que y o sinal
degradado e x o sinal original (sem perda de
qualidade), a medida de similaridade utilizada como
um ndice quantitativo de qualidade do sinal distorcido,
ou seja, x tomado como a referncia para medir a
qualidade de y . A mtrica SSIM possui diversas
extenses, dentre as quais a verso MS-SSIM,
proposta por Wang et al. [13] que assume uma
abordagem multiescalar.
2.2. Mtricas RR
As mtricas de referncia reduzida retiram certa
quantidade de caractersticas do vdeo original (fonte),
baseadas em componentes espaciais, temporais, no
domnio da frequncia ou no fuxo de bits (bitstream).
Este tipo de mtrica amplamente utilizada no
monitoramento de transmisses em rede [17]. Neste
tipo de cenrio de aplicao, o vdeo transmitido
com uma sequncia de informao codifcada
(overhead) e no lado receptor ocorre a sua
decodifcao, seguido pelo clculo do ndice de
qualidade, o qual obtido por meio da comparao
entre a representao reduzida da informao nos
pares emissor e receptor [18]. Tipicamente, mtricas
RR so implementadas por meio de funes, divididas
em duas etapas [19]: (i) clculo do erro entre os
vdeos original e distorcido, constitudo pela diferena
de suas caractersticas, a fm de compor a
representao reduzida da informao; (ii) funo que
agrupa os erros ou diferenas para obter um ndice de
qualidade global. Algumas mtricas RR exploram
propriedades dos artefatos, por meio da extrao de
caractersticas e um modelo de parametrizao [20]
com foco em tipos especfcos de distores
(artefatos). Esta abordagem encontrada em Silva et
al. [17], cujo clculo do escore de qualidade
baseado na diferena de atividade dos coefcientes
DCT (Discrete Cosine Transform) em um macro bloco
com resoluo de 1616 pixels.
2.3. Mtricas NR
As mtricas NR extraem caractersticas
relacionadas ao SVH do vdeo distorcido, i.e., na
recepo do sinal de vdeo [14]. Tipicamente, h duas
abordagens no desenvolvimento destas mtricas: (i)
extrao dos parmetros sobre o fuxo de bits, tais
como a taxa de compresso, informaes
relacionadas ao GoP (Group of Pictures), estimao
de movimento, perfl e nvel de codifcao, bem como
o parmetro de quantizao ou QP (Quantization
Parameter) [2125]. Mtricas NR apresentam maior
complexidade quando so aplicadas em vdeo, devido
variao temporal dos quadros, contedos das
cenas e difculdade de compreenso das
caractersticas do SVH [26]. Assim, algumas mtricas
dessa categoria exploram caractersticas espaciais e
temporais na estimao de qualidade de vdeo [21].
3. MTODO PROPOSTO
O mtodo proposto, denominado NRVQA-ELMtc
(No-Reference Video Quality Assessment using
Extreme Learning Machine algorithm with termination
criteria) [27] combina caractersticas espaciais e
temporais, por meio de uma rede neural artifcial
SLFNs usando o algoritmo de treinamento ELM [28]
com a implementao de um simples critrio de
parada.
3.1. Caractersticas espao-temporais
As caractersticas espaciais incorporadas no
mtodo proposto so baseadas em medidas de
artefatos em vdeo digital, i.e., distores de blocagem
e borramento desenvolvidas por Wang et al. [20].
Assim, a componente de luminncia do quadro f
representada por y(f , i, j ) com i 1,M e j 1, N ,
em que M e N so os nmeros de linhas e colunas,
respectivamente, de um quadro. Logo, as diferenas
de luminncia ao longo das linhas e colunas so
representadas, respectivamente, pelas expresses a
seguir.


, , , , 1 , , , 1, 1 ,
, , , 1, , , , 1, 1 .
h
v
d f i j y f i j y f i j j N
d f i j y f i j y f i j i M


(3)
O efeito de blocagem pode ser estimado pela
mdia das diferenas entre as bordas dos blocos da
DCT (Discrete Cosine Transform) nas direes
horizontal e vertical para uma sequncia F de
quadros, conforme mostra a Equao (4), com um
macrobloco de dimenso , cujo tamanho tpico
de 8 [20].


1
1
1 1 1
1
1
1 1 1
1
, , 1 ,
1
1
1
, 1 , .
1
1
N
F M
h h
f i j
M
F N
v
i j
v
f
B d f i j
N
F M
B d f i j
M
F N












(4)
A medida de blocagem em uma sequncia de
vdeo com F quadros determinada pela mdia entre
h B e v B , caracterizando a medida B , conforme a
expresso a seguir.
.
2
h v B B
B

(5)
Os efeitos de borramento so estimados pelo
clculo da reduo de atividade entre os blocos ,
em que usada a medida de blocagem nas direes
horizontal e vertical, conforme as expresses




1
1 1 1
1
1 1 1
, , ,
1 1
, ,
1
.
1
F M N
h h h
f i j
F M N
v v
f
v
i j
A d f i j B
F M N
A d f i j B
F N M








(6)
A medida de borramento, representada por A ,
conforme a Equao (7), determinada pela mdia
entre h A e v A .
.
2
h v A A
A

(7)
O segundo fator que contribui para a deteco do
artefato de borramento baseado na taxa de
cruzamento por zero (Zero Crossing ZC) nas
direes horizontal e vertical, conforme as expresses
a seguir.




2
1 1 1
2
1 1 1
1
, , ,
2
1
, , ,
2
F M N
h h
f i j
F M N
v v
f i j
Z z f i j
F M N
Z z f i j
F N M




(8)
em que os termos h z e v z so determinados por


1, na direo horizontal
, , ,
0, caso contrrio
1, na direo vertical
, , .
0, caso contrrio
h
v
z f i j
z f i j



(9)
Assim, a medida de borramento Z determinada
pela mdia entre as componentes h Z e v Z .
.
2
h v Z Z
Z

(10)
O mtodo proposto tambm incorpora trs
caractersticas temporais no treinamento da rede
neural SLFN com o algoritmo ELM.
A primeira caracterstica temporal a diferena de
movimento entre quadros adjacentes, representada
pela varivel TI (Temporal perceptual Information) [31]
que considera os valores de luminncia de pixels
localizados em uma mesma regio de um quadro,
conforme a expresso a seguir.

2
1
, , ,
1
F
f
TI m f i j
F


(11)
em que o nmero total de quadros F e mf ,i, j

o desvio padro da diferena de movimento
(diferena de luminncia) entre o quadro atual
y f ,i, j e o quadro anterior y f 1,i, j .
A segunda caracterstica temporal a mdia da
diferena absoluta (Mean Absolute Diference MAD)
[31] entre quadros sucessivos, representada pela
Equao (12) que defne a medida global da MAD
para todos os quadros de um vdeo.


2 1 1
1
, , 1, , .
1
F M N
f i j
MAD y f i j y f i j
M N F



(12)
A terceira caracterstica temporal a mdia da
diferena absoluta ponderada (weighted Mean
Absolute Diference MADw) [32], a qual mede o grau
de variao das cenas de um vdeo que considera a
cena atual de um quadro f e do quadro anterior f 1,
conforme a expresso:
2 1
1
.
1
F
f
f f
MAD
MADw
F MAD


(13)
Assim, o mtodo proposto combina as
caractersticas espaciais e temporais em uma matriz
, , , , , f f f f f f f x A B Z TI MAD MADw , em que f o
nmero de amostras de vdeo. A Figura 1 apresenta
as caractersticas temporais espaciais de dezessete
bases de dados de vdeos (denominada superconjunto
S) usadas neste trabalho e reportadas em [27]. A
recomendao ITU-T P.910 [31] defne a medida SI
(Spatial perceptual Information) como informao
espacial perceptual. A inspeo visual dessa fgura
mostra que as amostras de vdeo usadas neste
trabalho apresentam uma grande variao espaotemporal.
Fig. 1. Caractersticas espaciais e temporais do superconjunto
S com 216 amostras de referncia
3.2. Mtrica NRVQA-ELMtc
O algoritmo ELM [28] desenvolvido para o
treinamento de uma rede SLFN atribui pesos e
polarizaes (biases) de maneira aleatria, segundo
uma distribuio uniforme. O treinamento compreende
N amostras distintas representadas pela varivel
, , , 1, , n m
f f f f x t x t f N , cujo clculo
conforme a expresso

1
, 1, , ,
K
K i j j f j f
f
f g b f N

x w x o (14)
em que f o a sada (escore objetivo), g(x) a
funo de ativao e j o peso que conecta o jsimo
neurnio da camada oculta ao neurnio de
sada. De acordo com [28], uma rede SLFN com K
ns na camada oculta e uma funo de ativao g(x)
pode apresentar um erro mdio prximo de zero, i.e.,
1
0
K
f f
f
o t . Logo, h parmetros j , j w e j b tal
que

1
, 1, , ,
K
j j f j f
f
g b f N

w x t (15)
em que f t o vetor alvo (escores subjetivos),
T
1, , j j jn w w w o vetor de peso que conecta o jsimo
neurnio da camada oculta ao neurnio da
camada de entrada, j b denota a polarizao (bias) do
j-simo neurnio da camada oculta, j f w x o
produto interno de j w e f x . A Figura 2 ilustra o
algoritmo ELM empregado em uma arquitetura de
rede neural SLFN.
xi
1
j
N
1
j
K
ti
bj
N input neuron K hidden neuron output neuron
1
K
wj
Fig. 2. Arquitetura de uma rede neural SLFN usando algoritmo
de treinamento ELM
O sistema linear da Equao (16) resume o mtodo
do algoritmo ELM.
H T, (16)
em que a matriz da camada oculta representada por
1, , and 1, , f H h f N j K com a primeira
linha da matriz de caractersticas f x igual a
T
1 2 , , , f f f fn x x x x , i.e., a primeira linha igual a
1 1 1 1 1 1 1 , , , , , f f f f f f f x A B Z TI MAD MADw . A matriz de
sada e o vetor alvo (target) so defnidos como
T
1 , K e
T
1, , N T t t , respectivamente. O
termo
T
1 , 1, , j jm j j K denota o vetor de
peso que conecta o j-simo neurnio da camada
oculta e os neurnios de sada. Hung et al. [28]
propuseram a atribuio aleatria de pesos aos
parmetros j w e j b , a fm de seja obtido um pequeno
erro no-nulo durante o treinamento. Considerando o
sistema linear da Equao (17), os pesos da camada
de sada podem ser aproximados por
H T (17)
em que H defnida como matriz inversa
generalizada de Moore-Penrose (MP) [33] da matriz
de sada da camada oculta H . Alm disso, o
conjunto de treinamento , n oculta K e uma
funo de ativao g x , e.g., funo de base radial
(Radial Basis Function RBF), hard-limiting (hardlim),
sigmoidal (sig) e seno (sin). Em resumo, o algoritmo
ELM compreende trs etapas [28]:
i) Atribuio aleatria dos pesos de entrada j w e
polarizaes j b ;
ii) Clculo da matriz da camada de sada H ;
iii) Clculo dos pesos de sada : H T .
O mtodo NRVQA-ELMtc [27] implementa um
simples critrio de parada no treinamento da rede
neural SLFN, quanto atribuio aleatria dos pesos
j w e j b . Embora este critrio no seja direcionado,
busca os pesos relacionados com o menor RMSE
(Root-Mean-Square Error) entre a sada desejada
(escore subjetivo) e o escore objetivo na fase de
treinamento com k iteraes (tipicamente, k 100 ) e
N neurnios na camada oculta. Alm disso, conforme
estudo realizado em [27], caso o RMSE seja menor do
que 0,5 o algoritmo cessa a busca pelos parmetros
j w e j b .
4. RESULTADOS EXPERIMENTAIS
Esta seo apresenta os resultados de acurcia,
i.e., os coefcientes de correlao linear de Pearson
(Pearson Linear Correlation Coefcient PLCC) [34],
[35], entre os escores objetivos e subjetivos de 2627
amostras de vdeo estudadas em [27].
A Figura 3 compara a acurcia (PLCC) entre as
mtricas de referncia completa (FR) PSNR e MSSSIM
com o mtodo proposto (NRVQA-ELMtc) para
as 2627 amostras de vdeo, pertencentes a 17 bases
de dados de vdeo disponibilizadas por diversas
instituies e laboratrios [27]. A funo de ativao
usada na rede neural SLFN foi o seno (sin) com o
nmero de amostras de teste igual ao nmero de
neurnios na camada oculta ( N ). O mtodo de
validao cruzada mltipla (K-fold) foi usado com o
objetivo de gerar uma distribuio de acurcia, a qual
foi analisada por meio do diagrama de caixa (box-plot)
[36], em que o trao, o crculo e o quadrado, ambos
em vermelho, representam a mediana, a mdia e o
desvio padro, respectivamente. Destaca-se que
neste trabalho foi empregada uma validao cruzada
com um grande nmero de amostras de treinamentoteste
com K 100 , i.e., cada caixa do box-plot
comporta 100 experimentos distintos. Tipicamente, a
literatura apresenta trabalhos no campo da avaliao
Fig. 3. Box-plot da predio da acurcia (PLCC) entre as mtricas PSNR, MS-SSIM e o mtodo proposto NRVQA-ELMtc
de qualidade de vdeo com K entre 5 e 10 [37], [38].
Pela inspeo visual da Figura 3 observa-se que o
desempenho do mtodo proposto superior s
mtricas FR, em quaisquer condies de teste, i.e.,
para qualquer quantidade de amostras de teste
(nmero de neurnios na camada oculta) entre 25 e
500. Em especial, para N 50 , o mtodo proposto
apresenta valores de PLCC, em termos da mdia e
mediana, acima de 0,8, denotando uma forte
associao entre os escores objetivos e subjetivos, na
tarefa de predio de qualidade de vdeo. Isto ocorre
devido grande quantidade de amostras de vdeo
usadas no treinamento, e.g., para N 300 foram
usadas 2327 amostras de treinamento, ou seja,
mesmo usando pares de treinamento-teste disjuntos,
o mtodo proposto mostra uma acurcia superior s
mtricas de referncia completa. A assimetria positiva,
i.e., a maior concentrao da acurcia entre o
segundo quartil (mediana) e o terceiro quartil, na
distribuio do box-plot nos testes com 300 e 500
neurnios na camada oculta, indica que o mtodo
proposto apresenta um desempenho expressivo em
comparao com as mtricas FR.
Entretanto, mesmo para N entre 25 e 50, o
mtodo proposto apresentou uma acurcia maior do
que as mtricas FR, cujo melhor resultado foi para
N 25 com o desvio-quartil (amplitude interquartlica)
confnado entre 0,65 e 0,8. Alm disso, este resultado
tambm apresentou assimetria positiva com a mdia
do PLCC em torno de 0,75.
5. CONCLUSO
Este trabalho apresentou uma mtrica NR baseada
em uma rede neural artifcial SLFN, cujo treinamento
determinado pelo algoritmo ELM, o qual considera
caractersticas espao-temporais e os escores
subjetivos (alvos) extrados de 2627 amostras
treinamento. Alm disso, este trabalho prope uma
extenso do algoritmo ELM por meio de um simples
critrio de parada, a fm de que sejam obtidos
parmetros da rede neural artifcial relacionados com
o menor RMSE. Tipicamente, a comparao entre
mtricas FR e NR injusta, devido ausncia do
vdeo de referncia na obteno do escore de
qualidade em mtricas NR. Entretanto, os resultados
experimentais mostram que o mtodo proposto
apresentou desempenho superior s mtricas de
referncia completa PSNR e MS-SSIM, sobretudo,
quando o nmero de amostras de teste e de neurnios
na camada oculta da rede SLFN maior do que 250.
Logo, a mtrica NRVQA-ELMtc pode ser empregada
no monitoramento de qualidade em sistemas de
transmisso e recepo de vdeo digital, tais como
IPTV (Internet Protocol Television), TV digital ou em
dispositivos mveis, tais como ultrabooks,
smartphones, tablets e em aparelhos WiDi (Wireless
Display).
REFERNCIAS
[1] S. Winkler, Issues in vision modeling for perceptual
video quality assessment, Signal Processing, vol. 78,
no. 2, pp. 231252, 1999.
[2] Z. Wang and A. C. Bovik, Modern image quality
assessment. San Rafael, CA: Morgan & Claypool,
2006.
[3] W. Lin and C.-C. Jay Kuo, Perceptual visual quality
metrics: A survey, Journal of Visual Communication
and Image Representation, vol. 22, no. 4, pp. 297312,
May 2011.
[4] S. S. Hemami and A. R. Reibman, No-reference image
and video quality estimation: Applications and humanmotivated
design, Signal Processing: Image
Communication, vol. 25, no. 7, pp. 469481, 2010.
[5] Z. Wang and A. Bovik, Reduced- and No-Reference
Image Quality Assessment, IEEE Signal Processing
Magazine, vol. 28, no. 6, pp. 2940, Nov. 2011.
[6] R. V. Babu, S. Suresh, and A. Perkis, No-reference
JPEG-image quality assessment using GAP-RBF,
Signal Processing, vol. 87, no. 6, pp. 14931503, 2007.
[7] X. Jiang, F. Meng, J. Xu, and W. Zhou, No-Reference
Perceptual Video Quality Measurement for High
Defnition Videos Based on an Artifcial Neural
Network, in Computer and Electrical Engineering,
2008. ICCEE 2008. International Conference on, 2008,
pp. 424427.
[8] J. Choe, K. Lee, C. Lee, and S. Korea, No-reference
video quality measurement using neural networks, in
2009 16th International Conference on Digital Signal
Processing, 2009, pp. 14.
[9] S. Suresh, R. Venkatesh Babu, and H. J. Kim, Noreference
image quality assessment using modifed
extreme learning machine classifer, Applied Soft
Computing, vol. 9, no. 2, pp. 541552, Mar. 2009.
[10] A. M. Eskicioglu and P. S. Fisher, Image quality
measures and their performance, IEEE Transactions
on Communications, vol. 43, no. 12, pp. 29592965,
1995.
[11] U. Engelke and H.-J. Zepernick, Perceptual-based
Quality Metrics for Image and Video Services: A
Survey, in Proceedings EuroNGI Conf. Next
Generation Internet Networks, 2007, pp. 190197.
[12] Z. Wang, A. C. Bovik, H. R. Sheikh, and E. P
Simoncelli, Image quality assessment: from error
visibility to structural similarity., IEEE Transactions on
Image Processing, vol. 13, no. 4, pp. 600612, 2004.
[13] Z. Wang, E. P. Simoncelli, and A. C. Bovik, Multiscale
structural similarity for image quality assessment, in
The Thrity-Seventh Asilomar Conference on Signals,
Systems & Computers, 2003, 2003, vol. 2, no. 1, pp.
13981402.
[14] H. R. Wu, K. R. Rao, and A. A. Kassim, Digital Video
Image Quality and Perceptual Coding, Journal of
Electronic Imaging, vol. 16, no. 3, 2007.
[15] Z. Wang and A. C. Bovik, A universal image quality
index, IEEE Signal Processing Letters, vol. 9, no. 3,
pp. 8184, Mar. 2002.
[16] Y. Shi, Y. Ding, R. Zhang, and J. Li, Structure and Hue
Similarity for Color Image Quality Assessment, in 2009
International Conference on Electronic Computer
Technology, 2009, pp. 329333.
[17] W. B. Silva, A. A. P. Pohl, and K. V. O. Fonseca, A
Reduced-Reference Video Quality Assessment Method
based on the Activity-Diference of DCT Coefcients,
IEICE Transactions on Information and Systems, vol. E96-D, no. 3, 2013.
[18] P. Le Callet, C. Viard-Gaudin, and D. Barba, A Convolutional Neural Network Approach for Objective Video Quality Assessment, IEEE Transactions on Neural Networks, vol. 17, no. 5, pp. 13161327, 2006.
[19] P. Le Callet and D. Barba, Image Quality Assessment: From Sites Errors to a Global Appreciation of Quality, in Proceedings of the Picture Coding Sympsium, 2001, pp. 105108.
[20] M. Miyahara, K. Kotani, and V. R. Algazi, Objective picture quality scale (PQS) for image coding, IEEE Transactions on Communications, vol. 46, no. 9, pp. 12151226, 1998.
[21] M. Slanina, V. Ricny, and R. Forchheimer, A Novel Metric for H.264/AVC No-Reference Quality Assessment, in 14th International Workshop on Systems, Signals and Image Processing and 6th EURASIP Conference focused on Speech and Image Processing, Multimedia Communications and Services, 2007, pp. 114117.
[22] O. Sugimoto, S. Naito, S. Sakazawa, and A. Koike, Objective perceptual video quality measurement method based on hybrid no reference framework, in 16th IEEE International Conference on Image Processing (ICIP09), 2009, pp. 22372240.
[23] T. Oelbaum, C. Keimel, and K. Diepold, Rule-Based No-Reference Video Quality Evaluation Using Additionally Coded Videos, IEEE Journal of Selected Topics in Signal Processing, vol. 3, no. 2, pp. 294303, 2009.
[24] N. Staelens, N. Vercammen, Y. Dhondt, B. Vermeulen, P. Lambert, R. de Walle, and P. Demeester, ViQID: A No-Reference bit stream-based visual quality impairment detector, in Proceedings of the Second Int Quality of Multimedia Experience (QoMEX) Workshop, 2010, pp. 206211.
[25] F. Yang, S. Wan, Q. Xie, and H. R. Wu, No-Reference Quality Assessment for Networked Video via Primary Analysis of Bit Stream, IEEE Transactions on Circuits and Systems for Video Technology, vol. 20, no. 11, pp. 15441554, Nov. 2010.
[26] Z. Wang, H. R. Sheikh, and A. C. Bovik, Objective Video Quality Assessment, in The Handbook of Video Databases: Design and Applications, B. Furht and O. Marques, Eds. Boca Raton, FL, USA: CRC Press, 2003, pp. 10411078.
[27] W. B. da Silva and A. de A. P. Pohl, Mtodos Sem Referncia Baseados em Caractersticas Espao-Temporais para Avaliao Objetiva de Qualidade de Vdeo Digital, Universidade Tecnolgica Federal do Paran (UTFPR), 2013.
[28] G.-B. Huang, Q.-Y. Zhu, and C.-K. Siew, Extreme learning machine: Theory and applications, Neurocomputing, vol. 70, no. 13, pp. 489501, Dec. 2006.
[29] Z. Wang, H. R. Sheikh, and A. C. Bovik, No-reference perceptual quality assessment of JPEG compressed images, in Image Processing. 2002. Proceedings. IEEE International Conference on Image Processing, 2002, vol. 1, pp. vol.1 I477 I480.
[30] W. B. Silva and A. A. P. Pohl, No-Reference Video Quality Assessment Method based on the Levenberg-Marquardt Minimization, in XXX Brazilian Symposium on Telecommunications (SBrT12), 2012.
[31] ITU-T P.910, Subjective video quality assessment methods for multimedia applications, Standardization Sector of ITU, 1999.
[32] W. Ding, Y. Tong, Q. Zhang, and D. Yang, Image and Video Quality Assessment Using Neural Network and SVM, Tsinghua Science & Technology, vol. 13, no. 1, pp. 112116, 2008.
[33] K. S. Banerjee, C. R. Rao, and S. K. Mitra, Generalized Inverse of Matrices and Its Applications, Technometrics, vol. 15, no. 1, p. 197, Feb. 1973.
[34] VQEG, Final report from the video quality experts group on the validation of reduced-reference and no-reference objective models for standard defnition television, Phase I, 2009.
[35] VQEG, Report on the validation of video quality models for high defnition video content, 2010.
[36] J. W. Tukey, Exploratory Data Analysis. New York: Addison-Wesley Publishing Company, 1977.
[37] P. Gastaldo and R. Zunino, Neural networks for the no-reference assessment of perceived quality, J. Electronic Imaging, vol. 14, no. 3, p. 033004, 2005.
[38] R. Herzog, M. adk, T. O. Aydn, K. I. Kim, K. Myszkowski, and H.-P. Seidel, NoRM: No-Reference Image Quality Metric for Realistic Image Synthesis, Comp. Graph. Forum, vol. 31, no. 2pt4, pp. 545554, 2012.
14 Revista de Radiodifuso v. 07 n. 08 2013
Pesquisas em ambientes digitais - TV Internet Radio Cinema
de qualidade de vdeo com K entre 5 e 10 [37], [38].
Pela inspeo visual da Figura 3 observa-se que o
desempenho do mtodo proposto superior s
mtricas FR, em quaisquer condies de teste, i.e.,
para qualquer quantidade de amostras de teste
(nmero de neurnios na camada oculta) entre 25 e
500. Em especial, para 50 N , o mtodo proposto
apresenta valores de PLCC, em termos da mdia e
mediana, acima de 0,8, denotando uma forte
associao entre os escores objetivos e subjetivos, na
tarefa de predio de qualidade de vdeo. Isto ocorre
devido grande quantidade de amostras de vdeo
usadas no treinamento, e.g., para 300 N foram
usadas 2327 amostras de treinamento, ou seja,
mesmo usando pares de treinamento-teste disjuntos,
o mtodo proposto mostra uma acurcia superior s
mtricas de referncia completa. A assimetria positiva,
i.e., a maior concentrao da acurcia entre o
segundo quartil (mediana) e o terceiro quartil, na
distribuio do box-plot nos testes com 300 e 500
neurnios na camada oculta, indica que o mtodo
proposto apresenta um desempenho expressivo em
comparao com as mtricas FR.
Entretanto, mesmo para N entre 25 e 50, o
mtodo proposto apresentou uma acurcia maior do
que as mtricas FR, cujo melhor resultado foi para
25 N com o desvio-quartil (amplitude interquartlica)
confinado entre 0,65 e 0,8. Alm disso, este resultado
tambm apresentou assimetria positiva com a mdia
do PLCC em torno de 0,75.
5. CONCLUSO
Este trabalho apresentou uma mtrica NR baseada
em uma rede neural artificial SLFN, cujo treinamento
determinado pelo algoritmo ELM, o qual considera
caractersticas espao-temporais e os escores
subjetivos (alvos) extrados de 2627 amostras
treinamento. Alm disso, este trabalho prope uma
extenso do algoritmo ELM por meio de um simples
critrio de parada, a fim de que sejam obtidos
parmetros da rede neural artificial relacionados com
o menor RMSE. Tipicamente, a comparao entre
mtricas FR e NR injusta, devido ausncia do
vdeo de referncia na obteno do escore de
qualidade em mtricas NR. Entretanto, os resultados
experimentais mostram que o mtodo proposto
apresentou desempenho superior s mtricas de
referncia completa PSNR e MS-SSIM, sobretudo,
quando o nmero de amostras de teste e de neurnios
na camada oculta da rede SLFN maior do que 250.
Logo, a mtrica NRVQA-ELMtc pode ser empregada
no monitoramento de qualidade em sistemas de
transmisso e recepo de vdeo digital, tais como
IPTV (Internet Protocol Television), TV digital ou em
dispositivos mveis, tais como ultrabooks,
smartphones, tablets e em aparelhos WiDi (Wireless
Display).


REFERNCIAS
[1] S. Winkler, Issues in vision modeling for perceptual
video quality assessment, Signal Processing, vol. 78,
no. 2, pp. 231252, 1999.
[2] Z. Wang and A. C. Bovik, Modern image quality
assessment. San Rafael, CA: Morgan & Claypool,
2006.
[3] W. Lin and C.-C. Jay Kuo, Perceptual visual quality
metrics: A survey, Journal of Visual Communication
and Image Representation, vol. 22, no. 4, pp. 297312,
May 2011.
[4] S. S. Hemami and A. R. Reibman, No-reference image
and video quality estimation: Applications and human-
motivated design, Signal Processing: Image
Communication, vol. 25, no. 7, pp. 469481, 2010.
[5] Z. Wang and A. Bovik, Reduced- and No-Reference
Image Quality Assessment, IEEE Signal Processing
Magazine, vol. 28, no. 6, pp. 2940, Nov. 2011.
[6] R. V. Babu, S. Suresh, and A. Perkis, No-reference
JPEG-image quality assessment using GAP-RBF,
Signal Processing, vol. 87, no. 6, pp. 14931503, 2007.
[7] X. Jiang, F. Meng, J. Xu, and W. Zhou, No-Reference
Perceptual Video Quality Measurement for High
Definition Videos Based on an Artificial Neural
Network, in Computer and Electrical Engineering,
2008. ICCEE 2008. International Conference on, 2008,
pp. 424427.
[8] J. Choe, K. Lee, C. Lee, and S. Korea, No-reference
video quality measurement using neural networks, in
2009 16th International Conference on Digital Signal
Processing, 2009, pp. 14.
[9] S. Suresh, R. Venkatesh Babu, and H. J. Kim, No-
reference image quality assessment using modified
extreme learning machine classifier, Applied Soft
Computing, vol. 9, no. 2, pp. 541552, Mar. 2009.
[10] A. M. Eskicioglu and P. S. Fisher, Image quality
measures and their performance, IEEE Transactions
on Communications, vol. 43, no. 12, pp. 29592965,
1995.
[11] U. Engelke and H.-J. Zepernick, Perceptual-based
Quality Metrics for Image and Video Services: A
Survey, in Proceedings EuroNGI Conf. Next
Generation Internet Networks, 2007, pp. 190197.
[12] Z. Wang, A. C. Bovik, H. R. Sheikh, and E. P
Simoncelli, Image quality assessment: from error
visibility to structural similarity., IEEE Transactions on
Image Processing, vol. 13, no. 4, pp. 600612, 2004.
[13] Z. Wang, E. P. Simoncelli, and A. C. Bovik, Multiscale
structural similarity for image quality assessment, in
The Thrity-Seventh Asilomar Conference on Signals,
Systems & Computers, 2003, 2003, vol. 2, no. 1, pp.
13981402.
[14] H. R. Wu, K. R. Rao, and A. A. Kassim, Digital Video
Image Quality and Perceptual Coding, Journal of
Electronic Imaging, vol. 16, no. 3, 2007.
[15] Z. Wang and A. C. Bovik, A universal image quality
index, IEEE Signal Processing Letters, vol. 9, no. 3,
pp. 8184, Mar. 2002.
[16] Y. Shi, Y. Ding, R. Zhang, and J. Li, Structure and Hue
Similarity for Color Image Quality Assessment, in 2009
International Conference on Electronic Computer
Technology, 2009, pp. 329333.
[17] W. B. Silva, A. A. P. Pohl, and K. V. O. Fonseca, A
Reduced-Reference Video Quality Assessment Method
based on the Activity-Difference of DCT Coefficients,
IEICE Transactions on Information and Systems, vol.
E96-D, no. 3, 2013.
[18] P. Le Callet, C. Viard-Gaudin, and D. Barba, A
Convolutional Neural Network Approach for Objective
Video Quality Assessment, IEEE Transactions on
Neural Networks, vol. 17, no. 5, pp. 13161327, 2006.
[19] P. Le Callet and D. Barba, Image Quality Assessment:
From Sites Errors to a Global Appreciation of Quality,
in Proceedings of the Picture Coding Sympsium, 2001,
pp. 105108.
[20] M. Miyahara, K. Kotani, and V. R. Algazi, Objective
picture quality scale (PQS) for image coding, IEEE
Transactions on Communications, vol. 46, no. 9, pp.
12151226, 1998.
[21] M. Slanina, V. Ricny, and R. Forchheimer, A Novel
Metric for H.264/AVC No-Reference Quality
Assessment, in 14th International Workshop on
Systems, Signals and Image Processing and 6th
EURASIP Conference focused on Speech and Image
Processing, Multimedia Communications and Services,
2007, pp. 114117.
[22] O. Sugimoto, S. Naito, S. Sakazawa, and A. Koike,
Objective perceptual video quality measurement
method based on hybrid no reference framework, in
16th IEEE International Conference on Image
Processing (ICIP09), 2009, pp. 22372240.
[23] T. Oelbaum, C. Keimel, and K. Diepold, Rule-Based
No-Reference Video Quality Evaluation Using
Additionally Coded Videos, IEEE Journal of Selected
Topics in Signal Processing, vol. 3, no. 2, pp. 294303,
2009.
[24] N. Staelens, N. Vercammen, Y. Dhondt, B. Vermeulen,
P. Lambert, R. de Walle, and P. Demeester, ViQID: A
No-Reference bit stream-based visual quality
impairment detector, in Proceedings of the Second Int
Quality of Multimedia Experience (QoMEX) Workshop,
2010, pp. 206211.
[25] F. Yang, S. Wan, Q. Xie, and H. R. Wu, No-Reference
Quality Assessment for Networked Video via Primary
Analysis of Bit Stream, IEEE Transactions on Circuits
and Systems for Video Technology, vol. 20, no. 11, pp.
15441554, Nov. 2010.
[26] Z. Wang, H. R. Sheikh, and A. C. Bovik, Objective
Video Quality Assessment, in The Handbook of Video
Databases: Design and Applications, B. Furht and O.
Marques, Eds. Boca Raton, FL, USA: CRC Press,
2003, pp. 10411078.
[27] W. B. da Silva and A. de A. P. Pohl, Mtodos Sem
Referncia Baseados em Caractersticas Espao-
Temporais para Avaliao Objetiva de Qualidade de
Vdeo Digital, Universidade Tecnolgica Federal do
Paran (UTFPR), 2013.
[28] G.-B. Huang, Q.-Y. Zhu, and C.-K. Siew, Extreme
learning machine: Theory and applications,
Neurocomputing, vol. 70, no. 13, pp. 489501, Dec.
2006.
[29] Z. Wang, H. R. Sheikh, and A. C. Bovik, No-reference
perceptual quality assessment of JPEG compressed
images, in Image Processing. 2002. Proceedings.
IEEE International Conference on Image Processing,
2002, vol. 1, pp. vol.1 I477 I480.
[30] W. B. Silva and A. A. P. Pohl, No-Reference Video
Quality Assessment Method based on the Levenberg-
Marquardt Minimization, in XXX Brazilian Symposium
on Telecommunications (SBrT12), 2012.
[31] ITU-T P.910, Subjective video quality assessment
methods for multimedia applications, Standardization
Sector of ITU, 1999.
[32] W. Ding, Y. Tong, Q. Zhang, and D. Yang, Image and
Video Quality Assessment Using Neural Network and
SVM, Tsinghua Science & Technology, vol. 13,
no. 1, pp. 112116, 2008.
[33] K. S. Banerjee, C. R. Rao, and S. K. Mitra,
Generalized Inverse of Matrices and Its Applications,
Technometrics, vol. 15, no. 1, p. 197, Feb. 1973.
[34] VQEG, Final report from the video quality experts
group on the validation of reduced-reference and no-
reference objective models for standard definition
television, Phase I, 2009.
[35] VQEG, Report on the validation of video quality
models for high definition video content, 2010.
[36] J. W. Tukey, Exploratory Data Analysis. New York:
Addison-Wesley Publishing Company, 1977.
[37] P. Gastaldo and R. Zunino, Neural networks for the
no-reference assessment of perceived quality, J.
Electronic Imaging, vol. 14, no. 3, p. 033004, 2005.
[38] R. Herzog, M. adk, T. O. Aydn, K. I. Kim, K.
Myszkowski, and H.-P. Seidel, NoRM: No-Reference
Image Quality Metric for Realistic Image Synthesis,
Comp. Graph. Forum, vol. 31, no. 2pt4, pp. 545554,
2012.

Pesquisas em ambientes digitais - TV Internet Radio Cinema
Revista de Radiodifuso v. 07 n. 08 2013 15
MTRICA SEM REFERNCIA BASEADA EM REDES NEURAIS
PARA AVALIAO OBJETIVA DE QUALIDADE DE VDEO DIGITAL
Wyllian Bezerra da Silva, Alexandre de Almeida Prado Pohl
Programa de Ps-Graduao em Engenharia Eltrica e Informtica Industrial (CPGEI) UTFPR, Curitiba, Brasil
wyllianbs@gmail.com, pohl@utfpr.edu.br
Resumo: Este trabalho apresenta uma mtrica sem referncia para avaliao de qualidade de vdeo digital baseada em uma rede neural artifcial que usa uma verso estendida do algoritmo de aprendizado ELM (Extreme Learning Machine). O mtodo proposto realiza o treinamento da rede neural a partir de seis caractersticas espao-temporais. Os resultados experimentais mostram que o mtodo proposto apresenta desempenho superior s mtricas de referncia completa PSNR e MS-SSIM na tarefa de predio de qualidade de vdeo. Logo, o mtodo proposto pode ser usado no monitoramento de qualidade em sistemas de transmisso e recepo de vdeo digital, tais como IPTV e TV digital.
Palavras chave: algoritmo ELM, avaliao objetiva de vdeo, mtrica sem referncia, rede neural artifcial.
1. INTRODUO
Durante os ltimos anos, a literatura tem apresentado um nmero crescente publicaes acerca de mtricas objetivas para avaliao de qualidade de vdeo para diversas aplicaes em radiodifuso ou no processamento de vdeo digital, seja na aquisio do sinal, codifcao e decodifcao, compresso, transmisso, restaurao, armazenamento, segmentao e exibio de sinais de vdeo digital [14]. A avaliao de qualidade de vdeo digital pode ser realizada por meio de mtricas subjetiva e objetiva. A primeira requer uma grande quantidade de recursos humanos e apresenta elevado custo em sua implementao [13]. Porm, as mtricas objetivas so vantajosas quando apresentam um determinado grau de correlao com as mtricas subjetivas. Logo, o desenvolvimento destas um desafo no campo de avaliao de qualidade de vdeo e imagem. Alm disso, as mtricas objetivas, devido natureza de seu critrio objetivo, independem de interao humana e so facilmente reprodutveis [3]. Dentre as mtricas objetivas destacam-se as mtricas sem referncia (No-Reference NR), pois no necessitam do vdeo de referncia no clculo de sua medida. Entretanto, estas requerem um conhecimento a priori sobre as distores em vdeo digital para que seja estabelecida uma correlao com os resultados subjetivos [3].
A maioria das mtricas NR encontradas na literatura so baseadas na avaliao de qualidade de imagens e em caractersticas relacionadas ao Sistema Visual Humano (SVH). Assim, o desenvolvimento de mtricas NR difcil, devido necessidade de emular a percepo do SVH que envolve aspectos cognitivos, emocionais e estticos relacionados ao contedo do vdeo e que so altamente dependentes do observador [4], [5].
A literatura reporta diversos esforos no desenvolvimento de mtricas para avaliao de qualidade de vdeo baseadas em redes neurais e em algoritmos de aprendizado. Babu et al. [6] apresentam uma mtrica para avaliar a qualidade de imagens comprimidas em JPEG (Joint Photographic Experts Group) por meio de um algoritmo de aprendizado de crescimento e propem o uso de uma rede neural GAP-RBF (Growing and Pruning Radial Basis Function) que usa caractersticas relacionadas ao SVH. Jiang et al. [7] desenvolveram uma mtrica NR para avaliao de qualidade de vdeo em HD (High Defnition) baseada em uma rede neural treinada pelo algoritmo BP (Back-Propagation) que usa seis caractersticas espao-temporais e a RoI (Region of Interest). Choe et al. [8] desenvolveram uma mtrica NR baseada no fuxo de bits para avaliao de qualidade de vdeo codifcado em H.264. Esta mtrica extrai caractersticas quadro a quadro e usa uma rede neural alimentada adiante (feedforward) com trs camadas. Suresh et al. [9] apresentaram uma extenso do algoritmo ELM na tarefa de avaliar a qualidade de imagens comprimidas em JPEG com base no esquema de seleo mltipla KS-ELM (K-fold selection Scheme using ELM) e no algoritmo RCGA-ELM (Real-Coded Genetic Algorithm using ELM) para seleo dos pesos de entrada e polarizaes.
Este trabalho apresenta uma verso estendida do algoritmo ELM para redes neurais SLFN (Single-hidden-Layer Feedforward Neural Networks) que implementa um simples critrio de parada na fase de treinamento. Alm disso, esse mtodo usa seis caractersticas espao-temporais de vdeos submetidos a diversas condies de distoro.
Este artigo est dividido da seguinte maneira: a Seo 2 descreve as mtricas para avaliao de qualidade de vdeo. A Seo 3 descreve o mtodo NR proposto para avalio de qualidade de vdeo digital. A Seo 4 apresenta os resultados experimentais, em que so comparados o mtodo NR proposto e duas mtricas FR. Finalmente, a Seo 5 apresenta a concluso do artigo.
2. AVALIAO DE QUALIDADE DE VDEO
O processo de avaliao de qualidade de vdeo
pode ser realizado com a aplicao de mtricas
subjetivas ou objetivas. As mtricas subjetivas
estimam a qualidade do vdeo por meio de avaliadores
humanos. Logo, exigem um alto custo, pois
necessitam de uma grande quantidade de recursos
humanos e apresentam problemas quanto aos
requisitos de imparcialidade e reprodutibilidade,
tornando-se inapropriadas em sistemas de
radiodifuso ou em provedores de contedo [10], [11].
Por outro lado, as mtricas objetivas so baseadas em
modelos matemticos, cujo objetivo produzir um
escore de qualidade que emule a percepo do SVH.
Alm disso, as mtricas objetivas requerem baixo
custo de implementao (quando comparadas com as
mtricas subjetivas) e no apresentam problemas
quanto reprodutibilidade e imparcialidade.
As mtricas objetivas para avaliao de qualidade
de vdeo podem ser classifcadas em trs categorias:
(i) mtricas de referncia completa (Full-Reference
FR); (ii) mtricas de referncia reduzida (Reduced-
Reference RR); (iii) mtricas sem referncia (NR).
2.1. Mtricas FR
As mtricas FR requerem o vdeo de referncia
(fonte) no clculo do escore de qualidade. Estas
mtricas so amplamente utilizadas no processo de
validao de mtricas RR ou NR, por meio da
comparao de desempenho defnida pelas
recomendaes do Grupo de Especialistas em
Qualidade de Vdeo (VQEG Video Quality Experts
Group) que um rgo de padronizao internacional
de mtricas subjetivas e objetivas de qualidade de
vdeo. Dentre as mtricas FR, destacam-se o PSNR
(Peak Signal-to-Noise Ratio), SSIM (Structural
SIMilarity index) [12] e MS-SSIM (Multi-Scale
Structural SIMilarity index) [13].
O PSNR uma mtrica FR baseada no erro pixel a
pixel de fcil implementao. Entretanto, apresenta
baixa correlao com o SVH [14]. A sua medida
processada sobre o erro quadro a quadro, i.e., entre o
quadro original x e o quadro y . A expresso a seguir
defne o PSNR para um conjunto de quadros F .
20
1
1
PSNR 20log ,
F
f
f f
v
F MSE



(1)
com

2
0 0
1
MSE , , , , ,
N M
f
i j
x f i j y f i j
NM

(2)
em que o termo f v igual a (2 1) k , cujo k o
nmero de bits por pixel, i.e., a componente de
luminncia do quadro f . Os termos x f ,i, j e
y f ,i, j so os valores de luminncia do quadro de
origem e degradado, respectivamente. As
componentes bidimensionais so representadas pelo
nmero de colunas N e pelo nmero de linhas M . O
termo f MSE defnido como erro quadrtico mdio
ou MSE (Mean Square Error).
A mtrica SSIM baseia-se no fato de que o SVH
fortemente adaptado para extrair informaes das
caractersticas estruturais de um quadro ou imagem.
Logo, uma medida de similaridade estrutural (ou
distoro) pode prover boa aproximao para a
qualidade perceptual de um vdeo [3, 79]. Sejam x e
y dois sinais no-negativos, em que y o sinal
degradado e x o sinal original (sem perda de
qualidade), a medida de similaridade utilizada como
um ndice quantitativo de qualidade do sinal distorcido,
ou seja, x tomado como a referncia para medir a
qualidade de y . A mtrica SSIM possui diversas
extenses, dentre as quais a verso MS-SSIM,
proposta por Wang et al. [13] que assume uma
abordagem multiescalar.
2.2. Mtricas RR
As mtricas de referncia reduzida retiram certa
quantidade de caractersticas do vdeo original (fonte),
baseadas em componentes espaciais, temporais, no
domnio da frequncia ou no fuxo de bits (bitstream).
Este tipo de mtrica amplamente utilizada no
monitoramento de transmisses em rede [17]. Neste
tipo de cenrio de aplicao, o vdeo transmitido
com uma sequncia de informao codifcada
(overhead) e no lado receptor ocorre a sua
decodifcao, seguido pelo clculo do ndice de
qualidade, o qual obtido por meio da comparao
entre a representao reduzida da informao nos
pares emissor e receptor [18]. Tipicamente, mtricas
RR so implementadas por meio de funes, divididas
em duas etapas [19]: (i) clculo do erro entre os
vdeos original e distorcido, constitudo pela diferena
de suas caractersticas, a fm de compor a
representao reduzida da informao; (ii) funo que
agrupa os erros ou diferenas para obter um ndice de
qualidade global. Algumas mtricas RR exploram
propriedades dos artefatos, por meio da extrao de
caractersticas e um modelo de parametrizao [20]
com foco em tipos especfcos de distores
(artefatos). Esta abordagem encontrada em Silva et
al. [17], cujo clculo do escore de qualidade
baseado na diferena de atividade dos coefcientes
DCT (Discrete Cosine Transform) em um macro bloco
com resoluo de 1616 pixels.
2.3. Mtricas NR
As mtricas NR extraem caractersticas
relacionadas ao SVH do vdeo distorcido, i.e., na
recepo do sinal de vdeo [14]. Tipicamente, h duas
abordagens no desenvolvimento destas mtricas: (i)
extrao dos parmetros sobre o fuxo de bits, tais
como a taxa de compresso, informaes
relacionadas ao GoP (Group of Pictures), estimao
de movimento, perfl e nvel de codifcao, bem como
o parmetro de quantizao ou QP (Quantization
Parameter) [2125]. Mtricas NR apresentam maior
complexidade quando so aplicadas em vdeo, devido
variao temporal dos quadros, contedos das
cenas e difculdade de compreenso das
caractersticas do SVH [26]. Assim, algumas mtricas
dessa categoria exploram caractersticas espaciais e
temporais na estimao de qualidade de vdeo [21].
3. MTODO PROPOSTO
O mtodo proposto, denominado NRVQA-ELMtc
(No-Reference Video Quality Assessment using
Extreme Learning Machine algorithm with termination
criteria) [27] combina caractersticas espaciais e
temporais, por meio de uma rede neural artifcial
SLFNs usando o algoritmo de treinamento ELM [28]
com a implementao de um simples critrio de
parada.
3.1. Caractersticas espao-temporais
As caractersticas espaciais incorporadas no
mtodo proposto so baseadas em medidas de
artefatos em vdeo digital, i.e., distores de blocagem
e borramento desenvolvidas por Wang et al. [20].
Assim, a componente de luminncia do quadro f
representada por y(f , i, j ) com i 1,M e j 1, N ,
em que M e N so os nmeros de linhas e colunas,
respectivamente, de um quadro. Logo, as diferenas
de luminncia ao longo das linhas e colunas so
representadas, respectivamente, pelas expresses a
seguir.


, , , , 1 , , , 1, 1 ,
, , , 1, , , , 1, 1 .
h
v
d f i j y f i j y f i j j N
d f i j y f i j y f i j i M


(3)
O efeito de blocagem pode ser estimado pela
mdia das diferenas entre as bordas dos blocos da
DCT (Discrete Cosine Transform) nas direes
horizontal e vertical para uma sequncia F de
quadros, conforme mostra a Equao (4), com um
macrobloco de dimenso , cujo tamanho tpico
de 8 [20].


1
1
1 1 1
1
1
1 1 1
1
, , 1 ,
1
1
1
, 1 , .
1
1
N
F M
h h
f i j
M
F N
v
i j
v
f
B d f i j
N
F M
B d f i j
M
F N












(4)
A medida de blocagem em uma sequncia de
vdeo com F quadros determinada pela mdia entre
h B e v B , caracterizando a medida B , conforme a
expresso a seguir.
.
2
h v B B
B

(5)
Os efeitos de borramento so estimados pelo
clculo da reduo de atividade entre os blocos ,
em que usada a medida de blocagem nas direes
horizontal e vertical, conforme as expresses




1
1 1 1
1
1 1 1
, , ,
1 1
, ,
1
.
1
F M N
h h h
f i j
F M N
v v
f
v
i j
A d f i j B
F M N
A d f i j B
F N M








(6)
A medida de borramento, representada por A ,
conforme a Equao (7), determinada pela mdia
entre h A e v A .
.
2
h v A A
A

(7)
O segundo fator que contribui para a deteco do
artefato de borramento baseado na taxa de
cruzamento por zero (Zero Crossing ZC) nas
direes horizontal e vertical, conforme as expresses
a seguir.




2
1 1 1
2
1 1 1
1
, , ,
2
1
, , ,
2
F M N
h h
f i j
F M N
v v
f i j
Z z f i j
F M N
Z z f i j
F N M




(8)
em que os termos h z e v z so determinados por


1, na direo horizontal
, , ,
0, caso contrrio
1, na direo vertical
, , .
0, caso contrrio
h
v
z f i j
z f i j



(9)
Assim, a medida de borramento Z determinada
pela mdia entre as componentes h Z e v Z .
.
2
h v Z Z
Z

(10)
O mtodo proposto tambm incorpora trs
caractersticas temporais no treinamento da rede
neural SLFN com o algoritmo ELM.
A primeira caracterstica temporal a diferena de
movimento entre quadros adjacentes, representada
pela varivel TI (Temporal perceptual Information) [31]
que considera os valores de luminncia de pixels
localizados em uma mesma regio de um quadro,
conforme a expresso a seguir.

2
1
, , ,
1
F
f
TI m f i j
F


(11)
em que o nmero total de quadros F e mf ,i, j

o desvio padro da diferena de movimento
(diferena de luminncia) entre o quadro atual
y f ,i, j e o quadro anterior y f 1,i, j .
A segunda caracterstica temporal a mdia da
diferena absoluta (Mean Absolute Diference MAD)
[31] entre quadros sucessivos, representada pela
Equao (12) que defne a medida global da MAD
para todos os quadros de um vdeo.


2 1 1
1
, , 1, , .
1
F M N
f i j
MAD y f i j y f i j
M N F



(12)
A terceira caracterstica temporal a mdia da
diferena absoluta ponderada (weighted Mean
Absolute Diference MADw) [32], a qual mede o grau
de variao das cenas de um vdeo que considera a
cena atual de um quadro f e do quadro anterior f 1,
conforme a expresso:
2 1
1
.
1
F
f
f f
MAD
MADw
F MAD


(13)
Assim, o mtodo proposto combina as
caractersticas espaciais e temporais em uma matriz
, , , , , f f f f f f f x A B Z TI MAD MADw , em que f o
nmero de amostras de vdeo. A Figura 1 apresenta
as caractersticas temporais espaciais de dezessete
bases de dados de vdeos (denominada superconjunto
S) usadas neste trabalho e reportadas em [27]. A
recomendao ITU-T P.910 [31] defne a medida SI
(Spatial perceptual Information) como informao
espacial perceptual. A inspeo visual dessa fgura
mostra que as amostras de vdeo usadas neste
trabalho apresentam uma grande variao espaotemporal.
Fig. 1. Caractersticas espaciais e temporais do superconjunto
S com 216 amostras de referncia
3.2. Mtrica NRVQA-ELMtc
O algoritmo ELM [28] desenvolvido para o
treinamento de uma rede SLFN atribui pesos e
polarizaes (biases) de maneira aleatria, segundo
uma distribuio uniforme. O treinamento compreende
N amostras distintas representadas pela varivel
, , , 1, , n m
f f f f x t x t f N , cujo clculo
conforme a expresso

1
, 1, , ,
K
K i j j f j f
f
f g b f N

x w x o (14)
em que f o a sada (escore objetivo), g(x) a
funo de ativao e j o peso que conecta o jsimo
neurnio da camada oculta ao neurnio de
sada. De acordo com [28], uma rede SLFN com K
ns na camada oculta e uma funo de ativao g(x)
pode apresentar um erro mdio prximo de zero, i.e.,
1
0
K
f f
f
o t . Logo, h parmetros j , j w e j b tal
que

1
, 1, , ,
K
j j f j f
f
g b f N

w x t (15)
em que f t o vetor alvo (escores subjetivos),
T
1, , j j jn w w w o vetor de peso que conecta o jsimo
neurnio da camada oculta ao neurnio da
camada de entrada, j b denota a polarizao (bias) do
j-simo neurnio da camada oculta, j f w x o
produto interno de j w e f x . A Figura 2 ilustra o
algoritmo ELM empregado em uma arquitetura de
rede neural SLFN.
xi
1
j
N
1
j
K
ti
bj
N input neuron K hidden neuron output neuron
1
K
wj
Fig. 2. Arquitetura de uma rede neural SLFN usando algoritmo
de treinamento ELM
O sistema linear da Equao (16) resume o mtodo
do algoritmo ELM.
H T, (16)
em que a matriz da camada oculta representada por
1, , and 1, , f H h f N j K com a primeira
linha da matriz de caractersticas f x igual a
T
1 2 , , , f f f fn x x x x , i.e., a primeira linha igual a
1 1 1 1 1 1 1 , , , , , f f f f f f f x A B Z TI MAD MADw . A matriz de
sada e o vetor alvo (target) so defnidos como
T
1 , K e
T
1, , N T t t , respectivamente. O
termo
T
1 , 1, , j jm j j K denota o vetor de
peso que conecta o j-simo neurnio da camada
oculta e os neurnios de sada. Hung et al. [28]
propuseram a atribuio aleatria de pesos aos
parmetros j w e j b , a fm de seja obtido um pequeno
erro no-nulo durante o treinamento. Considerando o
sistema linear da Equao (17), os pesos da camada
de sada podem ser aproximados por
H T (17)
em que H defnida como matriz inversa
generalizada de Moore-Penrose (MP) [33] da matriz
de sada da camada oculta H . Alm disso, o
conjunto de treinamento , n oculta K e uma
funo de ativao g x , e.g., funo de base radial
(Radial Basis Function RBF), hard-limiting (hardlim),
sigmoidal (sig) e seno (sin). Em resumo, o algoritmo
ELM compreende trs etapas [28]:
i) Atribuio aleatria dos pesos de entrada j w e
polarizaes j b ;
ii) Clculo da matriz da camada de sada H ;
iii) Clculo dos pesos de sada : H T .
O mtodo NRVQA-ELMtc [27] implementa um
simples critrio de parada no treinamento da rede
neural SLFN, quanto atribuio aleatria dos pesos
j w e j b . Embora este critrio no seja direcionado,
busca os pesos relacionados com o menor RMSE
(Root-Mean-Square Error) entre a sada desejada
(escore subjetivo) e o escore objetivo na fase de
treinamento com k iteraes (tipicamente, k 100 ) e
N neurnios na camada oculta. Alm disso, conforme
estudo realizado em [27], caso o RMSE seja menor do
que 0,5 o algoritmo cessa a busca pelos parmetros
j w e j b .
4. RESULTADOS EXPERIMENTAIS
Esta seo apresenta os resultados de acurcia,
i.e., os coefcientes de correlao linear de Pearson
(Pearson Linear Correlation Coefcient PLCC) [34],
[35], entre os escores objetivos e subjetivos de 2627
amostras de vdeo estudadas em [27].
A Figura 3 compara a acurcia (PLCC) entre as
mtricas de referncia completa (FR) PSNR e MSSSIM
com o mtodo proposto (NRVQA-ELMtc) para
as 2627 amostras de vdeo, pertencentes a 17 bases
de dados de vdeo disponibilizadas por diversas
instituies e laboratrios [27]. A funo de ativao
usada na rede neural SLFN foi o seno (sin) com o
nmero de amostras de teste igual ao nmero de
neurnios na camada oculta ( N ). O mtodo de
validao cruzada mltipla (K-fold) foi usado com o
objetivo de gerar uma distribuio de acurcia, a qual
foi analisada por meio do diagrama de caixa (box-plot)
[36], em que o trao, o crculo e o quadrado, ambos
em vermelho, representam a mediana, a mdia e o
desvio padro, respectivamente. Destaca-se que
neste trabalho foi empregada uma validao cruzada
com um grande nmero de amostras de treinamentoteste
com K 100 , i.e., cada caixa do box-plot
comporta 100 experimentos distintos. Tipicamente, a
literatura apresenta trabalhos no campo da avaliao
Fig. 3. Box-plot da predio da acurcia (PLCC) entre as mtricas PSNR, MS-SSIM e o mtodo proposto NRVQA-ELMtc
de qualidade de vdeo com K entre 5 e 10 [37], [38].
Pela inspeo visual da Figura 3 observa-se que o
desempenho do mtodo proposto superior s
mtricas FR, em quaisquer condies de teste, i.e.,
para qualquer quantidade de amostras de teste
(nmero de neurnios na camada oculta) entre 25 e
500. Em especial, para N 50 , o mtodo proposto
apresenta valores de PLCC, em termos da mdia e
mediana, acima de 0,8, denotando uma forte
associao entre os escores objetivos e subjetivos, na
tarefa de predio de qualidade de vdeo. Isto ocorre
devido grande quantidade de amostras de vdeo
usadas no treinamento, e.g., para N 300 foram
usadas 2327 amostras de treinamento, ou seja,
mesmo usando pares de treinamento-teste disjuntos,
o mtodo proposto mostra uma acurcia superior s
mtricas de referncia completa. A assimetria positiva,
i.e., a maior concentrao da acurcia entre o
segundo quartil (mediana) e o terceiro quartil, na
distribuio do box-plot nos testes com 300 e 500
neurnios na camada oculta, indica que o mtodo
proposto apresenta um desempenho expressivo em
comparao com as mtricas FR.
Entretanto, mesmo para N entre 25 e 50, o
mtodo proposto apresentou uma acurcia maior do
que as mtricas FR, cujo melhor resultado foi para
N 25 com o desvio-quartil (amplitude interquartlica)
confnado entre 0,65 e 0,8. Alm disso, este resultado
tambm apresentou assimetria positiva com a mdia
do PLCC em torno de 0,75.
5. CONCLUSO
Este trabalho apresentou uma mtrica NR baseada
em uma rede neural artifcial SLFN, cujo treinamento
determinado pelo algoritmo ELM, o qual considera
caractersticas espao-temporais e os escores
subjetivos (alvos) extrados de 2627 amostras
treinamento. Alm disso, este trabalho prope uma
extenso do algoritmo ELM por meio de um simples
critrio de parada, a fm de que sejam obtidos
parmetros da rede neural artifcial relacionados com
o menor RMSE. Tipicamente, a comparao entre
mtricas FR e NR injusta, devido ausncia do
vdeo de referncia na obteno do escore de
qualidade em mtricas NR. Entretanto, os resultados
experimentais mostram que o mtodo proposto
apresentou desempenho superior s mtricas de
referncia completa PSNR e MS-SSIM, sobretudo,
quando o nmero de amostras de teste e de neurnios
na camada oculta da rede SLFN maior do que 250.
Logo, a mtrica NRVQA-ELMtc pode ser empregada
no monitoramento de qualidade em sistemas de
transmisso e recepo de vdeo digital, tais como
IPTV (Internet Protocol Television), TV digital ou em
dispositivos mveis, tais como ultrabooks,
smartphones, tablets e em aparelhos WiDi (Wireless
Display).
REFERNCIAS
[1] S. Winkler, Issues in vision modeling for perceptual
video quality assessment, Signal Processing, vol. 78,
no. 2, pp. 231252, 1999.
[2] Z. Wang and A. C. Bovik, Modern image quality
assessment. San Rafael, CA: Morgan & Claypool,
2006.
[3] W. Lin and C.-C. Jay Kuo, Perceptual visual quality
metrics: A survey, Journal of Visual Communication
and Image Representation, vol. 22, no. 4, pp. 297312,
May 2011.
[4] S. S. Hemami and A. R. Reibman, No-reference image
and video quality estimation: Applications and humanmotivated
design, Signal Processing: Image
Communication, vol. 25, no. 7, pp. 469481, 2010.
[5] Z. Wang and A. Bovik, Reduced- and No-Reference
Image Quality Assessment, IEEE Signal Processing
Magazine, vol. 28, no. 6, pp. 2940, Nov. 2011.
[6] R. V. Babu, S. Suresh, and A. Perkis, No-reference
JPEG-image quality assessment using GAP-RBF,
Signal Processing, vol. 87, no. 6, pp. 14931503, 2007.
[7] X. Jiang, F. Meng, J. Xu, and W. Zhou, No-Reference
Perceptual Video Quality Measurement for High
Defnition Videos Based on an Artifcial Neural
Network, in Computer and Electrical Engineering,
2008. ICCEE 2008. International Conference on, 2008,
pp. 424427.
[8] J. Choe, K. Lee, C. Lee, and S. Korea, No-reference
video quality measurement using neural networks, in
2009 16th International Conference on Digital Signal
Processing, 2009, pp. 14.
[9] S. Suresh, R. Venkatesh Babu, and H. J. Kim, Noreference
image quality assessment using modifed
extreme learning machine classifer, Applied Soft
Computing, vol. 9, no. 2, pp. 541552, Mar. 2009.
[10] A. M. Eskicioglu and P. S. Fisher, Image quality
measures and their performance, IEEE Transactions
on Communications, vol. 43, no. 12, pp. 29592965,
1995.
[11] U. Engelke and H.-J. Zepernick, Perceptual-based
Quality Metrics for Image and Video Services: A
Survey, in Proceedings EuroNGI Conf. Next
Generation Internet Networks, 2007, pp. 190197.
[12] Z. Wang, A. C. Bovik, H. R. Sheikh, and E. P
Simoncelli, Image quality assessment: from error
visibility to structural similarity., IEEE Transactions on
Image Processing, vol. 13, no. 4, pp. 600612, 2004.
[13] Z. Wang, E. P. Simoncelli, and A. C. Bovik, Multiscale
structural similarity for image quality assessment, in
The Thrity-Seventh Asilomar Conference on Signals,
Systems & Computers, 2003, 2003, vol. 2, no. 1, pp.
13981402.
[14] H. R. Wu, K. R. Rao, and A. A. Kassim, Digital Video
Image Quality and Perceptual Coding, Journal of
Electronic Imaging, vol. 16, no. 3, 2007.
[15] Z. Wang and A. C. Bovik, A universal image quality
index, IEEE Signal Processing Letters, vol. 9, no. 3,
pp. 8184, Mar. 2002.
[16] Y. Shi, Y. Ding, R. Zhang, and J. Li, Structure and Hue
Similarity for Color Image Quality Assessment, in 2009
International Conference on Electronic Computer
Technology, 2009, pp. 329333.
[17] W. B. Silva, A. A. P. Pohl, and K. V. O. Fonseca, A
Reduced-Reference Video Quality Assessment Method
based on the Activity-Diference of DCT Coefcients,
IEICE Transactions on Information and Systems, vol. E96-D, no. 3, 2013.
[18] P. Le Callet, C. Viard-Gaudin, and D. Barba, A Convolutional Neural Network Approach for Objective Video Quality Assessment, IEEE Transactions on Neural Networks, vol. 17, no. 5, pp. 13161327, 2006.
[19] P. Le Callet and D. Barba, Image Quality Assessment: From Sites Errors to a Global Appreciation of Quality, in Proceedings of the Picture Coding Sympsium, 2001, pp. 105108.
[20] M. Miyahara, K. Kotani, and V. R. Algazi, Objective picture quality scale (PQS) for image coding, IEEE Transactions on Communications, vol. 46, no. 9, pp. 12151226, 1998.
[21] M. Slanina, V. Ricny, and R. Forchheimer, A Novel Metric for H.264/AVC No-Reference Quality Assessment, in 14th International Workshop on Systems, Signals and Image Processing and 6th EURASIP Conference focused on Speech and Image Processing, Multimedia Communications and Services, 2007, pp. 114117.
[22] O. Sugimoto, S. Naito, S. Sakazawa, and A. Koike, Objective perceptual video quality measurement method based on hybrid no reference framework, in 16th IEEE International Conference on Image Processing (ICIP09), 2009, pp. 22372240.
[23] T. Oelbaum, C. Keimel, and K. Diepold, Rule-Based No-Reference Video Quality Evaluation Using Additionally Coded Videos, IEEE Journal of Selected Topics in Signal Processing, vol. 3, no. 2, pp. 294303, 2009.
[24] N. Staelens, N. Vercammen, Y. Dhondt, B. Vermeulen, P. Lambert, R. de Walle, and P. Demeester, ViQID: A No-Reference bit stream-based visual quality impairment detector, in Proceedings of the Second Int Quality of Multimedia Experience (QoMEX) Workshop, 2010, pp. 206211.
[25] F. Yang, S. Wan, Q. Xie, and H. R. Wu, No-Reference Quality Assessment for Networked Video via Primary Analysis of Bit Stream, IEEE Transactions on Circuits and Systems for Video Technology, vol. 20, no. 11, pp. 15441554, Nov. 2010.
[26] Z. Wang, H. R. Sheikh, and A. C. Bovik, Objective Video Quality Assessment, in The Handbook of Video Databases: Design and Applications, B. Furht and O. Marques, Eds. Boca Raton, FL, USA: CRC Press, 2003, pp. 10411078.
[27] W. B. da Silva and A. de A. P. Pohl, Mtodos Sem Referncia Baseados em Caractersticas Espao-Temporais para Avaliao Objetiva de Qualidade de Vdeo Digital, Universidade Tecnolgica Federal do Paran (UTFPR), 2013.
[28] G.-B. Huang, Q.-Y. Zhu, and C.-K. Siew, Extreme learning machine: Theory and applications, Neurocomputing, vol. 70, no. 13, pp. 489501, Dec. 2006.
[29] Z. Wang, H. R. Sheikh, and A. C. Bovik, No-reference perceptual quality assessment of JPEG compressed images, in Image Processing. 2002. Proceedings. IEEE International Conference on Image Processing, 2002, vol. 1, pp. vol.1 I477 I480.
[30] W. B. Silva and A. A. P. Pohl, No-Reference Video Quality Assessment Method based on the Levenberg-Marquardt Minimization, in XXX Brazilian Symposium on Telecommunications (SBrT12), 2012.
[31] ITU-T P.910, Subjective video quality assessment methods for multimedia applications, Standardization Sector of ITU, 1999.
[32] W. Ding, Y. Tong, Q. Zhang, and D. Yang, Image and Video Quality Assessment Using Neural Network and SVM, Tsinghua Science & Technology, vol. 13, no. 1, pp. 112116, 2008.
[33] K. S. Banerjee, C. R. Rao, and S. K. Mitra, Generalized Inverse of Matrices and Its Applications, Technometrics, vol. 15, no. 1, p. 197, Feb. 1973.
[34] VQEG, Final report from the video quality experts group on the validation of reduced-reference and no-reference objective models for standard defnition television, Phase I, 2009.
[35] VQEG, Report on the validation of video quality models for high defnition video content, 2010.
[36] J. W. Tukey, Exploratory Data Analysis. New York: Addison-Wesley Publishing Company, 1977.
[37] P. Gastaldo and R. Zunino, Neural networks for the no-reference assessment of perceived quality, J. Electronic Imaging, vol. 14, no. 3, p. 033004, 2005.
[38] R. Herzog, M. adk, T. O. Aydn, K. I. Kim, K. Myszkowski, and H.-P. Seidel, NoRM: No-Reference Image Quality Metric for Realistic Image Synthesis, Comp. Graph. Forum, vol. 31, no. 2pt4, pp. 545554, 2012.
Results of field tests of the ISDB-T
system at 8 MHz in Botswana
Eduardo Santos Bueno
eduardo.bueno@mackenzie.br
Gunnar Bedicks Jr.
gunnar.bedicks@mackenzie.br
Cristiano Akamine
cristiano.akamine@mackenzie.br
Edson Lemos Horta
edson.horta@mackenzie.br
B
16 Revista de Radiodifuso v. 07 n. 08 2013
Pesquisas em ambientes digitais - TV Internet Radio Cinema
Pesquisas em ambientes digitais - TV Internet Radio Cinema
Revista de Radiodifuso v. 07 n. 08 2013 17
MTRICA SEM REFERNCIA BASEADA EM REDES NEURAIS
PARA AVALIAO OBJETIVA DE QUALIDADE DE VDEO DIGITAL
Wyllian Bezerra da Silva, Alexandre de Almeida Prado Pohl
Programa de Ps-Graduao em Engenharia Eltrica e Informtica Industrial (CPGEI) UTFPR, Curitiba, Brasil
wyllianbs@gmail.com, pohl@utfpr.edu.br
Resumo: Este trabalho apresenta uma mtrica sem referncia para avaliao de qualidade de vdeo digital baseada em uma rede neural artifcial que usa uma verso estendida do algoritmo de aprendizado ELM (Extreme Learning Machine). O mtodo proposto realiza o treinamento da rede neural a partir de seis caractersticas espao-temporais. Os resultados experimentais mostram que o mtodo proposto apresenta desempenho superior s mtricas de referncia completa PSNR e MS-SSIM na tarefa de predio de qualidade de vdeo. Logo, o mtodo proposto pode ser usado no monitoramento de qualidade em sistemas de transmisso e recepo de vdeo digital, tais como IPTV e TV digital.
Palavras chave: algoritmo ELM, avaliao objetiva de vdeo, mtrica sem referncia, rede neural artifcial.
1. INTRODUO
Durante os ltimos anos, a literatura tem apresentado um nmero crescente publicaes acerca de mtricas objetivas para avaliao de qualidade de vdeo para diversas aplicaes em radiodifuso ou no processamento de vdeo digital, seja na aquisio do sinal, codifcao e decodifcao, compresso, transmisso, restaurao, armazenamento, segmentao e exibio de sinais de vdeo digital [14]. A avaliao de qualidade de vdeo digital pode ser realizada por meio de mtricas subjetiva e objetiva. A primeira requer uma grande quantidade de recursos humanos e apresenta elevado custo em sua implementao [13]. Porm, as mtricas objetivas so vantajosas quando apresentam um determinado grau de correlao com as mtricas subjetivas. Logo, o desenvolvimento destas um desafo no campo de avaliao de qualidade de vdeo e imagem. Alm disso, as mtricas objetivas, devido natureza de seu critrio objetivo, independem de interao humana e so facilmente reprodutveis [3]. Dentre as mtricas objetivas destacam-se as mtricas sem referncia (No-Reference NR), pois no necessitam do vdeo de referncia no clculo de sua medida. Entretanto, estas requerem um conhecimento a priori sobre as distores em vdeo digital para que seja estabelecida uma correlao com os resultados subjetivos [3].
A maioria das mtricas NR encontradas na literatura so baseadas na avaliao de qualidade de imagens e em caractersticas relacionadas ao Sistema Visual Humano (SVH). Assim, o desenvolvimento de mtricas NR difcil, devido necessidade de emular a percepo do SVH que envolve aspectos cognitivos, emocionais e estticos relacionados ao contedo do vdeo e que so altamente dependentes do observador [4], [5].
A literatura reporta diversos esforos no desenvolvimento de mtricas para avaliao de qualidade de vdeo baseadas em redes neurais e em algoritmos de aprendizado. Babu et al. [6] apresentam uma mtrica para avaliar a qualidade de imagens comprimidas em JPEG (Joint Photographic Experts Group) por meio de um algoritmo de aprendizado de crescimento e propem o uso de uma rede neural GAP-RBF (Growing and Pruning Radial Basis Function) que usa caractersticas relacionadas ao SVH. Jiang et al. [7] desenvolveram uma mtrica NR para avaliao de qualidade de vdeo em HD (High Defnition) baseada em uma rede neural treinada pelo algoritmo BP (Back-Propagation) que usa seis caractersticas espao-temporais e a RoI (Region of Interest). Choe et al. [8] desenvolveram uma mtrica NR baseada no fuxo de bits para avaliao de qualidade de vdeo codifcado em H.264. Esta mtrica extrai caractersticas quadro a quadro e usa uma rede neural alimentada adiante (feedforward) com trs camadas. Suresh et al. [9] apresentaram uma extenso do algoritmo ELM na tarefa de avaliar a qualidade de imagens comprimidas em JPEG com base no esquema de seleo mltipla KS-ELM (K-fold selection Scheme using ELM) e no algoritmo RCGA-ELM (Real-Coded Genetic Algorithm using ELM) para seleo dos pesos de entrada e polarizaes.
Este trabalho apresenta uma verso estendida do algoritmo ELM para redes neurais SLFN (Single-hidden-Layer Feedforward Neural Networks) que implementa um simples critrio de parada na fase de treinamento. Alm disso, esse mtodo usa seis caractersticas espao-temporais de vdeos submetidos a diversas condies de distoro.
Este artigo est dividido da seguinte maneira: a Seo 2 descreve as mtricas para avaliao de qualidade de vdeo. A Seo 3 descreve o mtodo NR proposto para avalio de qualidade de vdeo digital. A Seo 4 apresenta os resultados experimentais, em que so comparados o mtodo NR proposto e duas mtricas FR. Finalmente, a Seo 5 apresenta a concluso do artigo.
2. AVALIAO DE QUALIDADE DE VDEO
O processo de avaliao de qualidade de vdeo
pode ser realizado com a aplicao de mtricas
subjetivas ou objetivas. As mtricas subjetivas
estimam a qualidade do vdeo por meio de avaliadores
humanos. Logo, exigem um alto custo, pois
necessitam de uma grande quantidade de recursos
humanos e apresentam problemas quanto aos
requisitos de imparcialidade e reprodutibilidade,
tornando-se inapropriadas em sistemas de
radiodifuso ou em provedores de contedo [10], [11].
Por outro lado, as mtricas objetivas so baseadas em
modelos matemticos, cujo objetivo produzir um
escore de qualidade que emule a percepo do SVH.
Alm disso, as mtricas objetivas requerem baixo
custo de implementao (quando comparadas com as
mtricas subjetivas) e no apresentam problemas
quanto reprodutibilidade e imparcialidade.
As mtricas objetivas para avaliao de qualidade
de vdeo podem ser classifcadas em trs categorias:
(i) mtricas de referncia completa (Full-Reference
FR); (ii) mtricas de referncia reduzida (Reduced-
Reference RR); (iii) mtricas sem referncia (NR).
2.1. Mtricas FR
As mtricas FR requerem o vdeo de referncia
(fonte) no clculo do escore de qualidade. Estas
mtricas so amplamente utilizadas no processo de
validao de mtricas RR ou NR, por meio da
comparao de desempenho defnida pelas
recomendaes do Grupo de Especialistas em
Qualidade de Vdeo (VQEG Video Quality Experts
Group) que um rgo de padronizao internacional
de mtricas subjetivas e objetivas de qualidade de
vdeo. Dentre as mtricas FR, destacam-se o PSNR
(Peak Signal-to-Noise Ratio), SSIM (Structural
SIMilarity index) [12] e MS-SSIM (Multi-Scale
Structural SIMilarity index) [13].
O PSNR uma mtrica FR baseada no erro pixel a
pixel de fcil implementao. Entretanto, apresenta
baixa correlao com o SVH [14]. A sua medida
processada sobre o erro quadro a quadro, i.e., entre o
quadro original x e o quadro y . A expresso a seguir
defne o PSNR para um conjunto de quadros F .
20
1
1
PSNR 20log ,
F
f
f f
v
F MSE



(1)
com

2
0 0
1
MSE , , , , ,
N M
f
i j
x f i j y f i j
NM

(2)
em que o termo f v igual a (2 1) k , cujo k o
nmero de bits por pixel, i.e., a componente de
luminncia do quadro f . Os termos x f ,i, j e
y f ,i, j so os valores de luminncia do quadro de
origem e degradado, respectivamente. As
componentes bidimensionais so representadas pelo
nmero de colunas N e pelo nmero de linhas M . O
termo f MSE defnido como erro quadrtico mdio
ou MSE (Mean Square Error).
A mtrica SSIM baseia-se no fato de que o SVH
fortemente adaptado para extrair informaes das
caractersticas estruturais de um quadro ou imagem.
Logo, uma medida de similaridade estrutural (ou
distoro) pode prover boa aproximao para a
qualidade perceptual de um vdeo [3, 79]. Sejam x e
y dois sinais no-negativos, em que y o sinal
degradado e x o sinal original (sem perda de
qualidade), a medida de similaridade utilizada como
um ndice quantitativo de qualidade do sinal distorcido,
ou seja, x tomado como a referncia para medir a
qualidade de y . A mtrica SSIM possui diversas
extenses, dentre as quais a verso MS-SSIM,
proposta por Wang et al. [13] que assume uma
abordagem multiescalar.
2.2. Mtricas RR
As mtricas de referncia reduzida retiram certa
quantidade de caractersticas do vdeo original (fonte),
baseadas em componentes espaciais, temporais, no
domnio da frequncia ou no fuxo de bits (bitstream).
Este tipo de mtrica amplamente utilizada no
monitoramento de transmisses em rede [17]. Neste
tipo de cenrio de aplicao, o vdeo transmitido
com uma sequncia de informao codifcada
(overhead) e no lado receptor ocorre a sua
decodifcao, seguido pelo clculo do ndice de
qualidade, o qual obtido por meio da comparao
entre a representao reduzida da informao nos
pares emissor e receptor [18]. Tipicamente, mtricas
RR so implementadas por meio de funes, divididas
em duas etapas [19]: (i) clculo do erro entre os
vdeos original e distorcido, constitudo pela diferena
de suas caractersticas, a fm de compor a
representao reduzida da informao; (ii) funo que
agrupa os erros ou diferenas para obter um ndice de
qualidade global. Algumas mtricas RR exploram
propriedades dos artefatos, por meio da extrao de
caractersticas e um modelo de parametrizao [20]
com foco em tipos especfcos de distores
(artefatos). Esta abordagem encontrada em Silva et
al. [17], cujo clculo do escore de qualidade
baseado na diferena de atividade dos coefcientes
DCT (Discrete Cosine Transform) em um macro bloco
com resoluo de 1616 pixels.
2.3. Mtricas NR
As mtricas NR extraem caractersticas
relacionadas ao SVH do vdeo distorcido, i.e., na
recepo do sinal de vdeo [14]. Tipicamente, h duas
abordagens no desenvolvimento destas mtricas: (i)
extrao dos parmetros sobre o fuxo de bits, tais
como a taxa de compresso, informaes
relacionadas ao GoP (Group of Pictures), estimao
de movimento, perfl e nvel de codifcao, bem como
o parmetro de quantizao ou QP (Quantization
Parameter) [2125]. Mtricas NR apresentam maior
complexidade quando so aplicadas em vdeo, devido
variao temporal dos quadros, contedos das
cenas e difculdade de compreenso das
caractersticas do SVH [26]. Assim, algumas mtricas
dessa categoria exploram caractersticas espaciais e
temporais na estimao de qualidade de vdeo [21].
3. MTODO PROPOSTO
O mtodo proposto, denominado NRVQA-ELMtc
(No-Reference Video Quality Assessment using
Extreme Learning Machine algorithm with termination
criteria) [27] combina caractersticas espaciais e
temporais, por meio de uma rede neural artifcial
SLFNs usando o algoritmo de treinamento ELM [28]
com a implementao de um simples critrio de
parada.
3.1. Caractersticas espao-temporais
As caractersticas espaciais incorporadas no
mtodo proposto so baseadas em medidas de
artefatos em vdeo digital, i.e., distores de blocagem
e borramento desenvolvidas por Wang et al. [20].
Assim, a componente de luminncia do quadro f
representada por y(f , i, j ) com i 1,M e j 1, N ,
em que M e N so os nmeros de linhas e colunas,
respectivamente, de um quadro. Logo, as diferenas
de luminncia ao longo das linhas e colunas so
representadas, respectivamente, pelas expresses a
seguir.


, , , , 1 , , , 1, 1 ,
, , , 1, , , , 1, 1 .
h
v
d f i j y f i j y f i j j N
d f i j y f i j y f i j i M


(3)
O efeito de blocagem pode ser estimado pela
mdia das diferenas entre as bordas dos blocos da
DCT (Discrete Cosine Transform) nas direes
horizontal e vertical para uma sequncia F de
quadros, conforme mostra a Equao (4), com um
macrobloco de dimenso , cujo tamanho tpico
de 8 [20].


1
1
1 1 1
1
1
1 1 1
1
, , 1 ,
1
1
1
, 1 , .
1
1
N
F M
h h
f i j
M
F N
v
i j
v
f
B d f i j
N
F M
B d f i j
M
F N












(4)
A medida de blocagem em uma sequncia de
vdeo com F quadros determinada pela mdia entre
h B e v B , caracterizando a medida B , conforme a
expresso a seguir.
.
2
h v B B
B

(5)
Os efeitos de borramento so estimados pelo
clculo da reduo de atividade entre os blocos ,
em que usada a medida de blocagem nas direes
horizontal e vertical, conforme as expresses




1
1 1 1
1
1 1 1
, , ,
1 1
, ,
1
.
1
F M N
h h h
f i j
F M N
v v
f
v
i j
A d f i j B
F M N
A d f i j B
F N M








(6)
A medida de borramento, representada por A ,
conforme a Equao (7), determinada pela mdia
entre h A e v A .
.
2
h v A A
A

(7)
O segundo fator que contribui para a deteco do
artefato de borramento baseado na taxa de
cruzamento por zero (Zero Crossing ZC) nas
direes horizontal e vertical, conforme as expresses
a seguir.




2
1 1 1
2
1 1 1
1
, , ,
2
1
, , ,
2
F M N
h h
f i j
F M N
v v
f i j
Z z f i j
F M N
Z z f i j
F N M




(8)
em que os termos h z e v z so determinados por


1, na direo horizontal
, , ,
0, caso contrrio
1, na direo vertical
, , .
0, caso contrrio
h
v
z f i j
z f i j



(9)
Assim, a medida de borramento Z determinada
pela mdia entre as componentes h Z e v Z .
.
2
h v Z Z
Z

(10)
O mtodo proposto tambm incorpora trs
caractersticas temporais no treinamento da rede
neural SLFN com o algoritmo ELM.
A primeira caracterstica temporal a diferena de
movimento entre quadros adjacentes, representada
pela varivel TI (Temporal perceptual Information) [31]
que considera os valores de luminncia de pixels
localizados em uma mesma regio de um quadro,
conforme a expresso a seguir.

2
1
, , ,
1
F
f
TI m f i j
F


(11)
em que o nmero total de quadros F e mf ,i, j

o desvio padro da diferena de movimento
(diferena de luminncia) entre o quadro atual
y f ,i, j e o quadro anterior y f 1,i, j .
A segunda caracterstica temporal a mdia da
diferena absoluta (Mean Absolute Diference MAD)
[31] entre quadros sucessivos, representada pela
Equao (12) que defne a medida global da MAD
para todos os quadros de um vdeo.


2 1 1
1
, , 1, , .
1
F M N
f i j
MAD y f i j y f i j
M N F



(12)
A terceira caracterstica temporal a mdia da
diferena absoluta ponderada (weighted Mean
Absolute Diference MADw) [32], a qual mede o grau
de variao das cenas de um vdeo que considera a
cena atual de um quadro f e do quadro anterior f 1,
conforme a expresso:
2 1
1
.
1
F
f
f f
MAD
MADw
F MAD


(13)
Assim, o mtodo proposto combina as
caractersticas espaciais e temporais em uma matriz
, , , , , f f f f f f f x A B Z TI MAD MADw , em que f o
nmero de amostras de vdeo. A Figura 1 apresenta
as caractersticas temporais espaciais de dezessete
bases de dados de vdeos (denominada superconjunto
S) usadas neste trabalho e reportadas em [27]. A
recomendao ITU-T P.910 [31] defne a medida SI
(Spatial perceptual Information) como informao
espacial perceptual. A inspeo visual dessa fgura
mostra que as amostras de vdeo usadas neste
trabalho apresentam uma grande variao espaotemporal.
Fig. 1. Caractersticas espaciais e temporais do superconjunto
S com 216 amostras de referncia
3.2. Mtrica NRVQA-ELMtc
O algoritmo ELM [28] desenvolvido para o
treinamento de uma rede SLFN atribui pesos e
polarizaes (biases) de maneira aleatria, segundo
uma distribuio uniforme. O treinamento compreende
N amostras distintas representadas pela varivel
, , , 1, , n m
f f f f x t x t f N , cujo clculo
conforme a expresso

1
, 1, , ,
K
K i j j f j f
f
f g b f N

x w x o (14)
em que f o a sada (escore objetivo), g(x) a
funo de ativao e j o peso que conecta o jsimo
neurnio da camada oculta ao neurnio de
sada. De acordo com [28], uma rede SLFN com K
ns na camada oculta e uma funo de ativao g(x)
pode apresentar um erro mdio prximo de zero, i.e.,
1
0
K
f f
f
o t . Logo, h parmetros j , j w e j b tal
que

1
, 1, , ,
K
j j f j f
f
g b f N

w x t (15)
em que f t o vetor alvo (escores subjetivos),
T
1, , j j jn w w w o vetor de peso que conecta o jsimo
neurnio da camada oculta ao neurnio da
camada de entrada, j b denota a polarizao (bias) do
j-simo neurnio da camada oculta, j f w x o
produto interno de j w e f x . A Figura 2 ilustra o
algoritmo ELM empregado em uma arquitetura de
rede neural SLFN.
xi
1
j
N
1
j
K
ti
bj
N input neuron K hidden neuron output neuron
1
K
wj
Fig. 2. Arquitetura de uma rede neural SLFN usando algoritmo
de treinamento ELM
O sistema linear da Equao (16) resume o mtodo
do algoritmo ELM.
H T, (16)
em que a matriz da camada oculta representada por
1, , and 1, , f H h f N j K com a primeira
linha da matriz de caractersticas f x igual a
T
1 2 , , , f f f fn x x x x , i.e., a primeira linha igual a
1 1 1 1 1 1 1 , , , , , f f f f f f f x A B Z TI MAD MADw . A matriz de
sada e o vetor alvo (target) so defnidos como
T
1 , K e
T
1, , N T t t , respectivamente. O
termo
T
1 , 1, , j jm j j K denota o vetor de
peso que conecta o j-simo neurnio da camada
oculta e os neurnios de sada. Hung et al. [28]
propuseram a atribuio aleatria de pesos aos
parmetros j w e j b , a fm de seja obtido um pequeno
erro no-nulo durante o treinamento. Considerando o
sistema linear da Equao (17), os pesos da camada
de sada podem ser aproximados por
H T (17)
em que H defnida como matriz inversa
generalizada de Moore-Penrose (MP) [33] da matriz
de sada da camada oculta H . Alm disso, o
conjunto de treinamento , n oculta K e uma
funo de ativao g x , e.g., funo de base radial
(Radial Basis Function RBF), hard-limiting (hardlim),
sigmoidal (sig) e seno (sin). Em resumo, o algoritmo
ELM compreende trs etapas [28]:
i) Atribuio aleatria dos pesos de entrada j w e
polarizaes j b ;
ii) Clculo da matriz da camada de sada H ;
iii) Clculo dos pesos de sada : H T .
O mtodo NRVQA-ELMtc [27] implementa um
simples critrio de parada no treinamento da rede
neural SLFN, quanto atribuio aleatria dos pesos
j w e j b . Embora este critrio no seja direcionado,
busca os pesos relacionados com o menor RMSE
(Root-Mean-Square Error) entre a sada desejada
(escore subjetivo) e o escore objetivo na fase de
treinamento com k iteraes (tipicamente, k 100 ) e
N neurnios na camada oculta. Alm disso, conforme
estudo realizado em [27], caso o RMSE seja menor do
que 0,5 o algoritmo cessa a busca pelos parmetros
j w e j b .
4. RESULTADOS EXPERIMENTAIS
Esta seo apresenta os resultados de acurcia,
i.e., os coefcientes de correlao linear de Pearson
(Pearson Linear Correlation Coefcient PLCC) [34],
[35], entre os escores objetivos e subjetivos de 2627
amostras de vdeo estudadas em [27].
A Figura 3 compara a acurcia (PLCC) entre as
mtricas de referncia completa (FR) PSNR e MSSSIM
com o mtodo proposto (NRVQA-ELMtc) para
as 2627 amostras de vdeo, pertencentes a 17 bases
de dados de vdeo disponibilizadas por diversas
instituies e laboratrios [27]. A funo de ativao
usada na rede neural SLFN foi o seno (sin) com o
nmero de amostras de teste igual ao nmero de
neurnios na camada oculta ( N ). O mtodo de
validao cruzada mltipla (K-fold) foi usado com o
objetivo de gerar uma distribuio de acurcia, a qual
foi analisada por meio do diagrama de caixa (box-plot)
[36], em que o trao, o crculo e o quadrado, ambos
em vermelho, representam a mediana, a mdia e o
desvio padro, respectivamente. Destaca-se que
neste trabalho foi empregada uma validao cruzada
com um grande nmero de amostras de treinamentoteste
com K 100 , i.e., cada caixa do box-plot
comporta 100 experimentos distintos. Tipicamente, a
literatura apresenta trabalhos no campo da avaliao
Fig. 3. Box-plot da predio da acurcia (PLCC) entre as mtricas PSNR, MS-SSIM e o mtodo proposto NRVQA-ELMtc
de qualidade de vdeo com K entre 5 e 10 [37], [38].
Pela inspeo visual da Figura 3 observa-se que o
desempenho do mtodo proposto superior s
mtricas FR, em quaisquer condies de teste, i.e.,
para qualquer quantidade de amostras de teste
(nmero de neurnios na camada oculta) entre 25 e
500. Em especial, para N 50 , o mtodo proposto
apresenta valores de PLCC, em termos da mdia e
mediana, acima de 0,8, denotando uma forte
associao entre os escores objetivos e subjetivos, na
tarefa de predio de qualidade de vdeo. Isto ocorre
devido grande quantidade de amostras de vdeo
usadas no treinamento, e.g., para N 300 foram
usadas 2327 amostras de treinamento, ou seja,
mesmo usando pares de treinamento-teste disjuntos,
o mtodo proposto mostra uma acurcia superior s
mtricas de referncia completa. A assimetria positiva,
i.e., a maior concentrao da acurcia entre o
segundo quartil (mediana) e o terceiro quartil, na
distribuio do box-plot nos testes com 300 e 500
neurnios na camada oculta, indica que o mtodo
proposto apresenta um desempenho expressivo em
comparao com as mtricas FR.
Entretanto, mesmo para N entre 25 e 50, o
mtodo proposto apresentou uma acurcia maior do
que as mtricas FR, cujo melhor resultado foi para
N 25 com o desvio-quartil (amplitude interquartlica)
confnado entre 0,65 e 0,8. Alm disso, este resultado
tambm apresentou assimetria positiva com a mdia
do PLCC em torno de 0,75.
5. CONCLUSO
Este trabalho apresentou uma mtrica NR baseada
em uma rede neural artifcial SLFN, cujo treinamento
determinado pelo algoritmo ELM, o qual considera
caractersticas espao-temporais e os escores
subjetivos (alvos) extrados de 2627 amostras
treinamento. Alm disso, este trabalho prope uma
extenso do algoritmo ELM por meio de um simples
critrio de parada, a fm de que sejam obtidos
parmetros da rede neural artifcial relacionados com
o menor RMSE. Tipicamente, a comparao entre
mtricas FR e NR injusta, devido ausncia do
vdeo de referncia na obteno do escore de
qualidade em mtricas NR. Entretanto, os resultados
experimentais mostram que o mtodo proposto
apresentou desempenho superior s mtricas de
referncia completa PSNR e MS-SSIM, sobretudo,
quando o nmero de amostras de teste e de neurnios
na camada oculta da rede SLFN maior do que 250.
Logo, a mtrica NRVQA-ELMtc pode ser empregada
no monitoramento de qualidade em sistemas de
transmisso e recepo de vdeo digital, tais como
IPTV (Internet Protocol Television), TV digital ou em
dispositivos mveis, tais como ultrabooks,
smartphones, tablets e em aparelhos WiDi (Wireless
Display).
REFERNCIAS
[1] S. Winkler, Issues in vision modeling for perceptual
video quality assessment, Signal Processing, vol. 78,
no. 2, pp. 231252, 1999.
[2] Z. Wang and A. C. Bovik, Modern image quality
assessment. San Rafael, CA: Morgan & Claypool,
2006.
[3] W. Lin and C.-C. Jay Kuo, Perceptual visual quality
metrics: A survey, Journal of Visual Communication
and Image Representation, vol. 22, no. 4, pp. 297312,
May 2011.
[4] S. S. Hemami and A. R. Reibman, No-reference image
and video quality estimation: Applications and humanmotivated
design, Signal Processing: Image
Communication, vol. 25, no. 7, pp. 469481, 2010.
[5] Z. Wang and A. Bovik, Reduced- and No-Reference
Image Quality Assessment, IEEE Signal Processing
Magazine, vol. 28, no. 6, pp. 2940, Nov. 2011.
[6] R. V. Babu, S. Suresh, and A. Perkis, No-reference
JPEG-image quality assessment using GAP-RBF,
Signal Processing, vol. 87, no. 6, pp. 14931503, 2007.
[7] X. Jiang, F. Meng, J. Xu, and W. Zhou, No-Reference
Perceptual Video Quality Measurement for High
Defnition Videos Based on an Artifcial Neural
Network, in Computer and Electrical Engineering,
2008. ICCEE 2008. International Conference on, 2008,
pp. 424427.
[8] J. Choe, K. Lee, C. Lee, and S. Korea, No-reference
video quality measurement using neural networks, in
2009 16th International Conference on Digital Signal
Processing, 2009, pp. 14.
[9] S. Suresh, R. Venkatesh Babu, and H. J. Kim, Noreference
image quality assessment using modifed
extreme learning machine classifer, Applied Soft
Computing, vol. 9, no. 2, pp. 541552, Mar. 2009.
[10] A. M. Eskicioglu and P. S. Fisher, Image quality
measures and their performance, IEEE Transactions
on Communications, vol. 43, no. 12, pp. 29592965,
1995.
[11] U. Engelke and H.-J. Zepernick, Perceptual-based
Quality Metrics for Image and Video Services: A
Survey, in Proceedings EuroNGI Conf. Next
Generation Internet Networks, 2007, pp. 190197.
[12] Z. Wang, A. C. Bovik, H. R. Sheikh, and E. P
Simoncelli, Image quality assessment: from error
visibility to structural similarity., IEEE Transactions on
Image Processing, vol. 13, no. 4, pp. 600612, 2004.
[13] Z. Wang, E. P. Simoncelli, and A. C. Bovik, Multiscale
structural similarity for image quality assessment, in
The Thrity-Seventh Asilomar Conference on Signals,
Systems & Computers, 2003, 2003, vol. 2, no. 1, pp.
13981402.
[14] H. R. Wu, K. R. Rao, and A. A. Kassim, Digital Video
Image Quality and Perceptual Coding, Journal of
Electronic Imaging, vol. 16, no. 3, 2007.
[15] Z. Wang and A. C. Bovik, A universal image quality
index, IEEE Signal Processing Letters, vol. 9, no. 3,
pp. 8184, Mar. 2002.
[16] Y. Shi, Y. Ding, R. Zhang, and J. Li, Structure and Hue
Similarity for Color Image Quality Assessment, in 2009
International Conference on Electronic Computer
Technology, 2009, pp. 329333.
[17] W. B. Silva, A. A. P. Pohl, and K. V. O. Fonseca, A
Reduced-Reference Video Quality Assessment Method
based on the Activity-Diference of DCT Coefcients,
IEICE Transactions on Information and Systems, vol. E96-D, no. 3, 2013.
[18] P. Le Callet, C. Viard-Gaudin, and D. Barba, A Convolutional Neural Network Approach for Objective Video Quality Assessment, IEEE Transactions on Neural Networks, vol. 17, no. 5, pp. 13161327, 2006.
[19] P. Le Callet and D. Barba, Image Quality Assessment: From Sites Errors to a Global Appreciation of Quality, in Proceedings of the Picture Coding Sympsium, 2001, pp. 105108.
[20] M. Miyahara, K. Kotani, and V. R. Algazi, Objective picture quality scale (PQS) for image coding, IEEE Transactions on Communications, vol. 46, no. 9, pp. 12151226, 1998.
[21] M. Slanina, V. Ricny, and R. Forchheimer, A Novel Metric for H.264/AVC No-Reference Quality Assessment, in 14th International Workshop on Systems, Signals and Image Processing and 6th EURASIP Conference focused on Speech and Image Processing, Multimedia Communications and Services, 2007, pp. 114117.
[22] O. Sugimoto, S. Naito, S. Sakazawa, and A. Koike, Objective perceptual video quality measurement method based on hybrid no reference framework, in 16th IEEE International Conference on Image Processing (ICIP09), 2009, pp. 22372240.
[23] T. Oelbaum, C. Keimel, and K. Diepold, Rule-Based No-Reference Video Quality Evaluation Using Additionally Coded Videos, IEEE Journal of Selected Topics in Signal Processing, vol. 3, no. 2, pp. 294303, 2009.
[24] N. Staelens, N. Vercammen, Y. Dhondt, B. Vermeulen, P. Lambert, R. de Walle, and P. Demeester, ViQID: A No-Reference bit stream-based visual quality impairment detector, in Proceedings of the Second Int Quality of Multimedia Experience (QoMEX) Workshop, 2010, pp. 206211.
[25] F. Yang, S. Wan, Q. Xie, and H. R. Wu, No-Reference Quality Assessment for Networked Video via Primary Analysis of Bit Stream, IEEE Transactions on Circuits and Systems for Video Technology, vol. 20, no. 11, pp. 15441554, Nov. 2010.
[26] Z. Wang, H. R. Sheikh, and A. C. Bovik, Objective Video Quality Assessment, in The Handbook of Video Databases: Design and Applications, B. Furht and O. Marques, Eds. Boca Raton, FL, USA: CRC Press, 2003, pp. 10411078.
[27] W. B. da Silva and A. de A. P. Pohl, Mtodos Sem Referncia Baseados em Caractersticas Espao-Temporais para Avaliao Objetiva de Qualidade de Vdeo Digital, Universidade Tecnolgica Federal do Paran (UTFPR), 2013.
[28] G.-B. Huang, Q.-Y. Zhu, and C.-K. Siew, Extreme learning machine: Theory and applications, Neurocomputing, vol. 70, no. 13, pp. 489501, Dec. 2006.
[29] Z. Wang, H. R. Sheikh, and A. C. Bovik, No-reference perceptual quality assessment of JPEG compressed images, in Image Processing. 2002. Proceedings. IEEE International Conference on Image Processing, 2002, vol. 1, pp. vol.1 I477 I480.
[30] W. B. Silva and A. A. P. Pohl, No-Reference Video Quality Assessment Method based on the Levenberg-Marquardt Minimization, in XXX Brazilian Symposium on Telecommunications (SBrT12), 2012.
[31] ITU-T P.910, Subjective video quality assessment methods for multimedia applications, Standardization Sector of ITU, 1999.
[32] W. Ding, Y. Tong, Q. Zhang, and D. Yang, Image and Video Quality Assessment Using Neural Network and SVM, Tsinghua Science & Technology, vol. 13, no. 1, pp. 112116, 2008.
[33] K. S. Banerjee, C. R. Rao, and S. K. Mitra, Generalized Inverse of Matrices and Its Applications, Technometrics, vol. 15, no. 1, p. 197, Feb. 1973.
[34] VQEG, Final report from the video quality experts group on the validation of reduced-reference and no-reference objective models for standard defnition television, Phase I, 2009.
[35] VQEG, Report on the validation of video quality models for high defnition video content, 2010.
[36] J. W. Tukey, Exploratory Data Analysis. New York: Addison-Wesley Publishing Company, 1977.
[37] P. Gastaldo and R. Zunino, Neural networks for the no-reference assessment of perceived quality, J. Electronic Imaging, vol. 14, no. 3, p. 033004, 2005.
[38] R. Herzog, M. adk, T. O. Aydn, K. I. Kim, K. Myszkowski, and H.-P. Seidel, NoRM: No-Reference Image Quality Metric for Realistic Image Synthesis, Comp. Graph. Forum, vol. 31, no. 2pt4, pp. 545554, 2012.
RESULTS OF FIELD TESTS OF THE ISDB-T
B
SYSTEM AT 8 MHz IN BOTSWANA

Eduardo Santos Bueno
1
, Gunnar Bedicks Jr.
2
, Cristiano Akamine
3
, Edson Lemos Horta
4


1
Mackenzie, So Paulo, Brasil, eduardo.bueno@mackenzie.br
2
Mackenzie, So Paulo, Brasil, gunnar.bedicks@mackenzie.br
3
Mackenzie, So Paulo, Brasil, cristiano.akamine@mackenzie.br
4
Mackenzie, So Paulo, Brasil, edson.horta@mackenzie.br

Abstract: Botswana performed field tests of the
Integrated Services Digital Broadcasting - Terrestrial
version B (ISDB-T
B
) system in order to choose which
standard should be used by the country. This paper
presents the results of performance tests of the ISDB-
T
B
system and an analysis of test results from the
cities of Gaborone, Mahalapye, Maun and Tsabong.
The system was configured with an 8 MHz bandwidth
and central frequency of 770.000 MHz. The system
was evaluated with fixed reception using a single
monopole antenna. Data collected in the field were
used to analyze the power level, C/N ratio, Bit Error
Rate (BER) and Quasi Error Free (QEF). The results
corroborate na adequate reception of the test signal.

Index Terms: ISDB-T
B
, Bandwidth, Fixed Reception.
1. INTRODUCTION
This paper presents the results of performance
tests for the ISDB-T
B
standard, operating at 8 MHz, in
four cities of Botswana: Gaborone, Mahalapye, Maun
and Tsabong. The system was evaluated on channel
58, with a frequency of 770.000 MHz. ISDB-T
B
was
designed to provide high quality audio and picture for
fixed and mobile reception. It was also designed to
deliver flexibility, interactivity and expansion
capabilities [1].
ISDB-T
B
is derived from the Japanese ISDB-T
system and employs the H.264 video codec, the
MPEG-4 AAC HE audio codec and a Brazilian
middleware (DTVi). It uses VHF (channels 7-13) and
UHF (channels 14-69) bands, with a 6 MHZ bandwidth
[2-8]. This system was developed in Brazil, where its
performance operating at 6 MHz for fixed, mobile and
portable reception was demonstrated. [7-8]. The
research conducted in order to approve the system
also influenced its adoption by other countries, such as
Peru, Argentina, Chile, Venezuela, Ecuador, Costa
Rica, Paraguay, Philippines, Bolivia, Uruguay and the
Republic of the Maldives [7], [8]. Recently, Botswana
adopted ISDB-T
B
after analyzing the results presented
in this paper.
2. ISDB-T 8 MHZ
The ISDB-T system was developed in Japan. It
uses BST-OFDM modulation with 13 segments and
operates using 6, 7 or 8 MHz channels (BW
TV
) [9].
Each segment contains a carrier set that occupies 1/14
x BW
TV
[10]. Thus, the bandwidth of one segment is
equal to 571.40 KHz when a BW
TV
of 8 MHz is used.
The 13 segments can be combined in up to three
hierarchical layers, A, B and C. The ISDB-T
transmission system can be represented by three
stages: re-multiplexing, channel coding and
modulation [11].
In the first stage, the MPEG-2 TS (188 bytes)
coming from the multiplexing stage is responsible for
BTS generation. The BTS is composed of a single TS
of 204 bytes and a constant bitrate of 4 x Fs
IFFT

(sampling frequency of the Inverse Fast Fourier
Transform) at the modulator. This frequency is
calculated from the IFFT size and the effective
duration of the OFDM symbol. For 8 MHz, Fs
IFFT
=
8192/756 s = 10.8359 MHz, yielding a BTS bitrate of
43.3439 Mbps. BTS is composed of the TSP from
each layer and null packets, called BTS frames. The
packets must be ordered to guarantee the hierarchical
transmission of a single TS and to minimize
processing by the receiver [12]. The null packets are
inserted to maintain the constant bit rate independent
of the modulation parameters [11]. The channel coding
is formed from a Reed Solomon block (188,204,8), an
energy dispersal block formed by a 15-bit PRBS
generator, a byte convolutional interleaver, a
convolutional coder with a mother code rate of 1/2 (G1
= 171oct; G2 = 133oct) and puncture adjust for the
rates R = 1/2, 2/3, 3/4, 5/6 or 7/8.
At the modulation stage, the channel coding signal
is parallelized and processed by a MUX convolutional
interleaving. Mapping is done for QPSK/DQPSK, 16-
QAM or 64-QAM modulations. The layers are
combined and time interleaved using 0 ms, 100 ms,
200 ms or 400 ms intervals [1], [9], [13]. The second
stage of the modulation consists of one OFDM
modulator operating with an inverse fast Fourier
transform. The carrier amount (Nc) is 1405 in mode 1
(2K), 2809 in mode 2 (4K) or 5617 in mode 3 (8K) [9].
The output of the OFDM modulator is appended with a
cyclic prefix formed by a copy of the end of the OFDM
symbol. This prefix can be adjusted for GI 1/4, 1/8,
1/16 or 1/32, providing robustness against Inter-
Symbol Interference (ISI) [14].
As the Fs
IFFT
is directly related to the modulator
bandwidth, this stage determines the occupation of the
OFDM spectrum. The useful bandwidth BW used by
the 13 segments is 7.43 MHz. Independent of BW
TV
,
the re-multiplexing, channel coding and modulation
stages are the same. The useful bitrate for segment
Rb can be calculated using (1). D
cs
is the data carrier
amount: 96 in mode 1, 192 in mode 2 or 384 in mode
3. Nb is number of bits per symbol: 2 for QPSK, 4 for
18 Revista de Radiodifuso v. 07 n. 08 2013
Pesquisas em ambientes digitais - TV Internet Radio Cinema
16-QAM or 6 for 64-QAM. RS, the Reed Solomon
code ratio, is 188/204.

Rb =
1
1u
cs Nb R RS 0I' (1)

Iu =
(Nc-1)
Bw
(2)

0I'
1
uI+1
(3)

ISDB-T was designed and tested at 6 MHz [2], [4],
[10] and [15-17]. However, the performance does not
change at different bandwidths. Planning criteria,
including protection indices, for terrestrial digital
television services were designed and tested at 8 MHz
[18]. It is recommended that a receivers tuner unit be
compliant with ITU-R BT.1368-9, (see Tables 1 and 2).
The transmission parameters employed to obtain the
measurements, which are presented in Table 2, were
64-QAM modulation and an inner code of 3/4. Tables 3
and 4 presente the receiver parameters used in the
tests.
The maximum signal level injected at the receiver
input was -20 dBm in order to eliminate any risk of
damage.

Table 1. Sensitivy at Receiver Input
Frequency
[MHz]
UHF
600
System
DQPSK
1/2
QPSK
1/2
16-QAM
3/4
64-QAM
7/8
Pmin
[dBm]
-92 -93 -84 -76
(C/N) [dB] 6.20 4.90 14.60 22.00

Table 2. Protection Ratios
Undesirable signal Item Protection ratio [dB]
Digital transmission
ISDB-T
Co-channel +20
Lower adjacent
channel -30
Upper adjacent
channel -30
Analog transmission
I/PAL
Co-channel +5
Lower adjacent
channel *
Upper adjacent
channel *
* Not established by a standard

Table 3. Sensitivy at Receiver Input [dBm]
Modulation
Scheme
Inner-code coding ratio
1/2 2/3 3/4 5/6 7/8
QPSK -94.2 -92.9 -91.3 -90.7 -89.9
16QAM -89 -86.7 -85.9 -84.5 -83.7
64QAM -84.1 -81.3 -80 -77.5 -76.1

Table 4. Transmission Parameters and Required C/N Ratio [dB]
Modulation
scheme
Inner-code coding ratio
1/2 2/3 3/4 5/6 7/8
QPSK 3.3 4.9 5.7 6.8 7.6
16QAM 8.9 11.2 12.3 13.4 14.3
64QAM 14.2 17.2 17.9 19.6 22
3. MEASUREMENT SYSTEM INFRASTRUCTURE
Prior to the field tests, some laboratory tests were
made with two objectives in mind. The first was
determining the receiver behavior for specific BER
values. The second was analyzing the relationship
between C/N and BER in a laboratory environment.
This relationship can then be used as a reference for
an analysis of the field tests. The laboratory tests were
conducted in a controlled environment and were
completely immune to external interferences.
During the field tests, the signal was transmitted
from a tower 50 meters above the ground. In
Gaborone, the transmission station was 1205 meters
above sea level. In Mahalapye, the station was on a
mountain with an altitude of 1245 meters. In Maun, the
altitude was 950 meters, and in Tsabong, the altitude
was 968 meters.
The same transmitter was used in each city. The
RF transmission system is composed of an antenna, a
transmission line and high power amplifiers, all
designed for the ISDB-T
B
system. The transmission
equipment includes a TS server, na ISDB-T
B
exciter,
RF amplifiers and channel filters.
The system parameters were configured according
the standards [9] and [19]. Table 5 shows the
modulation parameters used in the tests. The
transmitter used UHF channel 58 (center frequency of
770 MHz) with an 8 MHz bandwidth. The antenna was
an omnidirectional Jampro Trunstile, with a gain of
8.23 dBd. The mean power level of the RF amplifiers
was 1 Kw, with ERP 34 dBw (considering cable and
conector losses).

Table 5. ISDB-T Parameters
Bandwidth 8 MHz
Mode 3 (8K)
Guard Interval 1/16
Layer A B C
Segments 1 3 9
Carrier Modulation QPSK 16-QAM 64-QAM
Convolutional Coder 1/2 2/3 3/4
Time Interleaving [ms] 287 287 287
Bit Rate [Mbps] 0.44 3.52 17.84

The procedure used was based on test procedures
from the evaluation of other DTV transmission
systems, along with the recommendations and
standards for this system. Based on [10], [20], and
[21], the test plan was developed, and a measurement
system was created in order to perform the field tests.
The main task of the field tests was to measure the
performance of a DTV system transmitting on UHF
channel 58 (776 774 MHz). The mean signal power
at an 8 MHz bandwidth, C/N ratio, BER, localization
and perceived video quality, QEF [21], were
measured. The subjective evaluation of the video
quality was an adaptation of the ITU [20] using four
grades (see Table 6). Grades 1 and 3 indicate
intermittent reception, where 3 indicates that the
image does not annoy the viewer and 1 indicates that
the image does. BER values indicate an approximate
range that would be measured at the receiver used in
the tests. The BER values, obtained before the Reed
Solomon coding, were measured in the laboratory.

Table 6. Quality Rating Scale
Grade Image BER
5 error free 0.00E+00 - 2.00E-04
3 slightly annoying 4.50E-04 - 2.40E-03
1 very annoying 5.50E-03 - 1.20E-02
0 no lock 1.48E-02 - 1.00E+00

The field tests were performed in conjunction with
the Department of Broadcasting Services (DBS) and
the Botswana Telecommunications Authority (BTA),
which provided the test vehicle (Fig. 1), equipped with
measurement instruments for the ISDB-T
B
system.
The tests were performed at 41 locations in the four
different cities. The reception measurements were
obtained using a monopole antenna with -2.26 dBd
gain, located 2.5 meters above the ground.
The setup used in the field tests is shown in (Fig.
1). An ISDB-T
B
receiver was used for channel
decoding. Performance was measured using a
subjective reception analysis, similar to [20]. An
Anritsu MS8911B signal analyzer was used to
measure the signal intensity level and analyze the
signal characteristics. The system was calibrated, and
the receiver was tested prior to the tests, in order to
confirm that its sensitivity met specifications [17] and
[18].


Fig. 1. Transmission System

The measurement methodology was based on [21]
and other test procedures used to evaluate DTV
transmission systems [10], [22-25].
The test vehicle was moved to each predetermined
test site, where the following characteristics were
recorded: time, geospatial coordinates, local
environmental characteristics, urban density and
traffic. The main reason for this was to characterize the
test site with regard to the buildings and local traffic,
which may cause unwanted effects on the signal
reception. The power level, C/N and BER were also
recorded for each test site. For each location, it was
necessary to manually search for the receiver channel.
The reception quality was measured using a subjective
analysis. This analysis was performed by observing an
image for sixty seconds, QEF, and grading it according
to Table 4.
4. DTV FIELD TESTS RESULTS
This section describes the most important
measurements for designing digital transmission
systems. Many data sets were collected at each
location in order to evaluate the signal reception
quality under different interference and fading
conditions in the field.
Four small cities in Botswana were analyzed, with a
total of 41 measurement locations, covering the entire
area of each city. In the results, DBA refers to the
distance from the test site to the antenna, and the BER
values were obtained before the Reed Solomon
coding.
Gaborone, the largest city in Botswana, had 17
measurement locations (Fig. 2). In contrast to other
cities in Botswana, Gaborone has many buildings and
intense traffic, and some of the test sites did not have
a direct line-of-sight to the transmission tower.


Fig. 2. Test Sites in Gaborone

In Gaborone, some test sites did not obtain
adequate reception, as shown on Table 7. Test sites 1,
5 and 7 were graded 0, 0 and 1, respectively.
These locations are urban areas and 10 km from the
transmission tower. The buildings caused signal
obstruction and reflection. Site 12 is an industrial zone
and received a grade of 0. Site 14 is a residential
zone and received a grade of 3. Both locations are
approximately 15 km from the transmission tower and
are obscured by buildings in the city center. Hence,
test site 12 did not receive sufficient signal intensity,
and site 14 had a close-in echo of -30 dB relative to

Pesquisas em ambientes digitais - TV Internet Radio Cinema
Revista de Radiodifuso v. 07 n. 08 2013 19
MTRICA SEM REFERNCIA BASEADA EM REDES NEURAIS
PARA AVALIAO OBJETIVA DE QUALIDADE DE VDEO DIGITAL
Wyllian Bezerra da Silva, Alexandre de Almeida Prado Pohl
Programa de Ps-Graduao em Engenharia Eltrica e Informtica Industrial (CPGEI) UTFPR, Curitiba, Brasil
wyllianbs@gmail.com, pohl@utfpr.edu.br
Resumo: Este trabalho apresenta uma mtrica sem referncia para avaliao de qualidade de vdeo digital baseada em uma rede neural artifcial que usa uma verso estendida do algoritmo de aprendizado ELM (Extreme Learning Machine). O mtodo proposto realiza o treinamento da rede neural a partir de seis caractersticas espao-temporais. Os resultados experimentais mostram que o mtodo proposto apresenta desempenho superior s mtricas de referncia completa PSNR e MS-SSIM na tarefa de predio de qualidade de vdeo. Logo, o mtodo proposto pode ser usado no monitoramento de qualidade em sistemas de transmisso e recepo de vdeo digital, tais como IPTV e TV digital.
Palavras chave: algoritmo ELM, avaliao objetiva de vdeo, mtrica sem referncia, rede neural artifcial.
1. INTRODUO
Durante os ltimos anos, a literatura tem apresentado um nmero crescente publicaes acerca de mtricas objetivas para avaliao de qualidade de vdeo para diversas aplicaes em radiodifuso ou no processamento de vdeo digital, seja na aquisio do sinal, codifcao e decodifcao, compresso, transmisso, restaurao, armazenamento, segmentao e exibio de sinais de vdeo digital [14]. A avaliao de qualidade de vdeo digital pode ser realizada por meio de mtricas subjetiva e objetiva. A primeira requer uma grande quantidade de recursos humanos e apresenta elevado custo em sua implementao [13]. Porm, as mtricas objetivas so vantajosas quando apresentam um determinado grau de correlao com as mtricas subjetivas. Logo, o desenvolvimento destas um desafo no campo de avaliao de qualidade de vdeo e imagem. Alm disso, as mtricas objetivas, devido natureza de seu critrio objetivo, independem de interao humana e so facilmente reprodutveis [3]. Dentre as mtricas objetivas destacam-se as mtricas sem referncia (No-Reference NR), pois no necessitam do vdeo de referncia no clculo de sua medida. Entretanto, estas requerem um conhecimento a priori sobre as distores em vdeo digital para que seja estabelecida uma correlao com os resultados subjetivos [3].
A maioria das mtricas NR encontradas na literatura so baseadas na avaliao de qualidade de imagens e em caractersticas relacionadas ao Sistema Visual Humano (SVH). Assim, o desenvolvimento de mtricas NR difcil, devido necessidade de emular a percepo do SVH que envolve aspectos cognitivos, emocionais e estticos relacionados ao contedo do vdeo e que so altamente dependentes do observador [4], [5].
A literatura reporta diversos esforos no desenvolvimento de mtricas para avaliao de qualidade de vdeo baseadas em redes neurais e em algoritmos de aprendizado. Babu et al. [6] apresentam uma mtrica para avaliar a qualidade de imagens comprimidas em JPEG (Joint Photographic Experts Group) por meio de um algoritmo de aprendizado de crescimento e propem o uso de uma rede neural GAP-RBF (Growing and Pruning Radial Basis Function) que usa caractersticas relacionadas ao SVH. Jiang et al. [7] desenvolveram uma mtrica NR para avaliao de qualidade de vdeo em HD (High Defnition) baseada em uma rede neural treinada pelo algoritmo BP (Back-Propagation) que usa seis caractersticas espao-temporais e a RoI (Region of Interest). Choe et al. [8] desenvolveram uma mtrica NR baseada no fuxo de bits para avaliao de qualidade de vdeo codifcado em H.264. Esta mtrica extrai caractersticas quadro a quadro e usa uma rede neural alimentada adiante (feedforward) com trs camadas. Suresh et al. [9] apresentaram uma extenso do algoritmo ELM na tarefa de avaliar a qualidade de imagens comprimidas em JPEG com base no esquema de seleo mltipla KS-ELM (K-fold selection Scheme using ELM) e no algoritmo RCGA-ELM (Real-Coded Genetic Algorithm using ELM) para seleo dos pesos de entrada e polarizaes.
Este trabalho apresenta uma verso estendida do algoritmo ELM para redes neurais SLFN (Single-hidden-Layer Feedforward Neural Networks) que implementa um simples critrio de parada na fase de treinamento. Alm disso, esse mtodo usa seis caractersticas espao-temporais de vdeos submetidos a diversas condies de distoro.
Este artigo est dividido da seguinte maneira: a Seo 2 descreve as mtricas para avaliao de qualidade de vdeo. A Seo 3 descreve o mtodo NR proposto para avalio de qualidade de vdeo digital. A Seo 4 apresenta os resultados experimentais, em que so comparados o mtodo NR proposto e duas mtricas FR. Finalmente, a Seo 5 apresenta a concluso do artigo.
2. AVALIAO DE QUALIDADE DE VDEO
O processo de avaliao de qualidade de vdeo
pode ser realizado com a aplicao de mtricas
subjetivas ou objetivas. As mtricas subjetivas
estimam a qualidade do vdeo por meio de avaliadores
humanos. Logo, exigem um alto custo, pois
necessitam de uma grande quantidade de recursos
humanos e apresentam problemas quanto aos
requisitos de imparcialidade e reprodutibilidade,
tornando-se inapropriadas em sistemas de
radiodifuso ou em provedores de contedo [10], [11].
Por outro lado, as mtricas objetivas so baseadas em
modelos matemticos, cujo objetivo produzir um
escore de qualidade que emule a percepo do SVH.
Alm disso, as mtricas objetivas requerem baixo
custo de implementao (quando comparadas com as
mtricas subjetivas) e no apresentam problemas
quanto reprodutibilidade e imparcialidade.
As mtricas objetivas para avaliao de qualidade
de vdeo podem ser classifcadas em trs categorias:
(i) mtricas de referncia completa (Full-Reference
FR); (ii) mtricas de referncia reduzida (Reduced-
Reference RR); (iii) mtricas sem referncia (NR).
2.1. Mtricas FR
As mtricas FR requerem o vdeo de referncia
(fonte) no clculo do escore de qualidade. Estas
mtricas so amplamente utilizadas no processo de
validao de mtricas RR ou NR, por meio da
comparao de desempenho defnida pelas
recomendaes do Grupo de Especialistas em
Qualidade de Vdeo (VQEG Video Quality Experts
Group) que um rgo de padronizao internacional
de mtricas subjetivas e objetivas de qualidade de
vdeo. Dentre as mtricas FR, destacam-se o PSNR
(Peak Signal-to-Noise Ratio), SSIM (Structural
SIMilarity index) [12] e MS-SSIM (Multi-Scale
Structural SIMilarity index) [13].
O PSNR uma mtrica FR baseada no erro pixel a
pixel de fcil implementao. Entretanto, apresenta
baixa correlao com o SVH [14]. A sua medida
processada sobre o erro quadro a quadro, i.e., entre o
quadro original x e o quadro y . A expresso a seguir
defne o PSNR para um conjunto de quadros F .
20
1
1
PSNR 20log ,
F
f
f f
v
F MSE



(1)
com

2
0 0
1
MSE , , , , ,
N M
f
i j
x f i j y f i j
NM

(2)
em que o termo f v igual a (2 1) k , cujo k o
nmero de bits por pixel, i.e., a componente de
luminncia do quadro f . Os termos x f ,i, j e
y f ,i, j so os valores de luminncia do quadro de
origem e degradado, respectivamente. As
componentes bidimensionais so representadas pelo
nmero de colunas N e pelo nmero de linhas M . O
termo f MSE defnido como erro quadrtico mdio
ou MSE (Mean Square Error).
A mtrica SSIM baseia-se no fato de que o SVH
fortemente adaptado para extrair informaes das
caractersticas estruturais de um quadro ou imagem.
Logo, uma medida de similaridade estrutural (ou
distoro) pode prover boa aproximao para a
qualidade perceptual de um vdeo [3, 79]. Sejam x e
y dois sinais no-negativos, em que y o sinal
degradado e x o sinal original (sem perda de
qualidade), a medida de similaridade utilizada como
um ndice quantitativo de qualidade do sinal distorcido,
ou seja, x tomado como a referncia para medir a
qualidade de y . A mtrica SSIM possui diversas
extenses, dentre as quais a verso MS-SSIM,
proposta por Wang et al. [13] que assume uma
abordagem multiescalar.
2.2. Mtricas RR
As mtricas de referncia reduzida retiram certa
quantidade de caractersticas do vdeo original (fonte),
baseadas em componentes espaciais, temporais, no
domnio da frequncia ou no fuxo de bits (bitstream).
Este tipo de mtrica amplamente utilizada no
monitoramento de transmisses em rede [17]. Neste
tipo de cenrio de aplicao, o vdeo transmitido
com uma sequncia de informao codifcada
(overhead) e no lado receptor ocorre a sua
decodifcao, seguido pelo clculo do ndice de
qualidade, o qual obtido por meio da comparao
entre a representao reduzida da informao nos
pares emissor e receptor [18]. Tipicamente, mtricas
RR so implementadas por meio de funes, divididas
em duas etapas [19]: (i) clculo do erro entre os
vdeos original e distorcido, constitudo pela diferena
de suas caractersticas, a fm de compor a
representao reduzida da informao; (ii) funo que
agrupa os erros ou diferenas para obter um ndice de
qualidade global. Algumas mtricas RR exploram
propriedades dos artefatos, por meio da extrao de
caractersticas e um modelo de parametrizao [20]
com foco em tipos especfcos de distores
(artefatos). Esta abordagem encontrada em Silva et
al. [17], cujo clculo do escore de qualidade
baseado na diferena de atividade dos coefcientes
DCT (Discrete Cosine Transform) em um macro bloco
com resoluo de 1616 pixels.
2.3. Mtricas NR
As mtricas NR extraem caractersticas
relacionadas ao SVH do vdeo distorcido, i.e., na
recepo do sinal de vdeo [14]. Tipicamente, h duas
abordagens no desenvolvimento destas mtricas: (i)
extrao dos parmetros sobre o fuxo de bits, tais
como a taxa de compresso, informaes
relacionadas ao GoP (Group of Pictures), estimao
de movimento, perfl e nvel de codifcao, bem como
o parmetro de quantizao ou QP (Quantization
Parameter) [2125]. Mtricas NR apresentam maior
complexidade quando so aplicadas em vdeo, devido
variao temporal dos quadros, contedos das
cenas e difculdade de compreenso das
caractersticas do SVH [26]. Assim, algumas mtricas
dessa categoria exploram caractersticas espaciais e
temporais na estimao de qualidade de vdeo [21].
3. MTODO PROPOSTO
O mtodo proposto, denominado NRVQA-ELMtc
(No-Reference Video Quality Assessment using
Extreme Learning Machine algorithm with termination
criteria) [27] combina caractersticas espaciais e
temporais, por meio de uma rede neural artifcial
SLFNs usando o algoritmo de treinamento ELM [28]
com a implementao de um simples critrio de
parada.
3.1. Caractersticas espao-temporais
As caractersticas espaciais incorporadas no
mtodo proposto so baseadas em medidas de
artefatos em vdeo digital, i.e., distores de blocagem
e borramento desenvolvidas por Wang et al. [20].
Assim, a componente de luminncia do quadro f
representada por y(f , i, j ) com i 1,M e j 1, N ,
em que M e N so os nmeros de linhas e colunas,
respectivamente, de um quadro. Logo, as diferenas
de luminncia ao longo das linhas e colunas so
representadas, respectivamente, pelas expresses a
seguir.


, , , , 1 , , , 1, 1 ,
, , , 1, , , , 1, 1 .
h
v
d f i j y f i j y f i j j N
d f i j y f i j y f i j i M


(3)
O efeito de blocagem pode ser estimado pela
mdia das diferenas entre as bordas dos blocos da
DCT (Discrete Cosine Transform) nas direes
horizontal e vertical para uma sequncia F de
quadros, conforme mostra a Equao (4), com um
macrobloco de dimenso , cujo tamanho tpico
de 8 [20].


1
1
1 1 1
1
1
1 1 1
1
, , 1 ,
1
1
1
, 1 , .
1
1
N
F M
h h
f i j
M
F N
v
i j
v
f
B d f i j
N
F M
B d f i j
M
F N












(4)
A medida de blocagem em uma sequncia de
vdeo com F quadros determinada pela mdia entre
h B e v B , caracterizando a medida B , conforme a
expresso a seguir.
.
2
h v B B
B

(5)
Os efeitos de borramento so estimados pelo
clculo da reduo de atividade entre os blocos ,
em que usada a medida de blocagem nas direes
horizontal e vertical, conforme as expresses




1
1 1 1
1
1 1 1
, , ,
1 1
, ,
1
.
1
F M N
h h h
f i j
F M N
v v
f
v
i j
A d f i j B
F M N
A d f i j B
F N M








(6)
A medida de borramento, representada por A ,
conforme a Equao (7), determinada pela mdia
entre h A e v A .
.
2
h v A A
A

(7)
O segundo fator que contribui para a deteco do
artefato de borramento baseado na taxa de
cruzamento por zero (Zero Crossing ZC) nas
direes horizontal e vertical, conforme as expresses
a seguir.




2
1 1 1
2
1 1 1
1
, , ,
2
1
, , ,
2
F M N
h h
f i j
F M N
v v
f i j
Z z f i j
F M N
Z z f i j
F N M




(8)
em que os termos h z e v z so determinados por


1, na direo horizontal
, , ,
0, caso contrrio
1, na direo vertical
, , .
0, caso contrrio
h
v
z f i j
z f i j



(9)
Assim, a medida de borramento Z determinada
pela mdia entre as componentes h Z e v Z .
.
2
h v Z Z
Z

(10)
O mtodo proposto tambm incorpora trs
caractersticas temporais no treinamento da rede
neural SLFN com o algoritmo ELM.
A primeira caracterstica temporal a diferena de
movimento entre quadros adjacentes, representada
pela varivel TI (Temporal perceptual Information) [31]
que considera os valores de luminncia de pixels
localizados em uma mesma regio de um quadro,
conforme a expresso a seguir.

2
1
, , ,
1
F
f
TI m f i j
F


(11)
em que o nmero total de quadros F e mf ,i, j

o desvio padro da diferena de movimento
(diferena de luminncia) entre o quadro atual
y f ,i, j e o quadro anterior y f 1,i, j .
A segunda caracterstica temporal a mdia da
diferena absoluta (Mean Absolute Diference MAD)
[31] entre quadros sucessivos, representada pela
Equao (12) que defne a medida global da MAD
para todos os quadros de um vdeo.


2 1 1
1
, , 1, , .
1
F M N
f i j
MAD y f i j y f i j
M N F



(12)
A terceira caracterstica temporal a mdia da
diferena absoluta ponderada (weighted Mean
Absolute Diference MADw) [32], a qual mede o grau
de variao das cenas de um vdeo que considera a
cena atual de um quadro f e do quadro anterior f 1,
conforme a expresso:
2 1
1
.
1
F
f
f f
MAD
MADw
F MAD


(13)
Assim, o mtodo proposto combina as
caractersticas espaciais e temporais em uma matriz
, , , , , f f f f f f f x A B Z TI MAD MADw , em que f o
nmero de amostras de vdeo. A Figura 1 apresenta
as caractersticas temporais espaciais de dezessete
bases de dados de vdeos (denominada superconjunto
S) usadas neste trabalho e reportadas em [27]. A
recomendao ITU-T P.910 [31] defne a medida SI
(Spatial perceptual Information) como informao
espacial perceptual. A inspeo visual dessa fgura
mostra que as amostras de vdeo usadas neste
trabalho apresentam uma grande variao espaotemporal.
Fig. 1. Caractersticas espaciais e temporais do superconjunto
S com 216 amostras de referncia
3.2. Mtrica NRVQA-ELMtc
O algoritmo ELM [28] desenvolvido para o
treinamento de uma rede SLFN atribui pesos e
polarizaes (biases) de maneira aleatria, segundo
uma distribuio uniforme. O treinamento compreende
N amostras distintas representadas pela varivel
, , , 1, , n m
f f f f x t x t f N , cujo clculo
conforme a expresso

1
, 1, , ,
K
K i j j f j f
f
f g b f N

x w x o (14)
em que f o a sada (escore objetivo), g(x) a
funo de ativao e j o peso que conecta o jsimo
neurnio da camada oculta ao neurnio de
sada. De acordo com [28], uma rede SLFN com K
ns na camada oculta e uma funo de ativao g(x)
pode apresentar um erro mdio prximo de zero, i.e.,
1
0
K
f f
f
o t . Logo, h parmetros j , j w e j b tal
que

1
, 1, , ,
K
j j f j f
f
g b f N

w x t (15)
em que f t o vetor alvo (escores subjetivos),
T
1, , j j jn w w w o vetor de peso que conecta o jsimo
neurnio da camada oculta ao neurnio da
camada de entrada, j b denota a polarizao (bias) do
j-simo neurnio da camada oculta, j f w x o
produto interno de j w e f x . A Figura 2 ilustra o
algoritmo ELM empregado em uma arquitetura de
rede neural SLFN.
xi
1
j
N
1
j
K
ti
bj
N input neuron K hidden neuron output neuron
1
K
wj
Fig. 2. Arquitetura de uma rede neural SLFN usando algoritmo
de treinamento ELM
O sistema linear da Equao (16) resume o mtodo
do algoritmo ELM.
H T, (16)
em que a matriz da camada oculta representada por
1, , and 1, , f H h f N j K com a primeira
linha da matriz de caractersticas f x igual a
T
1 2 , , , f f f fn x x x x , i.e., a primeira linha igual a
1 1 1 1 1 1 1 , , , , , f f f f f f f x A B Z TI MAD MADw . A matriz de
sada e o vetor alvo (target) so defnidos como
T
1 , K e
T
1, , N T t t , respectivamente. O
termo
T
1 , 1, , j jm j j K denota o vetor de
peso que conecta o j-simo neurnio da camada
oculta e os neurnios de sada. Hung et al. [28]
propuseram a atribuio aleatria de pesos aos
parmetros j w e j b , a fm de seja obtido um pequeno
erro no-nulo durante o treinamento. Considerando o
sistema linear da Equao (17), os pesos da camada
de sada podem ser aproximados por
H T (17)
em que H defnida como matriz inversa
generalizada de Moore-Penrose (MP) [33] da matriz
de sada da camada oculta H . Alm disso, o
conjunto de treinamento , n oculta K e uma
funo de ativao g x , e.g., funo de base radial
(Radial Basis Function RBF), hard-limiting (hardlim),
sigmoidal (sig) e seno (sin). Em resumo, o algoritmo
ELM compreende trs etapas [28]:
i) Atribuio aleatria dos pesos de entrada j w e
polarizaes j b ;
ii) Clculo da matriz da camada de sada H ;
iii) Clculo dos pesos de sada : H T .
O mtodo NRVQA-ELMtc [27] implementa um
simples critrio de parada no treinamento da rede
neural SLFN, quanto atribuio aleatria dos pesos
j w e j b . Embora este critrio no seja direcionado,
busca os pesos relacionados com o menor RMSE
(Root-Mean-Square Error) entre a sada desejada
(escore subjetivo) e o escore objetivo na fase de
treinamento com k iteraes (tipicamente, k 100 ) e
N neurnios na camada oculta. Alm disso, conforme
estudo realizado em [27], caso o RMSE seja menor do
que 0,5 o algoritmo cessa a busca pelos parmetros
j w e j b .
4. RESULTADOS EXPERIMENTAIS
Esta seo apresenta os resultados de acurcia,
i.e., os coefcientes de correlao linear de Pearson
(Pearson Linear Correlation Coefcient PLCC) [34],
[35], entre os escores objetivos e subjetivos de 2627
amostras de vdeo estudadas em [27].
A Figura 3 compara a acurcia (PLCC) entre as
mtricas de referncia completa (FR) PSNR e MSSSIM
com o mtodo proposto (NRVQA-ELMtc) para
as 2627 amostras de vdeo, pertencentes a 17 bases
de dados de vdeo disponibilizadas por diversas
instituies e laboratrios [27]. A funo de ativao
usada na rede neural SLFN foi o seno (sin) com o
nmero de amostras de teste igual ao nmero de
neurnios na camada oculta ( N ). O mtodo de
validao cruzada mltipla (K-fold) foi usado com o
objetivo de gerar uma distribuio de acurcia, a qual
foi analisada por meio do diagrama de caixa (box-plot)
[36], em que o trao, o crculo e o quadrado, ambos
em vermelho, representam a mediana, a mdia e o
desvio padro, respectivamente. Destaca-se que
neste trabalho foi empregada uma validao cruzada
com um grande nmero de amostras de treinamentoteste
com K 100 , i.e., cada caixa do box-plot
comporta 100 experimentos distintos. Tipicamente, a
literatura apresenta trabalhos no campo da avaliao
Fig. 3. Box-plot da predio da acurcia (PLCC) entre as mtricas PSNR, MS-SSIM e o mtodo proposto NRVQA-ELMtc
de qualidade de vdeo com K entre 5 e 10 [37], [38].
Pela inspeo visual da Figura 3 observa-se que o
desempenho do mtodo proposto superior s
mtricas FR, em quaisquer condies de teste, i.e.,
para qualquer quantidade de amostras de teste
(nmero de neurnios na camada oculta) entre 25 e
500. Em especial, para N 50 , o mtodo proposto
apresenta valores de PLCC, em termos da mdia e
mediana, acima de 0,8, denotando uma forte
associao entre os escores objetivos e subjetivos, na
tarefa de predio de qualidade de vdeo. Isto ocorre
devido grande quantidade de amostras de vdeo
usadas no treinamento, e.g., para N 300 foram
usadas 2327 amostras de treinamento, ou seja,
mesmo usando pares de treinamento-teste disjuntos,
o mtodo proposto mostra uma acurcia superior s
mtricas de referncia completa. A assimetria positiva,
i.e., a maior concentrao da acurcia entre o
segundo quartil (mediana) e o terceiro quartil, na
distribuio do box-plot nos testes com 300 e 500
neurnios na camada oculta, indica que o mtodo
proposto apresenta um desempenho expressivo em
comparao com as mtricas FR.
Entretanto, mesmo para N entre 25 e 50, o
mtodo proposto apresentou uma acurcia maior do
que as mtricas FR, cujo melhor resultado foi para
N 25 com o desvio-quartil (amplitude interquartlica)
confnado entre 0,65 e 0,8. Alm disso, este resultado
tambm apresentou assimetria positiva com a mdia
do PLCC em torno de 0,75.
5. CONCLUSO
Este trabalho apresentou uma mtrica NR baseada
em uma rede neural artifcial SLFN, cujo treinamento
determinado pelo algoritmo ELM, o qual considera
caractersticas espao-temporais e os escores
subjetivos (alvos) extrados de 2627 amostras
treinamento. Alm disso, este trabalho prope uma
extenso do algoritmo ELM por meio de um simples
critrio de parada, a fm de que sejam obtidos
parmetros da rede neural artifcial relacionados com
o menor RMSE. Tipicamente, a comparao entre
mtricas FR e NR injusta, devido ausncia do
vdeo de referncia na obteno do escore de
qualidade em mtricas NR. Entretanto, os resultados
experimentais mostram que o mtodo proposto
apresentou desempenho superior s mtricas de
referncia completa PSNR e MS-SSIM, sobretudo,
quando o nmero de amostras de teste e de neurnios
na camada oculta da rede SLFN maior do que 250.
Logo, a mtrica NRVQA-ELMtc pode ser empregada
no monitoramento de qualidade em sistemas de
transmisso e recepo de vdeo digital, tais como
IPTV (Internet Protocol Television), TV digital ou em
dispositivos mveis, tais como ultrabooks,
smartphones, tablets e em aparelhos WiDi (Wireless
Display).
REFERNCIAS
[1] S. Winkler, Issues in vision modeling for perceptual
video quality assessment, Signal Processing, vol. 78,
no. 2, pp. 231252, 1999.
[2] Z. Wang and A. C. Bovik, Modern image quality
assessment. San Rafael, CA: Morgan & Claypool,
2006.
[3] W. Lin and C.-C. Jay Kuo, Perceptual visual quality
metrics: A survey, Journal of Visual Communication
and Image Representation, vol. 22, no. 4, pp. 297312,
May 2011.
[4] S. S. Hemami and A. R. Reibman, No-reference image
and video quality estimation: Applications and humanmotivated
design, Signal Processing: Image
Communication, vol. 25, no. 7, pp. 469481, 2010.
[5] Z. Wang and A. Bovik, Reduced- and No-Reference
Image Quality Assessment, IEEE Signal Processing
Magazine, vol. 28, no. 6, pp. 2940, Nov. 2011.
[6] R. V. Babu, S. Suresh, and A. Perkis, No-reference
JPEG-image quality assessment using GAP-RBF,
Signal Processing, vol. 87, no. 6, pp. 14931503, 2007.
[7] X. Jiang, F. Meng, J. Xu, and W. Zhou, No-Reference
Perceptual Video Quality Measurement for High
Defnition Videos Based on an Artifcial Neural
Network, in Computer and Electrical Engineering,
2008. ICCEE 2008. International Conference on, 2008,
pp. 424427.
[8] J. Choe, K. Lee, C. Lee, and S. Korea, No-reference
video quality measurement using neural networks, in
2009 16th International Conference on Digital Signal
Processing, 2009, pp. 14.
[9] S. Suresh, R. Venkatesh Babu, and H. J. Kim, Noreference
image quality assessment using modifed
extreme learning machine classifer, Applied Soft
Computing, vol. 9, no. 2, pp. 541552, Mar. 2009.
[10] A. M. Eskicioglu and P. S. Fisher, Image quality
measures and their performance, IEEE Transactions
on Communications, vol. 43, no. 12, pp. 29592965,
1995.
[11] U. Engelke and H.-J. Zepernick, Perceptual-based
Quality Metrics for Image and Video Services: A
Survey, in Proceedings EuroNGI Conf. Next
Generation Internet Networks, 2007, pp. 190197.
[12] Z. Wang, A. C. Bovik, H. R. Sheikh, and E. P
Simoncelli, Image quality assessment: from error
visibility to structural similarity., IEEE Transactions on
Image Processing, vol. 13, no. 4, pp. 600612, 2004.
[13] Z. Wang, E. P. Simoncelli, and A. C. Bovik, Multiscale
structural similarity for image quality assessment, in
The Thrity-Seventh Asilomar Conference on Signals,
Systems & Computers, 2003, 2003, vol. 2, no. 1, pp.
13981402.
[14] H. R. Wu, K. R. Rao, and A. A. Kassim, Digital Video
Image Quality and Perceptual Coding, Journal of
Electronic Imaging, vol. 16, no. 3, 2007.
[15] Z. Wang and A. C. Bovik, A universal image quality
index, IEEE Signal Processing Letters, vol. 9, no. 3,
pp. 8184, Mar. 2002.
[16] Y. Shi, Y. Ding, R. Zhang, and J. Li, Structure and Hue
Similarity for Color Image Quality Assessment, in 2009
International Conference on Electronic Computer
Technology, 2009, pp. 329333.
[17] W. B. Silva, A. A. P. Pohl, and K. V. O. Fonseca, A
Reduced-Reference Video Quality Assessment Method
based on the Activity-Diference of DCT Coefcients,
IEICE Transactions on Information and Systems, vol. E96-D, no. 3, 2013.
[18] P. Le Callet, C. Viard-Gaudin, and D. Barba, A Convolutional Neural Network Approach for Objective Video Quality Assessment, IEEE Transactions on Neural Networks, vol. 17, no. 5, pp. 13161327, 2006.
[19] P. Le Callet and D. Barba, Image Quality Assessment: From Sites Errors to a Global Appreciation of Quality, in Proceedings of the Picture Coding Sympsium, 2001, pp. 105108.
[20] M. Miyahara, K. Kotani, and V. R. Algazi, Objective picture quality scale (PQS) for image coding, IEEE Transactions on Communications, vol. 46, no. 9, pp. 12151226, 1998.
[21] M. Slanina, V. Ricny, and R. Forchheimer, A Novel Metric for H.264/AVC No-Reference Quality Assessment, in 14th International Workshop on Systems, Signals and Image Processing and 6th EURASIP Conference focused on Speech and Image Processing, Multimedia Communications and Services, 2007, pp. 114117.
[22] O. Sugimoto, S. Naito, S. Sakazawa, and A. Koike, Objective perceptual video quality measurement method based on hybrid no reference framework, in 16th IEEE International Conference on Image Processing (ICIP09), 2009, pp. 22372240.
[23] T. Oelbaum, C. Keimel, and K. Diepold, Rule-Based No-Reference Video Quality Evaluation Using Additionally Coded Videos, IEEE Journal of Selected Topics in Signal Processing, vol. 3, no. 2, pp. 294303, 2009.
[24] N. Staelens, N. Vercammen, Y. Dhondt, B. Vermeulen, P. Lambert, R. de Walle, and P. Demeester, ViQID: A No-Reference bit stream-based visual quality impairment detector, in Proceedings of the Second Int Quality of Multimedia Experience (QoMEX) Workshop, 2010, pp. 206211.
[25] F. Yang, S. Wan, Q. Xie, and H. R. Wu, No-Reference Quality Assessment for Networked Video via Primary Analysis of Bit Stream, IEEE Transactions on Circuits and Systems for Video Technology, vol. 20, no. 11, pp. 15441554, Nov. 2010.
[26] Z. Wang, H. R. Sheikh, and A. C. Bovik, Objective Video Quality Assessment, in The Handbook of Video Databases: Design and Applications, B. Furht and O. Marques, Eds. Boca Raton, FL, USA: CRC Press, 2003, pp. 10411078.
[27] W. B. da Silva and A. de A. P. Pohl, Mtodos Sem Referncia Baseados em Caractersticas Espao-Temporais para Avaliao Objetiva de Qualidade de Vdeo Digital, Universidade Tecnolgica Federal do Paran (UTFPR), 2013.
[28] G.-B. Huang, Q.-Y. Zhu, and C.-K. Siew, Extreme learning machine: Theory and applications, Neurocomputing, vol. 70, no. 13, pp. 489501, Dec. 2006.
[29] Z. Wang, H. R. Sheikh, and A. C. Bovik, No-reference perceptual quality assessment of JPEG compressed images, in Image Processing. 2002. Proceedings. IEEE International Conference on Image Processing, 2002, vol. 1, pp. vol.1 I477 I480.
[30] W. B. Silva and A. A. P. Pohl, No-Reference Video Quality Assessment Method based on the Levenberg-Marquardt Minimization, in XXX Brazilian Symposium on Telecommunications (SBrT12), 2012.
[31] ITU-T P.910, Subjective video quality assessment methods for multimedia applications, Standardization Sector of ITU, 1999.
[32] W. Ding, Y. Tong, Q. Zhang, and D. Yang, Image and Video Quality Assessment Using Neural Network and SVM, Tsinghua Science & Technology, vol. 13, no. 1, pp. 112116, 2008.
[33] K. S. Banerjee, C. R. Rao, and S. K. Mitra, Generalized Inverse of Matrices and Its Applications, Technometrics, vol. 15, no. 1, p. 197, Feb. 1973.
[34] VQEG, Final report from the video quality experts group on the validation of reduced-reference and no-reference objective models for standard defnition television, Phase I, 2009.
[35] VQEG, Report on the validation of video quality models for high defnition video content, 2010.
[36] J. W. Tukey, Exploratory Data Analysis. New York: Addison-Wesley Publishing Company, 1977.
[37] P. Gastaldo and R. Zunino, Neural networks for the no-reference assessment of perceived quality, J. Electronic Imaging, vol. 14, no. 3, p. 033004, 2005.
[38] R. Herzog, M. adk, T. O. Aydn, K. I. Kim, K. Myszkowski, and H.-P. Seidel, NoRM: No-Reference Image Quality Metric for Realistic Image Synthesis, Comp. Graph. Forum, vol. 31, no. 2pt4, pp. 545554, 2012.
20 Revista de Radiodifuso v. 07 n. 08 2013
Pesquisas em ambientes digitais - TV Internet Radio Cinema
Table 7. Results of Field Tests at Gaborone
Site Location
DBA
[Km]
Signal
Level
[dBm]
C/N
[dB]
BER Grade
1 Civic Center 10.70 -79.0 7.5 1.65E-02 0
2 Tsholofelo P. 7.54 -67.0 24 0.00E+00 5
3 Broadhurst 7.62 -66.0 18 0.00E+00 5
4 Ledumang SSS 4.40 -44.6 24 0.00E+00 5
5 MMC 9.85 -78.7 11 1.65E-02 0
6 Block 7 8.90 -65.0 23 0.00E+00 5
7 Mogoditshane 10.90 -78.0 18 6.64E-03 1
8 Ledumadumane 9.09 -57.0 23 0.00E+00 5
9 Phakalane 4.30 -58.4 24 0.00E+00 5
10 Gaborone N 4.72 -67.5 22 2.20E-04 5
11 CBD 10.70 -63.0 21 2.50E-05 5
12 Gaborone W 15.35 -81.0 7 1.65E-02 0
13 Gaborone W 14.40 -74.0 21 0.00E+00 5
14 Old C. Hall 14.75 -77.8 17.1 2.50E-03 3
15 Old C. Hall 14.20 -76.6 19 4.50E-05 5
16 Block 9 14.60 -72.1 22 0.00E+00 5
17 SSKA 3.52 -59.6 20.6 0.00E+00 5

the main signal (Echo to Carrier ratio = E/C = -30 dB),
due to the existence of buildings.
In Mahalapye, 7 measurements were performed
(Fig. 3). This city has only houses and moderate traffic,
and the transmission tower is on a mountain 1245
meters above sea level. Although there was a large
distance from the city to the tower, every test site had
a direct line-of-sight to the transmission tower.


Fig. 3. Test Sites in Mahalapye

Every test site in Malahapey obtained adequate
reception, with grades of 5. The results are presented
in Table 8.
In Maun, a small city with low traffic, there were 10
measurements (Fig. 4). It has three districts far from
the center of the city, which caused fading, and there
is an airport in the center.
In Maun, only one location did not obtain adequate
reception, as shown in Table 9. Site 5 is a rural zone,
32.9 km from the transmission tower, and obtained a
grade of 3, due to the low intensity signal and
multipath interference. The maximum echo, which was
also a close-in echo, had an E/C = -20 dB.
Table 8. Results of Field Tests at Mahalapye
Site Location
DBA
[Km]
Signal
Level
[dBm]
C/N
[dB]
BER Grade
1 D. Ward 10.90 -53.1 22 0.00E+00 5
2 Tshikinyega 12.20 -60.4 23.6 0.00E+00 5
3 Xhosa 13.90 -71.5 21.6 2.00E-06 5
4 Xhosa 1 13.50 -62.3 22.3 1.00E-06 5
5 Flowertown 16.30 -59.1 24.2 0.00E+00 5
6 T. Ward 14.60 -70.9 23.4 0.00E+00 5
7 Mahalapye W 12.50 -52.0 23.6 0.00E+00 5


Fig. 4. Test Sites in Maun

Table 9. Results of Field Tests at Maun
Site Location
DBA
[Km]
Signal
Level
[dBm]
C/N
[dB]
BER Grade
1 Matshwane 5.40 -51.1 23 0.00E+00 5
2 Chanoga 28.40 -76.7 19.2 4.70E-05 5
3 Shorobe 33.30 -78.0 18.7 1.77E-04 5
4 Boronyane 6.60 -59.1 25.7 0.00E+00 5
5 Komana 32.90 -77.7 18.5 1.21E-03 3
6 Shashe 8.67 -68.5 21.7 2.00E-06 5
7 Bomadi 6.13 -60.0 23.4 0.00E+00 5
8 Botshabelo 5.93 -63.0 23.2 0.00E+00 5
9 Airport 2.31 -68.6 19.7 2.20E-05 5
10 Disaneng 3.33 -50.4 23.3 0.00E+00 5

In Tsabong, a small city with low traffic, 7
measurements were made (Fig. 5). In this city, only
one site did not obtain adequate reception, as shown
in Table 10. Site 7 is a rural zone, 26.1 km from
transmission tower, next to the border with South
Africa. It is surrounded by mountains and obtained a
grade of 3, due to low signal intensity.
Table 11 provides a direct comparison between the
signal reception qualities of the four cities in Botswana.
Reception margin is an important parameter of DTV
service. It indicates whether a digital TV signal can be
received without errors and how many dB the C/N ratio
may be degraded before reaching the reception limit
(Fig. 6) [23], [25].
In (Fig. 6), C/N ration are on the horizontal axis,
and BER measurements are on the vertical axis, using
Pesquisas em ambientes digitais - TV Internet Radio Cinema
Revista de Radiodifuso v. 07 n. 08 2013 21
MTRICA SEM REFERNCIA BASEADA EM REDES NEURAIS
PARA AVALIAO OBJETIVA DE QUALIDADE DE VDEO DIGITAL
Wyllian Bezerra da Silva, Alexandre de Almeida Prado Pohl
Programa de Ps-Graduao em Engenharia Eltrica e Informtica Industrial (CPGEI) UTFPR, Curitiba, Brasil
wyllianbs@gmail.com, pohl@utfpr.edu.br
Resumo: Este trabalho apresenta uma mtrica sem referncia para avaliao de qualidade de vdeo digital baseada em uma rede neural artifcial que usa uma verso estendida do algoritmo de aprendizado ELM (Extreme Learning Machine). O mtodo proposto realiza o treinamento da rede neural a partir de seis caractersticas espao-temporais. Os resultados experimentais mostram que o mtodo proposto apresenta desempenho superior s mtricas de referncia completa PSNR e MS-SSIM na tarefa de predio de qualidade de vdeo. Logo, o mtodo proposto pode ser usado no monitoramento de qualidade em sistemas de transmisso e recepo de vdeo digital, tais como IPTV e TV digital.
Palavras chave: algoritmo ELM, avaliao objetiva de vdeo, mtrica sem referncia, rede neural artifcial.
1. INTRODUO
Durante os ltimos anos, a literatura tem apresentado um nmero crescente publicaes acerca de mtricas objetivas para avaliao de qualidade de vdeo para diversas aplicaes em radiodifuso ou no processamento de vdeo digital, seja na aquisio do sinal, codifcao e decodifcao, compresso, transmisso, restaurao, armazenamento, segmentao e exibio de sinais de vdeo digital [14]. A avaliao de qualidade de vdeo digital pode ser realizada por meio de mtricas subjetiva e objetiva. A primeira requer uma grande quantidade de recursos humanos e apresenta elevado custo em sua implementao [13]. Porm, as mtricas objetivas so vantajosas quando apresentam um determinado grau de correlao com as mtricas subjetivas. Logo, o desenvolvimento destas um desafo no campo de avaliao de qualidade de vdeo e imagem. Alm disso, as mtricas objetivas, devido natureza de seu critrio objetivo, independem de interao humana e so facilmente reprodutveis [3]. Dentre as mtricas objetivas destacam-se as mtricas sem referncia (No-Reference NR), pois no necessitam do vdeo de referncia no clculo de sua medida. Entretanto, estas requerem um conhecimento a priori sobre as distores em vdeo digital para que seja estabelecida uma correlao com os resultados subjetivos [3].
A maioria das mtricas NR encontradas na literatura so baseadas na avaliao de qualidade de imagens e em caractersticas relacionadas ao Sistema Visual Humano (SVH). Assim, o desenvolvimento de mtricas NR difcil, devido necessidade de emular a percepo do SVH que envolve aspectos cognitivos, emocionais e estticos relacionados ao contedo do vdeo e que so altamente dependentes do observador [4], [5].
A literatura reporta diversos esforos no desenvolvimento de mtricas para avaliao de qualidade de vdeo baseadas em redes neurais e em algoritmos de aprendizado. Babu et al. [6] apresentam uma mtrica para avaliar a qualidade de imagens comprimidas em JPEG (Joint Photographic Experts Group) por meio de um algoritmo de aprendizado de crescimento e propem o uso de uma rede neural GAP-RBF (Growing and Pruning Radial Basis Function) que usa caractersticas relacionadas ao SVH. Jiang et al. [7] desenvolveram uma mtrica NR para avaliao de qualidade de vdeo em HD (High Defnition) baseada em uma rede neural treinada pelo algoritmo BP (Back-Propagation) que usa seis caractersticas espao-temporais e a RoI (Region of Interest). Choe et al. [8] desenvolveram uma mtrica NR baseada no fuxo de bits para avaliao de qualidade de vdeo codifcado em H.264. Esta mtrica extrai caractersticas quadro a quadro e usa uma rede neural alimentada adiante (feedforward) com trs camadas. Suresh et al. [9] apresentaram uma extenso do algoritmo ELM na tarefa de avaliar a qualidade de imagens comprimidas em JPEG com base no esquema de seleo mltipla KS-ELM (K-fold selection Scheme using ELM) e no algoritmo RCGA-ELM (Real-Coded Genetic Algorithm using ELM) para seleo dos pesos de entrada e polarizaes.
Este trabalho apresenta uma verso estendida do algoritmo ELM para redes neurais SLFN (Single-hidden-Layer Feedforward Neural Networks) que implementa um simples critrio de parada na fase de treinamento. Alm disso, esse mtodo usa seis caractersticas espao-temporais de vdeos submetidos a diversas condies de distoro.
Este artigo est dividido da seguinte maneira: a Seo 2 descreve as mtricas para avaliao de qualidade de vdeo. A Seo 3 descreve o mtodo NR proposto para avalio de qualidade de vdeo digital. A Seo 4 apresenta os resultados experimentais, em que so comparados o mtodo NR proposto e duas mtricas FR. Finalmente, a Seo 5 apresenta a concluso do artigo.
2. AVALIAO DE QUALIDADE DE VDEO
O processo de avaliao de qualidade de vdeo
pode ser realizado com a aplicao de mtricas
subjetivas ou objetivas. As mtricas subjetivas
estimam a qualidade do vdeo por meio de avaliadores
humanos. Logo, exigem um alto custo, pois
necessitam de uma grande quantidade de recursos
humanos e apresentam problemas quanto aos
requisitos de imparcialidade e reprodutibilidade,
tornando-se inapropriadas em sistemas de
radiodifuso ou em provedores de contedo [10], [11].
Por outro lado, as mtricas objetivas so baseadas em
modelos matemticos, cujo objetivo produzir um
escore de qualidade que emule a percepo do SVH.
Alm disso, as mtricas objetivas requerem baixo
custo de implementao (quando comparadas com as
mtricas subjetivas) e no apresentam problemas
quanto reprodutibilidade e imparcialidade.
As mtricas objetivas para avaliao de qualidade
de vdeo podem ser classifcadas em trs categorias:
(i) mtricas de referncia completa (Full-Reference
FR); (ii) mtricas de referncia reduzida (Reduced-
Reference RR); (iii) mtricas sem referncia (NR).
2.1. Mtricas FR
As mtricas FR requerem o vdeo de referncia
(fonte) no clculo do escore de qualidade. Estas
mtricas so amplamente utilizadas no processo de
validao de mtricas RR ou NR, por meio da
comparao de desempenho defnida pelas
recomendaes do Grupo de Especialistas em
Qualidade de Vdeo (VQEG Video Quality Experts
Group) que um rgo de padronizao internacional
de mtricas subjetivas e objetivas de qualidade de
vdeo. Dentre as mtricas FR, destacam-se o PSNR
(Peak Signal-to-Noise Ratio), SSIM (Structural
SIMilarity index) [12] e MS-SSIM (Multi-Scale
Structural SIMilarity index) [13].
O PSNR uma mtrica FR baseada no erro pixel a
pixel de fcil implementao. Entretanto, apresenta
baixa correlao com o SVH [14]. A sua medida
processada sobre o erro quadro a quadro, i.e., entre o
quadro original x e o quadro y . A expresso a seguir
defne o PSNR para um conjunto de quadros F .
20
1
1
PSNR 20log ,
F
f
f f
v
F MSE



(1)
com

2
0 0
1
MSE , , , , ,
N M
f
i j
x f i j y f i j
NM

(2)
em que o termo f v igual a (2 1) k , cujo k o
nmero de bits por pixel, i.e., a componente de
luminncia do quadro f . Os termos x f ,i, j e
y f ,i, j so os valores de luminncia do quadro de
origem e degradado, respectivamente. As
componentes bidimensionais so representadas pelo
nmero de colunas N e pelo nmero de linhas M . O
termo f MSE defnido como erro quadrtico mdio
ou MSE (Mean Square Error).
A mtrica SSIM baseia-se no fato de que o SVH
fortemente adaptado para extrair informaes das
caractersticas estruturais de um quadro ou imagem.
Logo, uma medida de similaridade estrutural (ou
distoro) pode prover boa aproximao para a
qualidade perceptual de um vdeo [3, 79]. Sejam x e
y dois sinais no-negativos, em que y o sinal
degradado e x o sinal original (sem perda de
qualidade), a medida de similaridade utilizada como
um ndice quantitativo de qualidade do sinal distorcido,
ou seja, x tomado como a referncia para medir a
qualidade de y . A mtrica SSIM possui diversas
extenses, dentre as quais a verso MS-SSIM,
proposta por Wang et al. [13] que assume uma
abordagem multiescalar.
2.2. Mtricas RR
As mtricas de referncia reduzida retiram certa
quantidade de caractersticas do vdeo original (fonte),
baseadas em componentes espaciais, temporais, no
domnio da frequncia ou no fuxo de bits (bitstream).
Este tipo de mtrica amplamente utilizada no
monitoramento de transmisses em rede [17]. Neste
tipo de cenrio de aplicao, o vdeo transmitido
com uma sequncia de informao codifcada
(overhead) e no lado receptor ocorre a sua
decodifcao, seguido pelo clculo do ndice de
qualidade, o qual obtido por meio da comparao
entre a representao reduzida da informao nos
pares emissor e receptor [18]. Tipicamente, mtricas
RR so implementadas por meio de funes, divididas
em duas etapas [19]: (i) clculo do erro entre os
vdeos original e distorcido, constitudo pela diferena
de suas caractersticas, a fm de compor a
representao reduzida da informao; (ii) funo que
agrupa os erros ou diferenas para obter um ndice de
qualidade global. Algumas mtricas RR exploram
propriedades dos artefatos, por meio da extrao de
caractersticas e um modelo de parametrizao [20]
com foco em tipos especfcos de distores
(artefatos). Esta abordagem encontrada em Silva et
al. [17], cujo clculo do escore de qualidade
baseado na diferena de atividade dos coefcientes
DCT (Discrete Cosine Transform) em um macro bloco
com resoluo de 1616 pixels.
2.3. Mtricas NR
As mtricas NR extraem caractersticas
relacionadas ao SVH do vdeo distorcido, i.e., na
recepo do sinal de vdeo [14]. Tipicamente, h duas
abordagens no desenvolvimento destas mtricas: (i)
extrao dos parmetros sobre o fuxo de bits, tais
como a taxa de compresso, informaes
relacionadas ao GoP (Group of Pictures), estimao
de movimento, perfl e nvel de codifcao, bem como
o parmetro de quantizao ou QP (Quantization
Parameter) [2125]. Mtricas NR apresentam maior
complexidade quando so aplicadas em vdeo, devido
variao temporal dos quadros, contedos das
cenas e difculdade de compreenso das
caractersticas do SVH [26]. Assim, algumas mtricas
dessa categoria exploram caractersticas espaciais e
temporais na estimao de qualidade de vdeo [21].
3. MTODO PROPOSTO
O mtodo proposto, denominado NRVQA-ELMtc
(No-Reference Video Quality Assessment using
Extreme Learning Machine algorithm with termination
criteria) [27] combina caractersticas espaciais e
temporais, por meio de uma rede neural artifcial
SLFNs usando o algoritmo de treinamento ELM [28]
com a implementao de um simples critrio de
parada.
3.1. Caractersticas espao-temporais
As caractersticas espaciais incorporadas no
mtodo proposto so baseadas em medidas de
artefatos em vdeo digital, i.e., distores de blocagem
e borramento desenvolvidas por Wang et al. [20].
Assim, a componente de luminncia do quadro f
representada por y(f , i, j ) com i 1,M e j 1, N ,
em que M e N so os nmeros de linhas e colunas,
respectivamente, de um quadro. Logo, as diferenas
de luminncia ao longo das linhas e colunas so
representadas, respectivamente, pelas expresses a
seguir.


, , , , 1 , , , 1, 1 ,
, , , 1, , , , 1, 1 .
h
v
d f i j y f i j y f i j j N
d f i j y f i j y f i j i M


(3)
O efeito de blocagem pode ser estimado pela
mdia das diferenas entre as bordas dos blocos da
DCT (Discrete Cosine Transform) nas direes
horizontal e vertical para uma sequncia F de
quadros, conforme mostra a Equao (4), com um
macrobloco de dimenso , cujo tamanho tpico
de 8 [20].


1
1
1 1 1
1
1
1 1 1
1
, , 1 ,
1
1
1
, 1 , .
1
1
N
F M
h h
f i j
M
F N
v
i j
v
f
B d f i j
N
F M
B d f i j
M
F N












(4)
A medida de blocagem em uma sequncia de
vdeo com F quadros determinada pela mdia entre
h B e v B , caracterizando a medida B , conforme a
expresso a seguir.
.
2
h v B B
B

(5)
Os efeitos de borramento so estimados pelo
clculo da reduo de atividade entre os blocos ,
em que usada a medida de blocagem nas direes
horizontal e vertical, conforme as expresses




1
1 1 1
1
1 1 1
, , ,
1 1
, ,
1
.
1
F M N
h h h
f i j
F M N
v v
f
v
i j
A d f i j B
F M N
A d f i j B
F N M








(6)
A medida de borramento, representada por A ,
conforme a Equao (7), determinada pela mdia
entre h A e v A .
.
2
h v A A
A

(7)
O segundo fator que contribui para a deteco do
artefato de borramento baseado na taxa de
cruzamento por zero (Zero Crossing ZC) nas
direes horizontal e vertical, conforme as expresses
a seguir.




2
1 1 1
2
1 1 1
1
, , ,
2
1
, , ,
2
F M N
h h
f i j
F M N
v v
f i j
Z z f i j
F M N
Z z f i j
F N M




(8)
em que os termos h z e v z so determinados por


1, na direo horizontal
, , ,
0, caso contrrio
1, na direo vertical
, , .
0, caso contrrio
h
v
z f i j
z f i j



(9)
Assim, a medida de borramento Z determinada
pela mdia entre as componentes h Z e v Z .
.
2
h v Z Z
Z

(10)
O mtodo proposto tambm incorpora trs
caractersticas temporais no treinamento da rede
neural SLFN com o algoritmo ELM.
A primeira caracterstica temporal a diferena de
movimento entre quadros adjacentes, representada
pela varivel TI (Temporal perceptual Information) [31]
que considera os valores de luminncia de pixels
localizados em uma mesma regio de um quadro,
conforme a expresso a seguir.

2
1
, , ,
1
F
f
TI m f i j
F


(11)
em que o nmero total de quadros F e mf ,i, j

o desvio padro da diferena de movimento
(diferena de luminncia) entre o quadro atual
y f ,i, j e o quadro anterior y f 1,i, j .
A segunda caracterstica temporal a mdia da
diferena absoluta (Mean Absolute Diference MAD)
[31] entre quadros sucessivos, representada pela
Equao (12) que defne a medida global da MAD
para todos os quadros de um vdeo.


2 1 1
1
, , 1, , .
1
F M N
f i j
MAD y f i j y f i j
M N F



(12)
A terceira caracterstica temporal a mdia da
diferena absoluta ponderada (weighted Mean
Absolute Diference MADw) [32], a qual mede o grau
de variao das cenas de um vdeo que considera a
cena atual de um quadro f e do quadro anterior f 1,
conforme a expresso:
2 1
1
.
1
F
f
f f
MAD
MADw
F MAD


(13)
Assim, o mtodo proposto combina as
caractersticas espaciais e temporais em uma matriz
, , , , , f f f f f f f x A B Z TI MAD MADw , em que f o
nmero de amostras de vdeo. A Figura 1 apresenta
as caractersticas temporais espaciais de dezessete
bases de dados de vdeos (denominada superconjunto
S) usadas neste trabalho e reportadas em [27]. A
recomendao ITU-T P.910 [31] defne a medida SI
(Spatial perceptual Information) como informao
espacial perceptual. A inspeo visual dessa fgura
mostra que as amostras de vdeo usadas neste
trabalho apresentam uma grande variao espaotemporal.
Fig. 1. Caractersticas espaciais e temporais do superconjunto
S com 216 amostras de referncia
3.2. Mtrica NRVQA-ELMtc
O algoritmo ELM [28] desenvolvido para o
treinamento de uma rede SLFN atribui pesos e
polarizaes (biases) de maneira aleatria, segundo
uma distribuio uniforme. O treinamento compreende
N amostras distintas representadas pela varivel
, , , 1, , n m
f f f f x t x t f N , cujo clculo
conforme a expresso

1
, 1, , ,
K
K i j j f j f
f
f g b f N

x w x o (14)
em que f o a sada (escore objetivo), g(x) a
funo de ativao e j o peso que conecta o jsimo
neurnio da camada oculta ao neurnio de
sada. De acordo com [28], uma rede SLFN com K
ns na camada oculta e uma funo de ativao g(x)
pode apresentar um erro mdio prximo de zero, i.e.,
1
0
K
f f
f
o t . Logo, h parmetros j , j w e j b tal
que

1
, 1, , ,
K
j j f j f
f
g b f N

w x t (15)
em que f t o vetor alvo (escores subjetivos),
T
1, , j j jn w w w o vetor de peso que conecta o jsimo
neurnio da camada oculta ao neurnio da
camada de entrada, j b denota a polarizao (bias) do
j-simo neurnio da camada oculta, j f w x o
produto interno de j w e f x . A Figura 2 ilustra o
algoritmo ELM empregado em uma arquitetura de
rede neural SLFN.
xi
1
j
N
1
j
K
ti
bj
N input neuron K hidden neuron output neuron
1
K
wj
Fig. 2. Arquitetura de uma rede neural SLFN usando algoritmo
de treinamento ELM
O sistema linear da Equao (16) resume o mtodo
do algoritmo ELM.
H T, (16)
em que a matriz da camada oculta representada por
1, , and 1, , f H h f N j K com a primeira
linha da matriz de caractersticas f x igual a
T
1 2 , , , f f f fn x x x x , i.e., a primeira linha igual a
1 1 1 1 1 1 1 , , , , , f f f f f f f x A B Z TI MAD MADw . A matriz de
sada e o vetor alvo (target) so defnidos como
T
1 , K e
T
1, , N T t t , respectivamente. O
termo
T
1 , 1, , j jm j j K denota o vetor de
peso que conecta o j-simo neurnio da camada
oculta e os neurnios de sada. Hung et al. [28]
propuseram a atribuio aleatria de pesos aos
parmetros j w e j b , a fm de seja obtido um pequeno
erro no-nulo durante o treinamento. Considerando o
sistema linear da Equao (17), os pesos da camada
de sada podem ser aproximados por
H T (17)
em que H defnida como matriz inversa
generalizada de Moore-Penrose (MP) [33] da matriz
de sada da camada oculta H . Alm disso, o
conjunto de treinamento , n oculta K e uma
funo de ativao g x , e.g., funo de base radial
(Radial Basis Function RBF), hard-limiting (hardlim),
sigmoidal (sig) e seno (sin). Em resumo, o algoritmo
ELM compreende trs etapas [28]:
i) Atribuio aleatria dos pesos de entrada j w e
polarizaes j b ;
ii) Clculo da matriz da camada de sada H ;
iii) Clculo dos pesos de sada : H T .
O mtodo NRVQA-ELMtc [27] implementa um
simples critrio de parada no treinamento da rede
neural SLFN, quanto atribuio aleatria dos pesos
j w e j b . Embora este critrio no seja direcionado,
busca os pesos relacionados com o menor RMSE
(Root-Mean-Square Error) entre a sada desejada
(escore subjetivo) e o escore objetivo na fase de
treinamento com k iteraes (tipicamente, k 100 ) e
N neurnios na camada oculta. Alm disso, conforme
estudo realizado em [27], caso o RMSE seja menor do
que 0,5 o algoritmo cessa a busca pelos parmetros
j w e j b .
4. RESULTADOS EXPERIMENTAIS
Esta seo apresenta os resultados de acurcia,
i.e., os coefcientes de correlao linear de Pearson
(Pearson Linear Correlation Coefcient PLCC) [34],
[35], entre os escores objetivos e subjetivos de 2627
amostras de vdeo estudadas em [27].
A Figura 3 compara a acurcia (PLCC) entre as
mtricas de referncia completa (FR) PSNR e MSSSIM
com o mtodo proposto (NRVQA-ELMtc) para
as 2627 amostras de vdeo, pertencentes a 17 bases
de dados de vdeo disponibilizadas por diversas
instituies e laboratrios [27]. A funo de ativao
usada na rede neural SLFN foi o seno (sin) com o
nmero de amostras de teste igual ao nmero de
neurnios na camada oculta ( N ). O mtodo de
validao cruzada mltipla (K-fold) foi usado com o
objetivo de gerar uma distribuio de acurcia, a qual
foi analisada por meio do diagrama de caixa (box-plot)
[36], em que o trao, o crculo e o quadrado, ambos
em vermelho, representam a mediana, a mdia e o
desvio padro, respectivamente. Destaca-se que
neste trabalho foi empregada uma validao cruzada
com um grande nmero de amostras de treinamentoteste
com K 100 , i.e., cada caixa do box-plot
comporta 100 experimentos distintos. Tipicamente, a
literatura apresenta trabalhos no campo da avaliao
Fig. 3. Box-plot da predio da acurcia (PLCC) entre as mtricas PSNR, MS-SSIM e o mtodo proposto NRVQA-ELMtc
de qualidade de vdeo com K entre 5 e 10 [37], [38].
Pela inspeo visual da Figura 3 observa-se que o
desempenho do mtodo proposto superior s
mtricas FR, em quaisquer condies de teste, i.e.,
para qualquer quantidade de amostras de teste
(nmero de neurnios na camada oculta) entre 25 e
500. Em especial, para N 50 , o mtodo proposto
apresenta valores de PLCC, em termos da mdia e
mediana, acima de 0,8, denotando uma forte
associao entre os escores objetivos e subjetivos, na
tarefa de predio de qualidade de vdeo. Isto ocorre
devido grande quantidade de amostras de vdeo
usadas no treinamento, e.g., para N 300 foram
usadas 2327 amostras de treinamento, ou seja,
mesmo usando pares de treinamento-teste disjuntos,
o mtodo proposto mostra uma acurcia superior s
mtricas de referncia completa. A assimetria positiva,
i.e., a maior concentrao da acurcia entre o
segundo quartil (mediana) e o terceiro quartil, na
distribuio do box-plot nos testes com 300 e 500
neurnios na camada oculta, indica que o mtodo
proposto apresenta um desempenho expressivo em
comparao com as mtricas FR.
Entretanto, mesmo para N entre 25 e 50, o
mtodo proposto apresentou uma acurcia maior do
que as mtricas FR, cujo melhor resultado foi para
N 25 com o desvio-quartil (amplitude interquartlica)
confnado entre 0,65 e 0,8. Alm disso, este resultado
tambm apresentou assimetria positiva com a mdia
do PLCC em torno de 0,75.
5. CONCLUSO
Este trabalho apresentou uma mtrica NR baseada
em uma rede neural artifcial SLFN, cujo treinamento
determinado pelo algoritmo ELM, o qual considera
caractersticas espao-temporais e os escores
subjetivos (alvos) extrados de 2627 amostras
treinamento. Alm disso, este trabalho prope uma
extenso do algoritmo ELM por meio de um simples
critrio de parada, a fm de que sejam obtidos
parmetros da rede neural artifcial relacionados com
o menor RMSE. Tipicamente, a comparao entre
mtricas FR e NR injusta, devido ausncia do
vdeo de referncia na obteno do escore de
qualidade em mtricas NR. Entretanto, os resultados
experimentais mostram que o mtodo proposto
apresentou desempenho superior s mtricas de
referncia completa PSNR e MS-SSIM, sobretudo,
quando o nmero de amostras de teste e de neurnios
na camada oculta da rede SLFN maior do que 250.
Logo, a mtrica NRVQA-ELMtc pode ser empregada
no monitoramento de qualidade em sistemas de
transmisso e recepo de vdeo digital, tais como
IPTV (Internet Protocol Television), TV digital ou em
dispositivos mveis, tais como ultrabooks,
smartphones, tablets e em aparelhos WiDi (Wireless
Display).
REFERNCIAS
[1] S. Winkler, Issues in vision modeling for perceptual
video quality assessment, Signal Processing, vol. 78,
no. 2, pp. 231252, 1999.
[2] Z. Wang and A. C. Bovik, Modern image quality
assessment. San Rafael, CA: Morgan & Claypool,
2006.
[3] W. Lin and C.-C. Jay Kuo, Perceptual visual quality
metrics: A survey, Journal of Visual Communication
and Image Representation, vol. 22, no. 4, pp. 297312,
May 2011.
[4] S. S. Hemami and A. R. Reibman, No-reference image
and video quality estimation: Applications and humanmotivated
design, Signal Processing: Image
Communication, vol. 25, no. 7, pp. 469481, 2010.
[5] Z. Wang and A. Bovik, Reduced- and No-Reference
Image Quality Assessment, IEEE Signal Processing
Magazine, vol. 28, no. 6, pp. 2940, Nov. 2011.
[6] R. V. Babu, S. Suresh, and A. Perkis, No-reference
JPEG-image quality assessment using GAP-RBF,
Signal Processing, vol. 87, no. 6, pp. 14931503, 2007.
[7] X. Jiang, F. Meng, J. Xu, and W. Zhou, No-Reference
Perceptual Video Quality Measurement for High
Defnition Videos Based on an Artifcial Neural
Network, in Computer and Electrical Engineering,
2008. ICCEE 2008. International Conference on, 2008,
pp. 424427.
[8] J. Choe, K. Lee, C. Lee, and S. Korea, No-reference
video quality measurement using neural networks, in
2009 16th International Conference on Digital Signal
Processing, 2009, pp. 14.
[9] S. Suresh, R. Venkatesh Babu, and H. J. Kim, Noreference
image quality assessment using modifed
extreme learning machine classifer, Applied Soft
Computing, vol. 9, no. 2, pp. 541552, Mar. 2009.
[10] A. M. Eskicioglu and P. S. Fisher, Image quality
measures and their performance, IEEE Transactions
on Communications, vol. 43, no. 12, pp. 29592965,
1995.
[11] U. Engelke and H.-J. Zepernick, Perceptual-based
Quality Metrics for Image and Video Services: A
Survey, in Proceedings EuroNGI Conf. Next
Generation Internet Networks, 2007, pp. 190197.
[12] Z. Wang, A. C. Bovik, H. R. Sheikh, and E. P
Simoncelli, Image quality assessment: from error
visibility to structural similarity., IEEE Transactions on
Image Processing, vol. 13, no. 4, pp. 600612, 2004.
[13] Z. Wang, E. P. Simoncelli, and A. C. Bovik, Multiscale
structural similarity for image quality assessment, in
The Thrity-Seventh Asilomar Conference on Signals,
Systems & Computers, 2003, 2003, vol. 2, no. 1, pp.
13981402.
[14] H. R. Wu, K. R. Rao, and A. A. Kassim, Digital Video
Image Quality and Perceptual Coding, Journal of
Electronic Imaging, vol. 16, no. 3, 2007.
[15] Z. Wang and A. C. Bovik, A universal image quality
index, IEEE Signal Processing Letters, vol. 9, no. 3,
pp. 8184, Mar. 2002.
[16] Y. Shi, Y. Ding, R. Zhang, and J. Li, Structure and Hue
Similarity for Color Image Quality Assessment, in 2009
International Conference on Electronic Computer
Technology, 2009, pp. 329333.
[17] W. B. Silva, A. A. P. Pohl, and K. V. O. Fonseca, A
Reduced-Reference Video Quality Assessment Method
based on the Activity-Diference of DCT Coefcients,
IEICE Transactions on Information and Systems, vol. E96-D, no. 3, 2013.
[18] P. Le Callet, C. Viard-Gaudin, and D. Barba, A Convolutional Neural Network Approach for Objective Video Quality Assessment, IEEE Transactions on Neural Networks, vol. 17, no. 5, pp. 13161327, 2006.
[19] P. Le Callet and D. Barba, Image Quality Assessment: From Sites Errors to a Global Appreciation of Quality, in Proceedings of the Picture Coding Sympsium, 2001, pp. 105108.
[20] M. Miyahara, K. Kotani, and V. R. Algazi, Objective picture quality scale (PQS) for image coding, IEEE Transactions on Communications, vol. 46, no. 9, pp. 12151226, 1998.
[21] M. Slanina, V. Ricny, and R. Forchheimer, A Novel Metric for H.264/AVC No-Reference Quality Assessment, in 14th International Workshop on Systems, Signals and Image Processing and 6th EURASIP Conference focused on Speech and Image Processing, Multimedia Communications and Services, 2007, pp. 114117.
[22] O. Sugimoto, S. Naito, S. Sakazawa, and A. Koike, Objective perceptual video quality measurement method based on hybrid no reference framework, in 16th IEEE International Conference on Image Processing (ICIP09), 2009, pp. 22372240.
[23] T. Oelbaum, C. Keimel, and K. Diepold, Rule-Based No-Reference Video Quality Evaluation Using Additionally Coded Videos, IEEE Journal of Selected Topics in Signal Processing, vol. 3, no. 2, pp. 294303, 2009.
[24] N. Staelens, N. Vercammen, Y. Dhondt, B. Vermeulen, P. Lambert, R. de Walle, and P. Demeester, ViQID: A No-Reference bit stream-based visual quality impairment detector, in Proceedings of the Second Int Quality of Multimedia Experience (QoMEX) Workshop, 2010, pp. 206211.
[25] F. Yang, S. Wan, Q. Xie, and H. R. Wu, No-Reference Quality Assessment for Networked Video via Primary Analysis of Bit Stream, IEEE Transactions on Circuits and Systems for Video Technology, vol. 20, no. 11, pp. 15441554, Nov. 2010.
[26] Z. Wang, H. R. Sheikh, and A. C. Bovik, Objective Video Quality Assessment, in The Handbook of Video Databases: Design and Applications, B. Furht and O. Marques, Eds. Boca Raton, FL, USA: CRC Press, 2003, pp. 10411078.
[27] W. B. da Silva and A. de A. P. Pohl, Mtodos Sem Referncia Baseados em Caractersticas Espao-Temporais para Avaliao Objetiva de Qualidade de Vdeo Digital, Universidade Tecnolgica Federal do Paran (UTFPR), 2013.
[28] G.-B. Huang, Q.-Y. Zhu, and C.-K. Siew, Extreme learning machine: Theory and applications, Neurocomputing, vol. 70, no. 13, pp. 489501, Dec. 2006.
[29] Z. Wang, H. R. Sheikh, and A. C. Bovik, No-reference perceptual quality assessment of JPEG compressed images, in Image Processing. 2002. Proceedings. IEEE International Conference on Image Processing, 2002, vol. 1, pp. vol.1 I477 I480.
[30] W. B. Silva and A. A. P. Pohl, No-Reference Video Quality Assessment Method based on the Levenberg-Marquardt Minimization, in XXX Brazilian Symposium on Telecommunications (SBrT12), 2012.
[31] ITU-T P.910, Subjective video quality assessment methods for multimedia applications, Standardization Sector of ITU, 1999.
[32] W. Ding, Y. Tong, Q. Zhang, and D. Yang, Image and Video Quality Assessment Using Neural Network and SVM, Tsinghua Science & Technology, vol. 13, no. 1, pp. 112116, 2008.
[33] K. S. Banerjee, C. R. Rao, and S. K. Mitra, Generalized Inverse of Matrices and Its Applications, Technometrics, vol. 15, no. 1, p. 197, Feb. 1973.
[34] VQEG, Final report from the video quality experts group on the validation of reduced-reference and no-reference objective models for standard defnition television, Phase I, 2009.
[35] VQEG, Report on the validation of video quality models for high defnition video content, 2010.
[36] J. W. Tukey, Exploratory Data Analysis. New York: Addison-Wesley Publishing Company, 1977.
[37] P. Gastaldo and R. Zunino, Neural networks for the no-reference assessment of perceived quality, J. Electronic Imaging, vol. 14, no. 3, p. 033004, 2005.
[38] R. Herzog, M. adk, T. O. Aydn, K. I. Kim, K. Myszkowski, and H.-P. Seidel, NoRM: No-Reference Image Quality Metric for Realistic Image Synthesis, Comp. Graph. Forum, vol. 31, no. 2pt4, pp. 545554, 2012.

Fig. 5. Test Sites in Tsabong

Table 10. Results of Field Tests at Tsabong
Site Location
DBA
[Km]
Signal
Level
[dBm]
C/N
[dB]
BER Grade
1 BDFCamp 0.60 -47.8 24.6 0.00E+00 5
2 Mokha 4.48 -67.7 21.5 3.00E-06 5
3 Tsabon M. 2.60 -47.7 24.5 0.00E+00 5
4 Logaganeng 12.30 -61.5 26 0.00E+00 5
5 - 6.87 -52.8 24.7 0.00E+00 5
6 Maleshe 15.80 -72.0 21.9 4.00E-06 5
7 MacCathy 26.10 -78.7 17.8 8.60E-04 3

Table 11. Fixed Service Availability
Grade Gaborone Mahalapye Maun Tsabong Total
5 70.59% 100.00% 90.00% 85.71% 82.93%
3 5.88% 0.00% 10.00% 14.29% 7.32%
1 5.88% 0.00% 0.00% 0.00% 2.44%
0 17.65% 0.00% 0.00% 0.00% 7.32%


Fig. 6. BER x C/N (Comparison of Field and Lab Test)

a logarithmic scale. The values above the points
represent the grades. In the figure, the curve
represents the laboratory tests, performed in a
controlled environment, completely immune from
external interferences. From these results, it was
observed that for C/N ration above 17.5 dB, no errors
are seen at the receiver. Based on the field tests, C/N
ration below 15 dB obtained a grade of 0. These
values were discarded. C/N ration between 17 dB and
18.5 dB obtained grades of 3 or 1. C/N ration above
18.7 dB obtained a grade of 5.
5. DTV FIELD TEST ANALYSIS
With ISDB-T
B
, the minimum C/N ration at the
receiver in the tests was 17.9 dB (BER = 2.0E-4,
before Reed Solomon coding), as characterized in the
laboratory. Furthermore, the minimum field intensity for
fixed reception was Pmin = -80 dBm. However, it is
worth mentioning that this minimum C/N ration (17.9
dB) was obtained from subjective evaluations of video
quality, QEF, under controlled conditions, without
multipath interference. In the field tests, the threshold
C/N ration may be higher [10], [23] and [25]. The C/N
ration is an important factor for satisfactory reception
(Fig. 6). The majority of test sites had the possibility of
perfect reception when the C/N ratio was greater than
17.9 dB, the receiver protection ratio threshold.
However, high C/N ration do not guarantee good
reception. For example, a DTV receiver may fail when
there is multipath interference. This is demonstrated by
the existence of error in the reception signal at two test
sites with C/N ratios greater than 17.9 dB.
The results for Mahalapye, Maun and Tsabong,
which are shown in Table XI, are better than those for
Gaborone because echoes are generally found in
urban areas, where there is no direct line-of-sight
without physical obstruction to the transmission tower
from the reception location [10]. The effect of echoes
can be seen at three test sites (1, 5 and 7) close to
downtown Gaborone, 10 km from transmission tower.
Test site 1 had a power level of -79 dBm, which is
close to the reception threshold, and there was also a
close-in echo with E/C = -4.5 dB, produced by the
surrounding structures; the grade at this site was 0.
Test site 5 had a power level of -78.7 dBm, which is
close to the reception threshold, and there was also a
close-in echo with E/C = -10 dB; the grade at this site
was also 0. Test site 7 had a power level of -78 dBm,
which is within the reception threshold, but there was a
close-in echo with E/C = -10 dB. Its grade was 1, and
its C/N ratio was 18 dB, which is close to the minimum
value. Test sites 12 and 14 in Gaborone were
approximately 15 km from the transmission tower and
also did not obtain adequate reception. Test site 12
had a power level of -81 dBm, which is insufficient
signal intensity, yielding a grade of 0. Test site 14
had a power level of -77.8 dBm, which is within the
reception threshold, but there was an echo with E/C =
-35 dB, and its grade was 3. Its C/N ratio was 17.1
dB, which is less than the minimum value.
Mahalapye had the best performance because it is
a secondary city, and the transmission tower was on a
mountain, with direct line-of-sight to all reception
locations. Thus, the signal intensity ranged from -52
dBm to -71 dBm.
In Maun, test site 5 had a power level of -77.7 dBm,
which is within the reception threshold, but there was a
close-in echo with E/C = -20 dB. Its grade was 3, and
its C/N ratio was 18.5 dB, which is greater than the
minimum value. In Tsabong, test site 7 was 26.1 km
from the transmission tower, and the power level was
-78.7 dBm, which is close to the reception threshold.
Its grade was 3, and its C/N ratio was 17.8 dB, which
is less than the minimum value.
In the field tests, 34 of 41 locations obtained good
reception quality using a monopole antenna. Among
the seven locations with poor reception, two of them
had a C/N ratio greater than 17.9 dB, but the reception
was intermittent. This intermitente reception was due
to distortion of the received signal caused by multipath
interference in addition to the noise. The other five
locations did not have sufficient signal intensity above
the noise level.
5. CONCLUSION
Field tests were performed at 41 location tests in
Botswana for digital TV signal. These tests showed
that the ISDB-T
B
system had a service availability of
82.93% at the test sites. The urban zones have lower
C/N ratios than other locations. Furthermore, in urban
areas, the probability of signal distortion due to
multipath interference is very high and yields a high
probability of poor reception quality. It was verified that
reception quality is determined mainly by the C/N ratio
and signal distortion due to multipath interference.
A digital TV modulation system is chosen based on
how well it can fulfill the particular requirements and
priorities of a country. Additionally, other non-technical
factors, such as geographic, economic and political
relations with neighboring countries, have to be
considered. Each country needs to determine its
needs and then study the available information about
the performance of different systems in order to
choose the best one. On February 26th, 2013,
Botswana adopted the ISDB-T
B
system as its standard
for digital terrestrial TV. Botswana was the first country
in Africa to adopt the ISDB-T
B
system.
ACKNOWLEDGMENT
The authors would like to thank RH-TVD CAPES,
their colleagues at the Mackenzie Digital TV and Radio
Research Centre and Calvin Goiletswe from the
Department of Broadcasting Services of Botswana.
REFERENCES
[1] M.Takada and M.Saito, Transmission system for ISDB-T,
Proc. of the IEEE, vol. 94, no. 1, pp. 251256, Jan. 2006.
[2] Digital terrestrial television - Video coding, audio coding and
multiplexing - Part 1: Video coding, Std. ABNT NBR 15602-1,
12 2007.
[3] Information technology - Coding of audio-visual objects - Part
10: Advanced Video Coding, Std. ISO/IEC 14496-10, 10 2004.
[4] Digital terrestrial television - Video coding, audio coding and
multiplexing - Part 2: Audio coding, Std. ABNT NBR 15602-2,
12 2007.
[5] Coding of audio-visual objects - Part 3: Audio, International
Organization for Standardization (ISO) Std. ISO/IEC 14496-3,
2007.
[6] Digital terrestrial television - Data coding and transmission
specification for digital broadcasting Part 5: Ginga-NCL for
portable receivers - XML application language for application
coding, Std. ABNT NBR 15606-5, 04 2009.
[7] G. Bedicks Jr. et al., Outlines of the brazilian digital terrestrial
television broadcasting system, in 57th annual IEEE
Broadcasting Symposium, Washington, DC, Oct.1st Nov.
2007.
[8] G. Bedicks Jr. et al., Performance evaluation of brazilian DTV
mobile reception, in Broadband Multimedia Systems and
Broadcasting (BMSB). Bilbao, Guatemala: IEEE International
Symposium, May 2009.
[9] Transmission System for Digital Terrestrial Television
Braodcasting, Association of Radio Industries and Businesses
(ARIB) Std. ARIB STD B31, Rev. Version 1.6-E2, 2005.
[10] Y. Wu et al., Comparison of terrestrial DTV transmission
systems: The ATSC 8-VSB, the DVB-T COFDM, and the
ISDB-T BST-OFDM, vol. 46, no. 2, pp. 101113, 2000.
[11] C. Akamine et al., Re-multiplexing ISDB-T BTS into DVB TS
for SFN, vol. 55, no. 4, pp. 802809, 2009.
[12] M. Uehara, Application of MPEG-2 systems to terrestrial
ISDB (ISDB-T), Proc.of the IEEE, vol. 94, no. 1, pp. 261268,
Jan. 2006.
[13] G. Bedicks Jr. et al., Field measurements for ISDB-T
B in the
VHF band, in Broadband Multimedia Systems and
Broadcasting (BMSB), Nuremberg, Jun. 2011.
[14] A. Peled and A. Ruiz, Frequency domain data transmission
using reduced computational complexity algorithms, p. 4,
1980.
[15] Digital terrestrial television - Transmission system, Std. ABNT
NBR 15601, 12 2007.
[16] Digital terrestrial television - Video coding, audio coding and
multiplexing - Part 3: Signal multiplexing systems, Std. ABNT
NBR 15602-3, 12 2007.
[17] Digital terrestrial television - Receivers, Std. ABNT NBR
15604, 122007.
[18] Planning criteria, including protection ratios, for digital
terrestrial television services in the (VHF/UHF) bands,
Radiocommuncation Sector of ITU Std. Recommendation
ITU-R BT.1368-9, Rev. 5.2, 12 2011.
[19] Error-correction, data framing, modulation and emission
methods for digital terrestrial television broadcasting,
Radiocommuncation Sector of ITU Std. Recommendation
ITU-R BT.1306-6, 12 2011.
[20] Methodology for the subjective assessment of the quality of
television pictures, Radiocommuncation Sector of ITU Std.
Recommendation ITU-R BT.500-11, 12 2011.
[21] Unified NorDig Test Specifications, NorDig.
[22] G. Bedicks Jr. et al., Digital signal disturbed by impulsive
noise, vol. 51, pp. 322328, Nov. 2005.
[23] C. -C. Lin, C. -M. Chen, J. -H. Tarng, H. -M. Hang and H.-C.
Yu, Analysis of ATSC field test results in taiwan, vol. 48, no.
1, pp. 3843, 2002.
[24] P. Angueira et al., DTV (COFDM) SFN signal variation field
tests in urban environments for portable outdoor reception,
vol. 49, no. 1, pp.8186, 2003.
[25] P. Angueira et al., DTV reception quality field tests for
portable outdoor reception in a single frequency network, vol.
50, no. 1, pp. 4248, 2004
22 Revista de Radiodifuso v. 07 n. 08 2013
Pesquisas em ambientes digitais - TV Internet Radio Cinema
Pesquisas em ambientes digitais - TV Internet Radio Cinema
Revista de Radiodifuso v. 07 n. 08 2013 23
Anlise Qualitativa de uma Rede SFN
Operando com troca de Canal Virtual
entre as Estaes Retransmissoras
Ramon Maia Borges
ramon_cpa@hotmail.com
24 Revista de Radiodifuso v. 07 n. 08 2013
Pesquisas em ambientes digitais - TV Internet Radio Cinema

Abstract This works presents a investigation about the use of
different virtual channels in a single frequency network.
Practical results demonstrate the possibility of using this
configuration and the penalties involved.
Index Terms: digital TV; SFN; virtual channel; MER; area of
overlap.
O trabalho tem por finalidade investigar o comportamento de
uma rede SFN (Single Frequency Network) dentro do padro
ISDB-T (Integrated Services Digital Broadcasting Terrestrial),
na condio em que as estaes retransmissoras utilizem canais
virtuais distintos.
Resultados prticos demonstram a possibilidade de operao
da rede na situao descrita, assim como as penalidades
decorridas desta configurao.
Palavras-chaves: sistema de TV Digital; SFN; canal virtual;
MER, regio de cobertura.
I. INTRODUO
O servio de broadcasting para televiso digital est em
plena fase de implantao no Brasil. Segundo a Anatel
(Agencia Nacional de Telecomunicaes), em 2011 eram 480
municpios cobertos por pelo menos 1 canal digital, nmero
este deslocado para 508 em 2013 e com grande perspectiva de
crescimento, dada ao prazo de switch off da TV analgica
estabelecido pelo Governo Federal [1], e aos notveis eventos
esportivos que acontecero em breve no Pas. Ainda segundo a
Agncia, a TV mvel estar nas mos de 100 milhes de
brasileiros at a copa de 2014.
A tecnologia de HDTV (High Definition Television) oferece
tima qualidade de imagem e envolve novidades e desafios
para o planejamento de cobertura, j que as reas de
abrangncia dos sinais digitalizados apresentam limites
abruptos e bem definidos. Isto porque para garantir o servio
de alta definio, necessrio que uma relao sinal/rudo
mnima seja mantida. Caso contrrio, o receptor no interpreta
nenhuma informao [2].
Neste cenrio, o uso de estaes retransmissoras operando
em SFN torna-se bastante atraente para ampliar a rea de
cobertura e reforar sinais [3]. Tais redes permitem que
diferentes estaes transmitam simultaneamente a mesma

Artigo Cientfico revisado em 10/10/2013.
Ramon Maia Borges pertence ao laboratrio Wireless and Optical Convergent
Access (WOCA) do Inatel. Av. Joo de Camargo, 510 Santa Rita do
Sapuca Minas Gerais Brasil.
programao operando em uma nica frequncia, com o
intuito de atender uma regio definida de servio. Dentre as
vantagens esto o melhor aproveitamento do espectro
radioeltrico e a diversidade espacial alcanada.
Por outro lado, estas redes envolvem um elevado grau de
complexidade. Para que no ocorram interferncias,
necessrio que todos os elementos da rede estejam em perfeito
sincronismo e que o contedo transmitido seja idntico bit a
bit [4].
O objeto de estudo deste trabalho a avaliao do resultado
obtido quando o canal virtual for alterado em um dos pontos
de transmisso de uma rede SFN.
A seo 2 descreve o ensaio realizado em laboratrio com
transmissores operando em rede de frequncia nica, com e
sem alterao de canal virtual. Na seo 3 os resultados
obtidos so expostos e comentados. O trabalho finalizado
com as concluses relevantes e trabalhos futuros.
II. ENSAIO COM TRANSMISSORES OPERANDO EM SFN
A estruturao bsica de uma rede SFN exige que cada
estao transmissora receba o mesmo sinal e que todos os
elementos da rede estejam referenciados por uma nica base
de tempo [4]. O sinal resultante uma combinao dos sinais
provenientes de cada transmissor, conforme mostra a Figura 1.
A rea apontada como crtica se refere regio onde os
nveis de recepo so iguais ou muito prximos.


Fig. 1: rea coberta pelas estaes A e B.
.
Fundamentado neste conceito, foi construda em laboratrio
a rede SFN descrita pela Figura 2, onde todos os elementos
envolvidos foram sincronizados via GPS (Global Positioning
System). O sinal a ser transmitido foi recebido pelo satlite e
remultiplexado. Os dois transmissores foram configurados de
maneira similar, operando ambos com 30dBm, no canal 20. O
sinal proveniente de cada um deles foi somado, sendo o
resultado entregue a um televisor HD e a um instrumento de
medio. Desta forma, simula-se o pior caso, ou seja, a
Anlise Qualitativa de uma Rede SFN
Operando com troca de Canal Virtual entre as
Estaes Retransmissoras
Ramon Maia Borges
Pesquisas em ambientes digitais - TV Internet Radio Cinema
Revista de Radiodifuso v. 07 n. 08 2013 25
MTRICA SEM REFERNCIA BASEADA EM REDES NEURAIS
PARA AVALIAO OBJETIVA DE QUALIDADE DE VDEO DIGITAL
Wyllian Bezerra da Silva, Alexandre de Almeida Prado Pohl
Programa de Ps-Graduao em Engenharia Eltrica e Informtica Industrial (CPGEI) UTFPR, Curitiba, Brasil
wyllianbs@gmail.com, pohl@utfpr.edu.br
Resumo: Este trabalho apresenta uma mtrica sem referncia para avaliao de qualidade de vdeo digital baseada em uma rede neural artifcial que usa uma verso estendida do algoritmo de aprendizado ELM (Extreme Learning Machine). O mtodo proposto realiza o treinamento da rede neural a partir de seis caractersticas espao-temporais. Os resultados experimentais mostram que o mtodo proposto apresenta desempenho superior s mtricas de referncia completa PSNR e MS-SSIM na tarefa de predio de qualidade de vdeo. Logo, o mtodo proposto pode ser usado no monitoramento de qualidade em sistemas de transmisso e recepo de vdeo digital, tais como IPTV e TV digital.
Palavras chave: algoritmo ELM, avaliao objetiva de vdeo, mtrica sem referncia, rede neural artifcial.
1. INTRODUO
Durante os ltimos anos, a literatura tem apresentado um nmero crescente publicaes acerca de mtricas objetivas para avaliao de qualidade de vdeo para diversas aplicaes em radiodifuso ou no processamento de vdeo digital, seja na aquisio do sinal, codifcao e decodifcao, compresso, transmisso, restaurao, armazenamento, segmentao e exibio de sinais de vdeo digital [14]. A avaliao de qualidade de vdeo digital pode ser realizada por meio de mtricas subjetiva e objetiva. A primeira requer uma grande quantidade de recursos humanos e apresenta elevado custo em sua implementao [13]. Porm, as mtricas objetivas so vantajosas quando apresentam um determinado grau de correlao com as mtricas subjetivas. Logo, o desenvolvimento destas um desafo no campo de avaliao de qualidade de vdeo e imagem. Alm disso, as mtricas objetivas, devido natureza de seu critrio objetivo, independem de interao humana e so facilmente reprodutveis [3]. Dentre as mtricas objetivas destacam-se as mtricas sem referncia (No-Reference NR), pois no necessitam do vdeo de referncia no clculo de sua medida. Entretanto, estas requerem um conhecimento a priori sobre as distores em vdeo digital para que seja estabelecida uma correlao com os resultados subjetivos [3].
A maioria das mtricas NR encontradas na literatura so baseadas na avaliao de qualidade de imagens e em caractersticas relacionadas ao Sistema Visual Humano (SVH). Assim, o desenvolvimento de mtricas NR difcil, devido necessidade de emular a percepo do SVH que envolve aspectos cognitivos, emocionais e estticos relacionados ao contedo do vdeo e que so altamente dependentes do observador [4], [5].
A literatura reporta diversos esforos no desenvolvimento de mtricas para avaliao de qualidade de vdeo baseadas em redes neurais e em algoritmos de aprendizado. Babu et al. [6] apresentam uma mtrica para avaliar a qualidade de imagens comprimidas em JPEG (Joint Photographic Experts Group) por meio de um algoritmo de aprendizado de crescimento e propem o uso de uma rede neural GAP-RBF (Growing and Pruning Radial Basis Function) que usa caractersticas relacionadas ao SVH. Jiang et al. [7] desenvolveram uma mtrica NR para avaliao de qualidade de vdeo em HD (High Defnition) baseada em uma rede neural treinada pelo algoritmo BP (Back-Propagation) que usa seis caractersticas espao-temporais e a RoI (Region of Interest). Choe et al. [8] desenvolveram uma mtrica NR baseada no fuxo de bits para avaliao de qualidade de vdeo codifcado em H.264. Esta mtrica extrai caractersticas quadro a quadro e usa uma rede neural alimentada adiante (feedforward) com trs camadas. Suresh et al. [9] apresentaram uma extenso do algoritmo ELM na tarefa de avaliar a qualidade de imagens comprimidas em JPEG com base no esquema de seleo mltipla KS-ELM (K-fold selection Scheme using ELM) e no algoritmo RCGA-ELM (Real-Coded Genetic Algorithm using ELM) para seleo dos pesos de entrada e polarizaes.
Este trabalho apresenta uma verso estendida do algoritmo ELM para redes neurais SLFN (Single-hidden-Layer Feedforward Neural Networks) que implementa um simples critrio de parada na fase de treinamento. Alm disso, esse mtodo usa seis caractersticas espao-temporais de vdeos submetidos a diversas condies de distoro.
Este artigo est dividido da seguinte maneira: a Seo 2 descreve as mtricas para avaliao de qualidade de vdeo. A Seo 3 descreve o mtodo NR proposto para avalio de qualidade de vdeo digital. A Seo 4 apresenta os resultados experimentais, em que so comparados o mtodo NR proposto e duas mtricas FR. Finalmente, a Seo 5 apresenta a concluso do artigo.
2. AVALIAO DE QUALIDADE DE VDEO
O processo de avaliao de qualidade de vdeo
pode ser realizado com a aplicao de mtricas
subjetivas ou objetivas. As mtricas subjetivas
estimam a qualidade do vdeo por meio de avaliadores
humanos. Logo, exigem um alto custo, pois
necessitam de uma grande quantidade de recursos
humanos e apresentam problemas quanto aos
requisitos de imparcialidade e reprodutibilidade,
tornando-se inapropriadas em sistemas de
radiodifuso ou em provedores de contedo [10], [11].
Por outro lado, as mtricas objetivas so baseadas em
modelos matemticos, cujo objetivo produzir um
escore de qualidade que emule a percepo do SVH.
Alm disso, as mtricas objetivas requerem baixo
custo de implementao (quando comparadas com as
mtricas subjetivas) e no apresentam problemas
quanto reprodutibilidade e imparcialidade.
As mtricas objetivas para avaliao de qualidade
de vdeo podem ser classifcadas em trs categorias:
(i) mtricas de referncia completa (Full-Reference
FR); (ii) mtricas de referncia reduzida (Reduced-
Reference RR); (iii) mtricas sem referncia (NR).
2.1. Mtricas FR
As mtricas FR requerem o vdeo de referncia
(fonte) no clculo do escore de qualidade. Estas
mtricas so amplamente utilizadas no processo de
validao de mtricas RR ou NR, por meio da
comparao de desempenho defnida pelas
recomendaes do Grupo de Especialistas em
Qualidade de Vdeo (VQEG Video Quality Experts
Group) que um rgo de padronizao internacional
de mtricas subjetivas e objetivas de qualidade de
vdeo. Dentre as mtricas FR, destacam-se o PSNR
(Peak Signal-to-Noise Ratio), SSIM (Structural
SIMilarity index) [12] e MS-SSIM (Multi-Scale
Structural SIMilarity index) [13].
O PSNR uma mtrica FR baseada no erro pixel a
pixel de fcil implementao. Entretanto, apresenta
baixa correlao com o SVH [14]. A sua medida
processada sobre o erro quadro a quadro, i.e., entre o
quadro original x e o quadro y . A expresso a seguir
defne o PSNR para um conjunto de quadros F .
20
1
1
PSNR 20log ,
F
f
f f
v
F MSE



(1)
com

2
0 0
1
MSE , , , , ,
N M
f
i j
x f i j y f i j
NM

(2)
em que o termo f v igual a (2 1) k , cujo k o
nmero de bits por pixel, i.e., a componente de
luminncia do quadro f . Os termos x f ,i, j e
y f ,i, j so os valores de luminncia do quadro de
origem e degradado, respectivamente. As
componentes bidimensionais so representadas pelo
nmero de colunas N e pelo nmero de linhas M . O
termo f MSE defnido como erro quadrtico mdio
ou MSE (Mean Square Error).
A mtrica SSIM baseia-se no fato de que o SVH
fortemente adaptado para extrair informaes das
caractersticas estruturais de um quadro ou imagem.
Logo, uma medida de similaridade estrutural (ou
distoro) pode prover boa aproximao para a
qualidade perceptual de um vdeo [3, 79]. Sejam x e
y dois sinais no-negativos, em que y o sinal
degradado e x o sinal original (sem perda de
qualidade), a medida de similaridade utilizada como
um ndice quantitativo de qualidade do sinal distorcido,
ou seja, x tomado como a referncia para medir a
qualidade de y . A mtrica SSIM possui diversas
extenses, dentre as quais a verso MS-SSIM,
proposta por Wang et al. [13] que assume uma
abordagem multiescalar.
2.2. Mtricas RR
As mtricas de referncia reduzida retiram certa
quantidade de caractersticas do vdeo original (fonte),
baseadas em componentes espaciais, temporais, no
domnio da frequncia ou no fuxo de bits (bitstream).
Este tipo de mtrica amplamente utilizada no
monitoramento de transmisses em rede [17]. Neste
tipo de cenrio de aplicao, o vdeo transmitido
com uma sequncia de informao codifcada
(overhead) e no lado receptor ocorre a sua
decodifcao, seguido pelo clculo do ndice de
qualidade, o qual obtido por meio da comparao
entre a representao reduzida da informao nos
pares emissor e receptor [18]. Tipicamente, mtricas
RR so implementadas por meio de funes, divididas
em duas etapas [19]: (i) clculo do erro entre os
vdeos original e distorcido, constitudo pela diferena
de suas caractersticas, a fm de compor a
representao reduzida da informao; (ii) funo que
agrupa os erros ou diferenas para obter um ndice de
qualidade global. Algumas mtricas RR exploram
propriedades dos artefatos, por meio da extrao de
caractersticas e um modelo de parametrizao [20]
com foco em tipos especfcos de distores
(artefatos). Esta abordagem encontrada em Silva et
al. [17], cujo clculo do escore de qualidade
baseado na diferena de atividade dos coefcientes
DCT (Discrete Cosine Transform) em um macro bloco
com resoluo de 1616 pixels.
2.3. Mtricas NR
As mtricas NR extraem caractersticas
relacionadas ao SVH do vdeo distorcido, i.e., na
recepo do sinal de vdeo [14]. Tipicamente, h duas
abordagens no desenvolvimento destas mtricas: (i)
extrao dos parmetros sobre o fuxo de bits, tais
como a taxa de compresso, informaes
relacionadas ao GoP (Group of Pictures), estimao
de movimento, perfl e nvel de codifcao, bem como
o parmetro de quantizao ou QP (Quantization
Parameter) [2125]. Mtricas NR apresentam maior
complexidade quando so aplicadas em vdeo, devido
variao temporal dos quadros, contedos das
cenas e difculdade de compreenso das
caractersticas do SVH [26]. Assim, algumas mtricas
dessa categoria exploram caractersticas espaciais e
temporais na estimao de qualidade de vdeo [21].
3. MTODO PROPOSTO
O mtodo proposto, denominado NRVQA-ELMtc
(No-Reference Video Quality Assessment using
Extreme Learning Machine algorithm with termination
criteria) [27] combina caractersticas espaciais e
temporais, por meio de uma rede neural artifcial
SLFNs usando o algoritmo de treinamento ELM [28]
com a implementao de um simples critrio de
parada.
3.1. Caractersticas espao-temporais
As caractersticas espaciais incorporadas no
mtodo proposto so baseadas em medidas de
artefatos em vdeo digital, i.e., distores de blocagem
e borramento desenvolvidas por Wang et al. [20].
Assim, a componente de luminncia do quadro f
representada por y(f , i, j ) com i 1,M e j 1, N ,
em que M e N so os nmeros de linhas e colunas,
respectivamente, de um quadro. Logo, as diferenas
de luminncia ao longo das linhas e colunas so
representadas, respectivamente, pelas expresses a
seguir.


, , , , 1 , , , 1, 1 ,
, , , 1, , , , 1, 1 .
h
v
d f i j y f i j y f i j j N
d f i j y f i j y f i j i M


(3)
O efeito de blocagem pode ser estimado pela
mdia das diferenas entre as bordas dos blocos da
DCT (Discrete Cosine Transform) nas direes
horizontal e vertical para uma sequncia F de
quadros, conforme mostra a Equao (4), com um
macrobloco de dimenso , cujo tamanho tpico
de 8 [20].


1
1
1 1 1
1
1
1 1 1
1
, , 1 ,
1
1
1
, 1 , .
1
1
N
F M
h h
f i j
M
F N
v
i j
v
f
B d f i j
N
F M
B d f i j
M
F N












(4)
A medida de blocagem em uma sequncia de
vdeo com F quadros determinada pela mdia entre
h B e v B , caracterizando a medida B , conforme a
expresso a seguir.
.
2
h v B B
B

(5)
Os efeitos de borramento so estimados pelo
clculo da reduo de atividade entre os blocos ,
em que usada a medida de blocagem nas direes
horizontal e vertical, conforme as expresses




1
1 1 1
1
1 1 1
, , ,
1 1
, ,
1
.
1
F M N
h h h
f i j
F M N
v v
f
v
i j
A d f i j B
F M N
A d f i j B
F N M








(6)
A medida de borramento, representada por A ,
conforme a Equao (7), determinada pela mdia
entre h A e v A .
.
2
h v A A
A

(7)
O segundo fator que contribui para a deteco do
artefato de borramento baseado na taxa de
cruzamento por zero (Zero Crossing ZC) nas
direes horizontal e vertical, conforme as expresses
a seguir.




2
1 1 1
2
1 1 1
1
, , ,
2
1
, , ,
2
F M N
h h
f i j
F M N
v v
f i j
Z z f i j
F M N
Z z f i j
F N M




(8)
em que os termos h z e v z so determinados por


1, na direo horizontal
, , ,
0, caso contrrio
1, na direo vertical
, , .
0, caso contrrio
h
v
z f i j
z f i j



(9)
Assim, a medida de borramento Z determinada
pela mdia entre as componentes h Z e v Z .
.
2
h v Z Z
Z

(10)
O mtodo proposto tambm incorpora trs
caractersticas temporais no treinamento da rede
neural SLFN com o algoritmo ELM.
A primeira caracterstica temporal a diferena de
movimento entre quadros adjacentes, representada
pela varivel TI (Temporal perceptual Information) [31]
que considera os valores de luminncia de pixels
localizados em uma mesma regio de um quadro,
conforme a expresso a seguir.

2
1
, , ,
1
F
f
TI m f i j
F


(11)
em que o nmero total de quadros F e mf ,i, j

o desvio padro da diferena de movimento
(diferena de luminncia) entre o quadro atual
y f ,i, j e o quadro anterior y f 1,i, j .
A segunda caracterstica temporal a mdia da
diferena absoluta (Mean Absolute Diference MAD)
[31] entre quadros sucessivos, representada pela
Equao (12) que defne a medida global da MAD
para todos os quadros de um vdeo.


2 1 1
1
, , 1, , .
1
F M N
f i j
MAD y f i j y f i j
M N F



(12)
A terceira caracterstica temporal a mdia da
diferena absoluta ponderada (weighted Mean
Absolute Diference MADw) [32], a qual mede o grau
de variao das cenas de um vdeo que considera a
cena atual de um quadro f e do quadro anterior f 1,
conforme a expresso:
2 1
1
.
1
F
f
f f
MAD
MADw
F MAD


(13)
Assim, o mtodo proposto combina as
caractersticas espaciais e temporais em uma matriz
, , , , , f f f f f f f x A B Z TI MAD MADw , em que f o
nmero de amostras de vdeo. A Figura 1 apresenta
as caractersticas temporais espaciais de dezessete
bases de dados de vdeos (denominada superconjunto
S) usadas neste trabalho e reportadas em [27]. A
recomendao ITU-T P.910 [31] defne a medida SI
(Spatial perceptual Information) como informao
espacial perceptual. A inspeo visual dessa fgura
mostra que as amostras de vdeo usadas neste
trabalho apresentam uma grande variao espaotemporal.
Fig. 1. Caractersticas espaciais e temporais do superconjunto
S com 216 amostras de referncia
3.2. Mtrica NRVQA-ELMtc
O algoritmo ELM [28] desenvolvido para o
treinamento de uma rede SLFN atribui pesos e
polarizaes (biases) de maneira aleatria, segundo
uma distribuio uniforme. O treinamento compreende
N amostras distintas representadas pela varivel
, , , 1, , n m
f f f f x t x t f N , cujo clculo
conforme a expresso

1
, 1, , ,
K
K i j j f j f
f
f g b f N

x w x o (14)
em que f o a sada (escore objetivo), g(x) a
funo de ativao e j o peso que conecta o jsimo
neurnio da camada oculta ao neurnio de
sada. De acordo com [28], uma rede SLFN com K
ns na camada oculta e uma funo de ativao g(x)
pode apresentar um erro mdio prximo de zero, i.e.,
1
0
K
f f
f
o t . Logo, h parmetros j , j w e j b tal
que

1
, 1, , ,
K
j j f j f
f
g b f N

w x t (15)
em que f t o vetor alvo (escores subjetivos),
T
1, , j j jn w w w o vetor de peso que conecta o jsimo
neurnio da camada oculta ao neurnio da
camada de entrada, j b denota a polarizao (bias) do
j-simo neurnio da camada oculta, j f w x o
produto interno de j w e f x . A Figura 2 ilustra o
algoritmo ELM empregado em uma arquitetura de
rede neural SLFN.
xi
1
j
N
1
j
K
ti
bj
N input neuron K hidden neuron output neuron
1
K
wj
Fig. 2. Arquitetura de uma rede neural SLFN usando algoritmo
de treinamento ELM
O sistema linear da Equao (16) resume o mtodo
do algoritmo ELM.
H T, (16)
em que a matriz da camada oculta representada por
1, , and 1, , f H h f N j K com a primeira
linha da matriz de caractersticas f x igual a
T
1 2 , , , f f f fn x x x x , i.e., a primeira linha igual a
1 1 1 1 1 1 1 , , , , , f f f f f f f x A B Z TI MAD MADw . A matriz de
sada e o vetor alvo (target) so defnidos como
T
1 , K e
T
1, , N T t t , respectivamente. O
termo
T
1 , 1, , j jm j j K denota o vetor de
peso que conecta o j-simo neurnio da camada
oculta e os neurnios de sada. Hung et al. [28]
propuseram a atribuio aleatria de pesos aos
parmetros j w e j b , a fm de seja obtido um pequeno
erro no-nulo durante o treinamento. Considerando o
sistema linear da Equao (17), os pesos da camada
de sada podem ser aproximados por
H T (17)
em que H defnida como matriz inversa
generalizada de Moore-Penrose (MP) [33] da matriz
de sada da camada oculta H . Alm disso, o
conjunto de treinamento , n oculta K e uma
funo de ativao g x , e.g., funo de base radial
(Radial Basis Function RBF), hard-limiting (hardlim),
sigmoidal (sig) e seno (sin). Em resumo, o algoritmo
ELM compreende trs etapas [28]:
i) Atribuio aleatria dos pesos de entrada j w e
polarizaes j b ;
ii) Clculo da matriz da camada de sada H ;
iii) Clculo dos pesos de sada : H T .
O mtodo NRVQA-ELMtc [27] implementa um
simples critrio de parada no treinamento da rede
neural SLFN, quanto atribuio aleatria dos pesos
j w e j b . Embora este critrio no seja direcionado,
busca os pesos relacionados com o menor RMSE
(Root-Mean-Square Error) entre a sada desejada
(escore subjetivo) e o escore objetivo na fase de
treinamento com k iteraes (tipicamente, k 100 ) e
N neurnios na camada oculta. Alm disso, conforme
estudo realizado em [27], caso o RMSE seja menor do
que 0,5 o algoritmo cessa a busca pelos parmetros
j w e j b .
4. RESULTADOS EXPERIMENTAIS
Esta seo apresenta os resultados de acurcia,
i.e., os coefcientes de correlao linear de Pearson
(Pearson Linear Correlation Coefcient PLCC) [34],
[35], entre os escores objetivos e subjetivos de 2627
amostras de vdeo estudadas em [27].
A Figura 3 compara a acurcia (PLCC) entre as
mtricas de referncia completa (FR) PSNR e MSSSIM
com o mtodo proposto (NRVQA-ELMtc) para
as 2627 amostras de vdeo, pertencentes a 17 bases
de dados de vdeo disponibilizadas por diversas
instituies e laboratrios [27]. A funo de ativao
usada na rede neural SLFN foi o seno (sin) com o
nmero de amostras de teste igual ao nmero de
neurnios na camada oculta ( N ). O mtodo de
validao cruzada mltipla (K-fold) foi usado com o
objetivo de gerar uma distribuio de acurcia, a qual
foi analisada por meio do diagrama de caixa (box-plot)
[36], em que o trao, o crculo e o quadrado, ambos
em vermelho, representam a mediana, a mdia e o
desvio padro, respectivamente. Destaca-se que
neste trabalho foi empregada uma validao cruzada
com um grande nmero de amostras de treinamentoteste
com K 100 , i.e., cada caixa do box-plot
comporta 100 experimentos distintos. Tipicamente, a
literatura apresenta trabalhos no campo da avaliao
Fig. 3. Box-plot da predio da acurcia (PLCC) entre as mtricas PSNR, MS-SSIM e o mtodo proposto NRVQA-ELMtc
de qualidade de vdeo com K entre 5 e 10 [37], [38].
Pela inspeo visual da Figura 3 observa-se que o
desempenho do mtodo proposto superior s
mtricas FR, em quaisquer condies de teste, i.e.,
para qualquer quantidade de amostras de teste
(nmero de neurnios na camada oculta) entre 25 e
500. Em especial, para N 50 , o mtodo proposto
apresenta valores de PLCC, em termos da mdia e
mediana, acima de 0,8, denotando uma forte
associao entre os escores objetivos e subjetivos, na
tarefa de predio de qualidade de vdeo. Isto ocorre
devido grande quantidade de amostras de vdeo
usadas no treinamento, e.g., para N 300 foram
usadas 2327 amostras de treinamento, ou seja,
mesmo usando pares de treinamento-teste disjuntos,
o mtodo proposto mostra uma acurcia superior s
mtricas de referncia completa. A assimetria positiva,
i.e., a maior concentrao da acurcia entre o
segundo quartil (mediana) e o terceiro quartil, na
distribuio do box-plot nos testes com 300 e 500
neurnios na camada oculta, indica que o mtodo
proposto apresenta um desempenho expressivo em
comparao com as mtricas FR.
Entretanto, mesmo para N entre 25 e 50, o
mtodo proposto apresentou uma acurcia maior do
que as mtricas FR, cujo melhor resultado foi para
N 25 com o desvio-quartil (amplitude interquartlica)
confnado entre 0,65 e 0,8. Alm disso, este resultado
tambm apresentou assimetria positiva com a mdia
do PLCC em torno de 0,75.
5. CONCLUSO
Este trabalho apresentou uma mtrica NR baseada
em uma rede neural artifcial SLFN, cujo treinamento
determinado pelo algoritmo ELM, o qual considera
caractersticas espao-temporais e os escores
subjetivos (alvos) extrados de 2627 amostras
treinamento. Alm disso, este trabalho prope uma
extenso do algoritmo ELM por meio de um simples
critrio de parada, a fm de que sejam obtidos
parmetros da rede neural artifcial relacionados com
o menor RMSE. Tipicamente, a comparao entre
mtricas FR e NR injusta, devido ausncia do
vdeo de referncia na obteno do escore de
qualidade em mtricas NR. Entretanto, os resultados
experimentais mostram que o mtodo proposto
apresentou desempenho superior s mtricas de
referncia completa PSNR e MS-SSIM, sobretudo,
quando o nmero de amostras de teste e de neurnios
na camada oculta da rede SLFN maior do que 250.
Logo, a mtrica NRVQA-ELMtc pode ser empregada
no monitoramento de qualidade em sistemas de
transmisso e recepo de vdeo digital, tais como
IPTV (Internet Protocol Television), TV digital ou em
dispositivos mveis, tais como ultrabooks,
smartphones, tablets e em aparelhos WiDi (Wireless
Display).
REFERNCIAS
[1] S. Winkler, Issues in vision modeling for perceptual
video quality assessment, Signal Processing, vol. 78,
no. 2, pp. 231252, 1999.
[2] Z. Wang and A. C. Bovik, Modern image quality
assessment. San Rafael, CA: Morgan & Claypool,
2006.
[3] W. Lin and C.-C. Jay Kuo, Perceptual visual quality
metrics: A survey, Journal of Visual Communication
and Image Representation, vol. 22, no. 4, pp. 297312,
May 2011.
[4] S. S. Hemami and A. R. Reibman, No-reference image
and video quality estimation: Applications and humanmotivated
design, Signal Processing: Image
Communication, vol. 25, no. 7, pp. 469481, 2010.
[5] Z. Wang and A. Bovik, Reduced- and No-Reference
Image Quality Assessment, IEEE Signal Processing
Magazine, vol. 28, no. 6, pp. 2940, Nov. 2011.
[6] R. V. Babu, S. Suresh, and A. Perkis, No-reference
JPEG-image quality assessment using GAP-RBF,
Signal Processing, vol. 87, no. 6, pp. 14931503, 2007.
[7] X. Jiang, F. Meng, J. Xu, and W. Zhou, No-Reference
Perceptual Video Quality Measurement for High
Defnition Videos Based on an Artifcial Neural
Network, in Computer and Electrical Engineering,
2008. ICCEE 2008. International Conference on, 2008,
pp. 424427.
[8] J. Choe, K. Lee, C. Lee, and S. Korea, No-reference
video quality measurement using neural networks, in
2009 16th International Conference on Digital Signal
Processing, 2009, pp. 14.
[9] S. Suresh, R. Venkatesh Babu, and H. J. Kim, Noreference
image quality assessment using modifed
extreme learning machine classifer, Applied Soft
Computing, vol. 9, no. 2, pp. 541552, Mar. 2009.
[10] A. M. Eskicioglu and P. S. Fisher, Image quality
measures and their performance, IEEE Transactions
on Communications, vol. 43, no. 12, pp. 29592965,
1995.
[11] U. Engelke and H.-J. Zepernick, Perceptual-based
Quality Metrics for Image and Video Services: A
Survey, in Proceedings EuroNGI Conf. Next
Generation Internet Networks, 2007, pp. 190197.
[12] Z. Wang, A. C. Bovik, H. R. Sheikh, and E. P
Simoncelli, Image quality assessment: from error
visibility to structural similarity., IEEE Transactions on
Image Processing, vol. 13, no. 4, pp. 600612, 2004.
[13] Z. Wang, E. P. Simoncelli, and A. C. Bovik, Multiscale
structural similarity for image quality assessment, in
The Thrity-Seventh Asilomar Conference on Signals,
Systems & Computers, 2003, 2003, vol. 2, no. 1, pp.
13981402.
[14] H. R. Wu, K. R. Rao, and A. A. Kassim, Digital Video
Image Quality and Perceptual Coding, Journal of
Electronic Imaging, vol. 16, no. 3, 2007.
[15] Z. Wang and A. C. Bovik, A universal image quality
index, IEEE Signal Processing Letters, vol. 9, no. 3,
pp. 8184, Mar. 2002.
[16] Y. Shi, Y. Ding, R. Zhang, and J. Li, Structure and Hue
Similarity for Color Image Quality Assessment, in 2009
International Conference on Electronic Computer
Technology, 2009, pp. 329333.
[17] W. B. Silva, A. A. P. Pohl, and K. V. O. Fonseca, A
Reduced-Reference Video Quality Assessment Method
based on the Activity-Diference of DCT Coefcients,
IEICE Transactions on Information and Systems, vol. E96-D, no. 3, 2013.
[18] P. Le Callet, C. Viard-Gaudin, and D. Barba, A Convolutional Neural Network Approach for Objective Video Quality Assessment, IEEE Transactions on Neural Networks, vol. 17, no. 5, pp. 13161327, 2006.
[19] P. Le Callet and D. Barba, Image Quality Assessment: From Sites Errors to a Global Appreciation of Quality, in Proceedings of the Picture Coding Sympsium, 2001, pp. 105108.
[20] M. Miyahara, K. Kotani, and V. R. Algazi, Objective picture quality scale (PQS) for image coding, IEEE Transactions on Communications, vol. 46, no. 9, pp. 12151226, 1998.
[21] M. Slanina, V. Ricny, and R. Forchheimer, A Novel Metric for H.264/AVC No-Reference Quality Assessment, in 14th International Workshop on Systems, Signals and Image Processing and 6th EURASIP Conference focused on Speech and Image Processing, Multimedia Communications and Services, 2007, pp. 114117.
[22] O. Sugimoto, S. Naito, S. Sakazawa, and A. Koike, Objective perceptual video quality measurement method based on hybrid no reference framework, in 16th IEEE International Conference on Image Processing (ICIP09), 2009, pp. 22372240.
[23] T. Oelbaum, C. Keimel, and K. Diepold, Rule-Based No-Reference Video Quality Evaluation Using Additionally Coded Videos, IEEE Journal of Selected Topics in Signal Processing, vol. 3, no. 2, pp. 294303, 2009.
[24] N. Staelens, N. Vercammen, Y. Dhondt, B. Vermeulen, P. Lambert, R. de Walle, and P. Demeester, ViQID: A No-Reference bit stream-based visual quality impairment detector, in Proceedings of the Second Int Quality of Multimedia Experience (QoMEX) Workshop, 2010, pp. 206211.
[25] F. Yang, S. Wan, Q. Xie, and H. R. Wu, No-Reference Quality Assessment for Networked Video via Primary Analysis of Bit Stream, IEEE Transactions on Circuits and Systems for Video Technology, vol. 20, no. 11, pp. 15441554, Nov. 2010.
[26] Z. Wang, H. R. Sheikh, and A. C. Bovik, Objective Video Quality Assessment, in The Handbook of Video Databases: Design and Applications, B. Furht and O. Marques, Eds. Boca Raton, FL, USA: CRC Press, 2003, pp. 10411078.
[27] W. B. da Silva and A. de A. P. Pohl, Mtodos Sem Referncia Baseados em Caractersticas Espao-Temporais para Avaliao Objetiva de Qualidade de Vdeo Digital, Universidade Tecnolgica Federal do Paran (UTFPR), 2013.
[28] G.-B. Huang, Q.-Y. Zhu, and C.-K. Siew, Extreme learning machine: Theory and applications, Neurocomputing, vol. 70, no. 13, pp. 489501, Dec. 2006.
[29] Z. Wang, H. R. Sheikh, and A. C. Bovik, No-reference perceptual quality assessment of JPEG compressed images, in Image Processing. 2002. Proceedings. IEEE International Conference on Image Processing, 2002, vol. 1, pp. vol.1 I477 I480.
[30] W. B. Silva and A. A. P. Pohl, No-Reference Video Quality Assessment Method based on the Levenberg-Marquardt Minimization, in XXX Brazilian Symposium on Telecommunications (SBrT12), 2012.
[31] ITU-T P.910, Subjective video quality assessment methods for multimedia applications, Standardization Sector of ITU, 1999.
[32] W. Ding, Y. Tong, Q. Zhang, and D. Yang, Image and Video Quality Assessment Using Neural Network and SVM, Tsinghua Science & Technology, vol. 13, no. 1, pp. 112116, 2008.
[33] K. S. Banerjee, C. R. Rao, and S. K. Mitra, Generalized Inverse of Matrices and Its Applications, Technometrics, vol. 15, no. 1, p. 197, Feb. 1973.
[34] VQEG, Final report from the video quality experts group on the validation of reduced-reference and no-reference objective models for standard defnition television, Phase I, 2009.
[35] VQEG, Report on the validation of video quality models for high defnition video content, 2010.
[36] J. W. Tukey, Exploratory Data Analysis. New York: Addison-Wesley Publishing Company, 1977.
[37] P. Gastaldo and R. Zunino, Neural networks for the no-reference assessment of perceived quality, J. Electronic Imaging, vol. 14, no. 3, p. 033004, 2005.
[38] R. Herzog, M. adk, T. O. Aydn, K. I. Kim, K. Myszkowski, and H.-P. Seidel, NoRM: No-Reference Image Quality Metric for Realistic Image Synthesis, Comp. Graph. Forum, vol. 31, no. 2pt4, pp. 545554, 2012.

condio em que os nveis de recepo so bastante prximos.
Foi utilizada a modulao QPSK (Quaternary Phase Shift
Keyng) para o one seg, e 64QAM (Quadrature Amplitude
Modulation) para o servio de HD.


Fig. 2: Rede SFN considerada para o ensaio.

Foram avaliadas duas situaes:
A. Rede SFN sem troca de canal virtual
Configura a situao ideal para o perfeito funcionamento de
uma rede de frequncia nica.
O sinal recebido pelo satlite e remultiplexado (BTS1
Broadcast Transport Stream), entregue ao TX1 (transmissor)
e ao REMUX2 (remultiplexador), que faz apenas o bypass da
informao, sem alter-la em nada. Desta forma, o BTS2
exatamente igual ao BTS1, sendo a informao transmitida por
cada estao tambm igual.
B. Rede SFN com troca de canal virtual em uma das estaes
retransmissoras.
Em algumas situaes, pode ser necessrio que regies
vizinhas recebendo a mesma programao possuam canais
virtuais diferentes. Entretanto, se considerarmos uma rede em
SFN, este modo de operao no atende ao requisito de que,
para o bom funcionamento, o BTS de entrada em cada
transmissor deve ser o mesmo.
Com o intuito de observar seu resultado, a situao descrita
foi simulada.
Em um primeiro momento, o sinal recebido pelo satlite
continua sendo remultiplexado, de forma que o canal virtual
46 foi estabelecido. O BTS1 foi ento entregue ao TX1.
Este mesmo sinal tambm entregue ao REMUX2, que no
mais far apenas o bypass da informao. Nesta etapa, o BTS
de entrada novamente remultiplexado de modo que o canal
virtual, informao contida na tabela NIT (Network
Information Table), foi alterado para 65, sendo os demais
parmetros isentos de modificaes.
Tal procedimento representa uma alterao de bit na
informao entregue ao TX2. Desta forma, passa a existir uma
diferena entre os sinais de entrada das estaes transmissoras
envolvidas, j que o BTS2 no continuar sendo semelhante,
bit a bit, ao BTS1.
O comportamento da rede operando nesta condio
evidentemente no ideal est descrito na prxima seo.
III. RESULTADOS OBTIDOS
O sinal entregue pela rede SFN foi analisado por um TV
Analyzer e por um aparelho televisor de alta resoluo.
A. Estaes operando com o mesmo canal virtual.
Com esta configurao pde ser constatado que a rede SFN
funciona perfeitamente.
Foi alcanada uma MER (Modulation Error Ratio)
superior a 39dB para ambos os layers, conforme evidenciado
pela Figura 3. A taxa de erro de bit, medida antes do algoritmo
de Viterbi [5][6][7], foi de 0,0x10
-8
para o layer A, e de
3,9x10
-5
para o layer B. Tais valores so considerados
pequenos e perfeitamente compensados pelos algoritmos de
correo de erros.
A qualidade da imagem aberta pelo televisor, em HD, foi
impecvel, sendo este resultado j esperado. Afinal, os
requisitos necessrios para o funcionamento de uma rede de
frequncia nica foram atendidos.
Vale lembrar que tais requisitos abrangem tambm, entre
outros, aos parmetros de intervalo de guarda e atraso na
transmisso, no sendo estes o objeto de estudo deste trabalho.
B. Estaes operando com canais virtuais distintos.
Nesta situao a rea coberta pelo TX1 ter a programao
sintonizada no canal 46. J a rea coberta pelo TX2, ter sua
programao sintonizada no canal 65.
A Figura 3 expe o resultado obtido considerando a regio
crtica de operao.


Figura 3: MER e constelao dos layers A e B, respectivamente.

Pode-se observar que, na situao em que o canal virtual
alterado em uma das estaes, passam a ser visualizados na
constelao do layer A, uma srie de pontos que representam a
aproximao indesejada dos smbolos em relao fronteira
de deciso e, consequentemente, uma maior probabilidade de
erro de bit. Na constelao do layer B, tal efeito no foi
constatado.
tambm observado, para o layer A, uma drstica reduo
da MER em (b), quando comparada com a MER em (a).
A taxa de erro de bit, neste mesmo layer, tambm medida
antes do algoritmo de Viterbi, passou para 9,3x10
-5
.
A televiso sintonizou o canal virtual 46, ou seja, o primeiro
canal encontrado durante o processo de varredura. No foi
26 Revista de Radiodifuso v. 07 n. 08 2013
Pesquisas em ambientes digitais - TV Internet Radio Cinema
percebido nenhum tipo de degradao na qualidade da imagem
em alta definio.
Provocando diferenas entre os nveis de recepo, situao
a qual simula o afastamento do receptor em relao rea
crtica, verificou-se o aumento da MER do sistema, conforme
mostra a Figura 4. Nestas situaes, o canal sintonizado pela
TV foi o proveniente da estao com sinal mais forte.


Figura 4: Grfico MER x diferena entre os nveis de recepo.

Fica evidente que o efeito danoso para a qualidade do sinal
recebido, provocado pela alterao de bit no BTS da rede, est
presente somente no layer A e, consequentemente, no servio
de TV mvel. Isto pode ser explicado pelo fato de que a
informao de canal virtual est contida na tabela NIT, sendo
esta transportada pelo layer em questo.
IV. CONCLUSES
Neste estudo foram abordados aspectos referentes a redes
operando em SFN, onde parmetros como MER e qualidade
de imagem foram avaliados.
Com a anlise dos resultados obtidos, possvel constatar
que a alterao de canal virtual, em uma das estaes dentro
de qualquer rede SFN, penaliza a recepo do one seg. Por
outro lado, o servio de HDTV no afetado em momento
algum, mantendo os padres de qualidade de imagem
desejados, mesmo na regio crtica de operao.
Pde tambm ser observado que a MER correspondente ao
layer A aumenta medida que o ponto de recepo se
distancia da rea crtica. Isto evidencia que a possibilidade de
operao fora de tal rea maior.
Desta maneira, esta configurao de rede pode ser
implementada desde que, a possibilidade de perda do servio
de TV mvel, na regio de interseco, seja admitida.
Se a rea crtica cair sobre uma mata, por exemplo, os
efeitos danosos podem ser despercebidos. H ainda, em alguns
casos, a possibilidade de se deslocar a regio de interferncia,
de modo que esta coincida com pontos onde a demanda pelo
servio mvel de televiso no forte. Nestes casos, portanto,
pode-se concluir que a configurao estudada pode ser usada
sem grandes efeitos danosos.
Como trabalhos futuros, pretende-se avaliar em campo a
qualidade do servio de TV Mvel na condio em que o
canal virtual alterado em uma das estaes, dentro de uma
rede SFN. Pretende-se tambm estudar o processo de
deslocamento da regio de interseo.
REFERNCIAS
[1] Ministrio das Comunicaes. Elaborao do plano de desligamento da
TV Analgica entra na fase final, Braslia, 2013.
[2] R.I.Faller. Planejamendo de cobertura as opes existentes para a TV
digital terrestre. Kathrein Mobilcom Brasil.
[3] S.R.M. Carvalho; Y. Iano; R. Arthur. Planejamento da Expanso do
Servio de Retransmisso de TV Digital no Brasil usando redes SFN.
Revista Cientfica Peridica Telecomunicaes, VOL. 08, NO. 02,
Dezembro de 2005.
[4] Progira Radio Comunication. Transition from Analog to Digital
(Digital Terrestrial Television: Trends, Implementation &
Opportunities). Tunisia Tunis, 12 15 March 2012.
[5] F.J. Macwilliams. The Theory of error-correcting codes. New York:
North-Holland, 1998, 762p.
[6] Drury, Fordon, Coding and Modulation for Digital Television.
Boston: Kluwer Academic Publishers, 2000, 249p.
[7] Lou, H.L. Implementing the Viterbi Algorithm, IEEE Signal
Processing Magazine, 1995, pp. 42-52.



Ramon Maia Borges nasceu em Campanha, MG, em 04 de outubro de 1986.
Possui os ttulos: Tcnico em Eletrnica (ETE FMC, 2004) e Engenheiro
Eletricista (INATEL, 2012). Atuou na empresa Screen Service do Brasil,
efetuando testes e ensaios com equipamentos de broadcast para televiso.
Desde 2013 pesquisador do laboratrio Wireless and Optical Convergent
Access (WOCA) no Inatel, onde cursa Mestrado em Telecomunicaes. Tem
interesse nas reas de sistemas de rdio, transmisso e retransmisso de TV
Digital, RoF e comunicaes pticas.








Pesquisas em ambientes digitais - TV Internet Radio Cinema
Revista de Radiodifuso v. 07 n. 08 2013 27
MTRICA SEM REFERNCIA BASEADA EM REDES NEURAIS
PARA AVALIAO OBJETIVA DE QUALIDADE DE VDEO DIGITAL
Wyllian Bezerra da Silva, Alexandre de Almeida Prado Pohl
Programa de Ps-Graduao em Engenharia Eltrica e Informtica Industrial (CPGEI) UTFPR, Curitiba, Brasil
wyllianbs@gmail.com, pohl@utfpr.edu.br
Resumo: Este trabalho apresenta uma mtrica sem referncia para avaliao de qualidade de vdeo digital baseada em uma rede neural artifcial que usa uma verso estendida do algoritmo de aprendizado ELM (Extreme Learning Machine). O mtodo proposto realiza o treinamento da rede neural a partir de seis caractersticas espao-temporais. Os resultados experimentais mostram que o mtodo proposto apresenta desempenho superior s mtricas de referncia completa PSNR e MS-SSIM na tarefa de predio de qualidade de vdeo. Logo, o mtodo proposto pode ser usado no monitoramento de qualidade em sistemas de transmisso e recepo de vdeo digital, tais como IPTV e TV digital.
Palavras chave: algoritmo ELM, avaliao objetiva de vdeo, mtrica sem referncia, rede neural artifcial.
1. INTRODUO
Durante os ltimos anos, a literatura tem apresentado um nmero crescente publicaes acerca de mtricas objetivas para avaliao de qualidade de vdeo para diversas aplicaes em radiodifuso ou no processamento de vdeo digital, seja na aquisio do sinal, codifcao e decodifcao, compresso, transmisso, restaurao, armazenamento, segmentao e exibio de sinais de vdeo digital [14]. A avaliao de qualidade de vdeo digital pode ser realizada por meio de mtricas subjetiva e objetiva. A primeira requer uma grande quantidade de recursos humanos e apresenta elevado custo em sua implementao [13]. Porm, as mtricas objetivas so vantajosas quando apresentam um determinado grau de correlao com as mtricas subjetivas. Logo, o desenvolvimento destas um desafo no campo de avaliao de qualidade de vdeo e imagem. Alm disso, as mtricas objetivas, devido natureza de seu critrio objetivo, independem de interao humana e so facilmente reprodutveis [3]. Dentre as mtricas objetivas destacam-se as mtricas sem referncia (No-Reference NR), pois no necessitam do vdeo de referncia no clculo de sua medida. Entretanto, estas requerem um conhecimento a priori sobre as distores em vdeo digital para que seja estabelecida uma correlao com os resultados subjetivos [3].
A maioria das mtricas NR encontradas na literatura so baseadas na avaliao de qualidade de imagens e em caractersticas relacionadas ao Sistema Visual Humano (SVH). Assim, o desenvolvimento de mtricas NR difcil, devido necessidade de emular a percepo do SVH que envolve aspectos cognitivos, emocionais e estticos relacionados ao contedo do vdeo e que so altamente dependentes do observador [4], [5].
A literatura reporta diversos esforos no desenvolvimento de mtricas para avaliao de qualidade de vdeo baseadas em redes neurais e em algoritmos de aprendizado. Babu et al. [6] apresentam uma mtrica para avaliar a qualidade de imagens comprimidas em JPEG (Joint Photographic Experts Group) por meio de um algoritmo de aprendizado de crescimento e propem o uso de uma rede neural GAP-RBF (Growing and Pruning Radial Basis Function) que usa caractersticas relacionadas ao SVH. Jiang et al. [7] desenvolveram uma mtrica NR para avaliao de qualidade de vdeo em HD (High Defnition) baseada em uma rede neural treinada pelo algoritmo BP (Back-Propagation) que usa seis caractersticas espao-temporais e a RoI (Region of Interest). Choe et al. [8] desenvolveram uma mtrica NR baseada no fuxo de bits para avaliao de qualidade de vdeo codifcado em H.264. Esta mtrica extrai caractersticas quadro a quadro e usa uma rede neural alimentada adiante (feedforward) com trs camadas. Suresh et al. [9] apresentaram uma extenso do algoritmo ELM na tarefa de avaliar a qualidade de imagens comprimidas em JPEG com base no esquema de seleo mltipla KS-ELM (K-fold selection Scheme using ELM) e no algoritmo RCGA-ELM (Real-Coded Genetic Algorithm using ELM) para seleo dos pesos de entrada e polarizaes.
Este trabalho apresenta uma verso estendida do algoritmo ELM para redes neurais SLFN (Single-hidden-Layer Feedforward Neural Networks) que implementa um simples critrio de parada na fase de treinamento. Alm disso, esse mtodo usa seis caractersticas espao-temporais de vdeos submetidos a diversas condies de distoro.
Este artigo est dividido da seguinte maneira: a Seo 2 descreve as mtricas para avaliao de qualidade de vdeo. A Seo 3 descreve o mtodo NR proposto para avalio de qualidade de vdeo digital. A Seo 4 apresenta os resultados experimentais, em que so comparados o mtodo NR proposto e duas mtricas FR. Finalmente, a Seo 5 apresenta a concluso do artigo.
2. AVALIAO DE QUALIDADE DE VDEO
O processo de avaliao de qualidade de vdeo
pode ser realizado com a aplicao de mtricas
subjetivas ou objetivas. As mtricas subjetivas
estimam a qualidade do vdeo por meio de avaliadores
humanos. Logo, exigem um alto custo, pois
necessitam de uma grande quantidade de recursos
humanos e apresentam problemas quanto aos
requisitos de imparcialidade e reprodutibilidade,
tornando-se inapropriadas em sistemas de
radiodifuso ou em provedores de contedo [10], [11].
Por outro lado, as mtricas objetivas so baseadas em
modelos matemticos, cujo objetivo produzir um
escore de qualidade que emule a percepo do SVH.
Alm disso, as mtricas objetivas requerem baixo
custo de implementao (quando comparadas com as
mtricas subjetivas) e no apresentam problemas
quanto reprodutibilidade e imparcialidade.
As mtricas objetivas para avaliao de qualidade
de vdeo podem ser classifcadas em trs categorias:
(i) mtricas de referncia completa (Full-Reference
FR); (ii) mtricas de referncia reduzida (Reduced-
Reference RR); (iii) mtricas sem referncia (NR).
2.1. Mtricas FR
As mtricas FR requerem o vdeo de referncia
(fonte) no clculo do escore de qualidade. Estas
mtricas so amplamente utilizadas no processo de
validao de mtricas RR ou NR, por meio da
comparao de desempenho defnida pelas
recomendaes do Grupo de Especialistas em
Qualidade de Vdeo (VQEG Video Quality Experts
Group) que um rgo de padronizao internacional
de mtricas subjetivas e objetivas de qualidade de
vdeo. Dentre as mtricas FR, destacam-se o PSNR
(Peak Signal-to-Noise Ratio), SSIM (Structural
SIMilarity index) [12] e MS-SSIM (Multi-Scale
Structural SIMilarity index) [13].
O PSNR uma mtrica FR baseada no erro pixel a
pixel de fcil implementao. Entretanto, apresenta
baixa correlao com o SVH [14]. A sua medida
processada sobre o erro quadro a quadro, i.e., entre o
quadro original x e o quadro y . A expresso a seguir
defne o PSNR para um conjunto de quadros F .
20
1
1
PSNR 20log ,
F
f
f f
v
F MSE



(1)
com

2
0 0
1
MSE , , , , ,
N M
f
i j
x f i j y f i j
NM

(2)
em que o termo f v igual a (2 1) k , cujo k o
nmero de bits por pixel, i.e., a componente de
luminncia do quadro f . Os termos x f ,i, j e
y f ,i, j so os valores de luminncia do quadro de
origem e degradado, respectivamente. As
componentes bidimensionais so representadas pelo
nmero de colunas N e pelo nmero de linhas M . O
termo f MSE defnido como erro quadrtico mdio
ou MSE (Mean Square Error).
A mtrica SSIM baseia-se no fato de que o SVH
fortemente adaptado para extrair informaes das
caractersticas estruturais de um quadro ou imagem.
Logo, uma medida de similaridade estrutural (ou
distoro) pode prover boa aproximao para a
qualidade perceptual de um vdeo [3, 79]. Sejam x e
y dois sinais no-negativos, em que y o sinal
degradado e x o sinal original (sem perda de
qualidade), a medida de similaridade utilizada como
um ndice quantitativo de qualidade do sinal distorcido,
ou seja, x tomado como a referncia para medir a
qualidade de y . A mtrica SSIM possui diversas
extenses, dentre as quais a verso MS-SSIM,
proposta por Wang et al. [13] que assume uma
abordagem multiescalar.
2.2. Mtricas RR
As mtricas de referncia reduzida retiram certa
quantidade de caractersticas do vdeo original (fonte),
baseadas em componentes espaciais, temporais, no
domnio da frequncia ou no fuxo de bits (bitstream).
Este tipo de mtrica amplamente utilizada no
monitoramento de transmisses em rede [17]. Neste
tipo de cenrio de aplicao, o vdeo transmitido
com uma sequncia de informao codifcada
(overhead) e no lado receptor ocorre a sua
decodifcao, seguido pelo clculo do ndice de
qualidade, o qual obtido por meio da comparao
entre a representao reduzida da informao nos
pares emissor e receptor [18]. Tipicamente, mtricas
RR so implementadas por meio de funes, divididas
em duas etapas [19]: (i) clculo do erro entre os
vdeos original e distorcido, constitudo pela diferena
de suas caractersticas, a fm de compor a
representao reduzida da informao; (ii) funo que
agrupa os erros ou diferenas para obter um ndice de
qualidade global. Algumas mtricas RR exploram
propriedades dos artefatos, por meio da extrao de
caractersticas e um modelo de parametrizao [20]
com foco em tipos especfcos de distores
(artefatos). Esta abordagem encontrada em Silva et
al. [17], cujo clculo do escore de qualidade
baseado na diferena de atividade dos coefcientes
DCT (Discrete Cosine Transform) em um macro bloco
com resoluo de 1616 pixels.
2.3. Mtricas NR
As mtricas NR extraem caractersticas
relacionadas ao SVH do vdeo distorcido, i.e., na
recepo do sinal de vdeo [14]. Tipicamente, h duas
abordagens no desenvolvimento destas mtricas: (i)
extrao dos parmetros sobre o fuxo de bits, tais
como a taxa de compresso, informaes
relacionadas ao GoP (Group of Pictures), estimao
de movimento, perfl e nvel de codifcao, bem como
o parmetro de quantizao ou QP (Quantization
Parameter) [2125]. Mtricas NR apresentam maior
complexidade quando so aplicadas em vdeo, devido
variao temporal dos quadros, contedos das
cenas e difculdade de compreenso das
caractersticas do SVH [26]. Assim, algumas mtricas
dessa categoria exploram caractersticas espaciais e
temporais na estimao de qualidade de vdeo [21].
3. MTODO PROPOSTO
O mtodo proposto, denominado NRVQA-ELMtc
(No-Reference Video Quality Assessment using
Extreme Learning Machine algorithm with termination
criteria) [27] combina caractersticas espaciais e
temporais, por meio de uma rede neural artifcial
SLFNs usando o algoritmo de treinamento ELM [28]
com a implementao de um simples critrio de
parada.
3.1. Caractersticas espao-temporais
As caractersticas espaciais incorporadas no
mtodo proposto so baseadas em medidas de
artefatos em vdeo digital, i.e., distores de blocagem
e borramento desenvolvidas por Wang et al. [20].
Assim, a componente de luminncia do quadro f
representada por y(f , i, j ) com i 1,M e j 1, N ,
em que M e N so os nmeros de linhas e colunas,
respectivamente, de um quadro. Logo, as diferenas
de luminncia ao longo das linhas e colunas so
representadas, respectivamente, pelas expresses a
seguir.


, , , , 1 , , , 1, 1 ,
, , , 1, , , , 1, 1 .
h
v
d f i j y f i j y f i j j N
d f i j y f i j y f i j i M


(3)
O efeito de blocagem pode ser estimado pela
mdia das diferenas entre as bordas dos blocos da
DCT (Discrete Cosine Transform) nas direes
horizontal e vertical para uma sequncia F de
quadros, conforme mostra a Equao (4), com um
macrobloco de dimenso , cujo tamanho tpico
de 8 [20].


1
1
1 1 1
1
1
1 1 1
1
, , 1 ,
1
1
1
, 1 , .
1
1
N
F M
h h
f i j
M
F N
v
i j
v
f
B d f i j
N
F M
B d f i j
M
F N












(4)
A medida de blocagem em uma sequncia de
vdeo com F quadros determinada pela mdia entre
h B e v B , caracterizando a medida B , conforme a
expresso a seguir.
.
2
h v B B
B

(5)
Os efeitos de borramento so estimados pelo
clculo da reduo de atividade entre os blocos ,
em que usada a medida de blocagem nas direes
horizontal e vertical, conforme as expresses




1
1 1 1
1
1 1 1
, , ,
1 1
, ,
1
.
1
F M N
h h h
f i j
F M N
v v
f
v
i j
A d f i j B
F M N
A d f i j B
F N M








(6)
A medida de borramento, representada por A ,
conforme a Equao (7), determinada pela mdia
entre h A e v A .
.
2
h v A A
A

(7)
O segundo fator que contribui para a deteco do
artefato de borramento baseado na taxa de
cruzamento por zero (Zero Crossing ZC) nas
direes horizontal e vertical, conforme as expresses
a seguir.




2
1 1 1
2
1 1 1
1
, , ,
2
1
, , ,
2
F M N
h h
f i j
F M N
v v
f i j
Z z f i j
F M N
Z z f i j
F N M




(8)
em que os termos h z e v z so determinados por


1, na direo horizontal
, , ,
0, caso contrrio
1, na direo vertical
, , .
0, caso contrrio
h
v
z f i j
z f i j



(9)
Assim, a medida de borramento Z determinada
pela mdia entre as componentes h Z e v Z .
.
2
h v Z Z
Z

(10)
O mtodo proposto tambm incorpora trs
caractersticas temporais no treinamento da rede
neural SLFN com o algoritmo ELM.
A primeira caracterstica temporal a diferena de
movimento entre quadros adjacentes, representada
pela varivel TI (Temporal perceptual Information) [31]
que considera os valores de luminncia de pixels
localizados em uma mesma regio de um quadro,
conforme a expresso a seguir.

2
1
, , ,
1
F
f
TI m f i j
F


(11)
em que o nmero total de quadros F e mf ,i, j

o desvio padro da diferena de movimento
(diferena de luminncia) entre o quadro atual
y f ,i, j e o quadro anterior y f 1,i, j .
A segunda caracterstica temporal a mdia da
diferena absoluta (Mean Absolute Diference MAD)
[31] entre quadros sucessivos, representada pela
Equao (12) que defne a medida global da MAD
para todos os quadros de um vdeo.


2 1 1
1
, , 1, , .
1
F M N
f i j
MAD y f i j y f i j
M N F



(12)
A terceira caracterstica temporal a mdia da
diferena absoluta ponderada (weighted Mean
Absolute Diference MADw) [32], a qual mede o grau
de variao das cenas de um vdeo que considera a
cena atual de um quadro f e do quadro anterior f 1,
conforme a expresso:
2 1
1
.
1
F
f
f f
MAD
MADw
F MAD


(13)
Assim, o mtodo proposto combina as
caractersticas espaciais e temporais em uma matriz
, , , , , f f f f f f f x A B Z TI MAD MADw , em que f o
nmero de amostras de vdeo. A Figura 1 apresenta
as caractersticas temporais espaciais de dezessete
bases de dados de vdeos (denominada superconjunto
S) usadas neste trabalho e reportadas em [27]. A
recomendao ITU-T P.910 [31] defne a medida SI
(Spatial perceptual Information) como informao
espacial perceptual. A inspeo visual dessa fgura
mostra que as amostras de vdeo usadas neste
trabalho apresentam uma grande variao espaotemporal.
Fig. 1. Caractersticas espaciais e temporais do superconjunto
S com 216 amostras de referncia
3.2. Mtrica NRVQA-ELMtc
O algoritmo ELM [28] desenvolvido para o
treinamento de uma rede SLFN atribui pesos e
polarizaes (biases) de maneira aleatria, segundo
uma distribuio uniforme. O treinamento compreende
N amostras distintas representadas pela varivel
, , , 1, , n m
f f f f x t x t f N , cujo clculo
conforme a expresso

1
, 1, , ,
K
K i j j f j f
f
f g b f N

x w x o (14)
em que f o a sada (escore objetivo), g(x) a
funo de ativao e j o peso que conecta o jsimo
neurnio da camada oculta ao neurnio de
sada. De acordo com [28], uma rede SLFN com K
ns na camada oculta e uma funo de ativao g(x)
pode apresentar um erro mdio prximo de zero, i.e.,
1
0
K
f f
f
o t . Logo, h parmetros j , j w e j b tal
que

1
, 1, , ,
K
j j f j f
f
g b f N

w x t (15)
em que f t o vetor alvo (escores subjetivos),
T
1, , j j jn w w w o vetor de peso que conecta o jsimo
neurnio da camada oculta ao neurnio da
camada de entrada, j b denota a polarizao (bias) do
j-simo neurnio da camada oculta, j f w x o
produto interno de j w e f x . A Figura 2 ilustra o
algoritmo ELM empregado em uma arquitetura de
rede neural SLFN.
xi
1
j
N
1
j
K
ti
bj
N input neuron K hidden neuron output neuron
1
K
wj
Fig. 2. Arquitetura de uma rede neural SLFN usando algoritmo
de treinamento ELM
O sistema linear da Equao (16) resume o mtodo
do algoritmo ELM.
H T, (16)
em que a matriz da camada oculta representada por
1, , and 1, , f H h f N j K com a primeira
linha da matriz de caractersticas f x igual a
T
1 2 , , , f f f fn x x x x , i.e., a primeira linha igual a
1 1 1 1 1 1 1 , , , , , f f f f f f f x A B Z TI MAD MADw . A matriz de
sada e o vetor alvo (target) so defnidos como
T
1 , K e
T
1, , N T t t , respectivamente. O
termo
T
1 , 1, , j jm j j K denota o vetor de
peso que conecta o j-simo neurnio da camada
oculta e os neurnios de sada. Hung et al. [28]
propuseram a atribuio aleatria de pesos aos
parmetros j w e j b , a fm de seja obtido um pequeno
erro no-nulo durante o treinamento. Considerando o
sistema linear da Equao (17), os pesos da camada
de sada podem ser aproximados por
H T (17)
em que H defnida como matriz inversa
generalizada de Moore-Penrose (MP) [33] da matriz
de sada da camada oculta H . Alm disso, o
conjunto de treinamento , n oculta K e uma
funo de ativao g x , e.g., funo de base radial
(Radial Basis Function RBF), hard-limiting (hardlim),
sigmoidal (sig) e seno (sin). Em resumo, o algoritmo
ELM compreende trs etapas [28]:
i) Atribuio aleatria dos pesos de entrada j w e
polarizaes j b ;
ii) Clculo da matriz da camada de sada H ;
iii) Clculo dos pesos de sada : H T .
O mtodo NRVQA-ELMtc [27] implementa um
simples critrio de parada no treinamento da rede
neural SLFN, quanto atribuio aleatria dos pesos
j w e j b . Embora este critrio no seja direcionado,
busca os pesos relacionados com o menor RMSE
(Root-Mean-Square Error) entre a sada desejada
(escore subjetivo) e o escore objetivo na fase de
treinamento com k iteraes (tipicamente, k 100 ) e
N neurnios na camada oculta. Alm disso, conforme
estudo realizado em [27], caso o RMSE seja menor do
que 0,5 o algoritmo cessa a busca pelos parmetros
j w e j b .
4. RESULTADOS EXPERIMENTAIS
Esta seo apresenta os resultados de acurcia,
i.e., os coefcientes de correlao linear de Pearson
(Pearson Linear Correlation Coefcient PLCC) [34],
[35], entre os escores objetivos e subjetivos de 2627
amostras de vdeo estudadas em [27].
A Figura 3 compara a acurcia (PLCC) entre as
mtricas de referncia completa (FR) PSNR e MSSSIM
com o mtodo proposto (NRVQA-ELMtc) para
as 2627 amostras de vdeo, pertencentes a 17 bases
de dados de vdeo disponibilizadas por diversas
instituies e laboratrios [27]. A funo de ativao
usada na rede neural SLFN foi o seno (sin) com o
nmero de amostras de teste igual ao nmero de
neurnios na camada oculta ( N ). O mtodo de
validao cruzada mltipla (K-fold) foi usado com o
objetivo de gerar uma distribuio de acurcia, a qual
foi analisada por meio do diagrama de caixa (box-plot)
[36], em que o trao, o crculo e o quadrado, ambos
em vermelho, representam a mediana, a mdia e o
desvio padro, respectivamente. Destaca-se que
neste trabalho foi empregada uma validao cruzada
com um grande nmero de amostras de treinamentoteste
com K 100 , i.e., cada caixa do box-plot
comporta 100 experimentos distintos. Tipicamente, a
literatura apresenta trabalhos no campo da avaliao
Fig. 3. Box-plot da predio da acurcia (PLCC) entre as mtricas PSNR, MS-SSIM e o mtodo proposto NRVQA-ELMtc
de qualidade de vdeo com K entre 5 e 10 [37], [38].
Pela inspeo visual da Figura 3 observa-se que o
desempenho do mtodo proposto superior s
mtricas FR, em quaisquer condies de teste, i.e.,
para qualquer quantidade de amostras de teste
(nmero de neurnios na camada oculta) entre 25 e
500. Em especial, para N 50 , o mtodo proposto
apresenta valores de PLCC, em termos da mdia e
mediana, acima de 0,8, denotando uma forte
associao entre os escores objetivos e subjetivos, na
tarefa de predio de qualidade de vdeo. Isto ocorre
devido grande quantidade de amostras de vdeo
usadas no treinamento, e.g., para N 300 foram
usadas 2327 amostras de treinamento, ou seja,
mesmo usando pares de treinamento-teste disjuntos,
o mtodo proposto mostra uma acurcia superior s
mtricas de referncia completa. A assimetria positiva,
i.e., a maior concentrao da acurcia entre o
segundo quartil (mediana) e o terceiro quartil, na
distribuio do box-plot nos testes com 300 e 500
neurnios na camada oculta, indica que o mtodo
proposto apresenta um desempenho expressivo em
comparao com as mtricas FR.
Entretanto, mesmo para N entre 25 e 50, o
mtodo proposto apresentou uma acurcia maior do
que as mtricas FR, cujo melhor resultado foi para
N 25 com o desvio-quartil (amplitude interquartlica)
confnado entre 0,65 e 0,8. Alm disso, este resultado
tambm apresentou assimetria positiva com a mdia
do PLCC em torno de 0,75.
5. CONCLUSO
Este trabalho apresentou uma mtrica NR baseada
em uma rede neural artifcial SLFN, cujo treinamento
determinado pelo algoritmo ELM, o qual considera
caractersticas espao-temporais e os escores
subjetivos (alvos) extrados de 2627 amostras
treinamento. Alm disso, este trabalho prope uma
extenso do algoritmo ELM por meio de um simples
critrio de parada, a fm de que sejam obtidos
parmetros da rede neural artifcial relacionados com
o menor RMSE. Tipicamente, a comparao entre
mtricas FR e NR injusta, devido ausncia do
vdeo de referncia na obteno do escore de
qualidade em mtricas NR. Entretanto, os resultados
experimentais mostram que o mtodo proposto
apresentou desempenho superior s mtricas de
referncia completa PSNR e MS-SSIM, sobretudo,
quando o nmero de amostras de teste e de neurnios
na camada oculta da rede SLFN maior do que 250.
Logo, a mtrica NRVQA-ELMtc pode ser empregada
no monitoramento de qualidade em sistemas de
transmisso e recepo de vdeo digital, tais como
IPTV (Internet Protocol Television), TV digital ou em
dispositivos mveis, tais como ultrabooks,
smartphones, tablets e em aparelhos WiDi (Wireless
Display).
REFERNCIAS
[1] S. Winkler, Issues in vision modeling for perceptual
video quality assessment, Signal Processing, vol. 78,
no. 2, pp. 231252, 1999.
[2] Z. Wang and A. C. Bovik, Modern image quality
assessment. San Rafael, CA: Morgan & Claypool,
2006.
[3] W. Lin and C.-C. Jay Kuo, Perceptual visual quality
metrics: A survey, Journal of Visual Communication
and Image Representation, vol. 22, no. 4, pp. 297312,
May 2011.
[4] S. S. Hemami and A. R. Reibman, No-reference image
and video quality estimation: Applications and humanmotivated
design, Signal Processing: Image
Communication, vol. 25, no. 7, pp. 469481, 2010.
[5] Z. Wang and A. Bovik, Reduced- and No-Reference
Image Quality Assessment, IEEE Signal Processing
Magazine, vol. 28, no. 6, pp. 2940, Nov. 2011.
[6] R. V. Babu, S. Suresh, and A. Perkis, No-reference
JPEG-image quality assessment using GAP-RBF,
Signal Processing, vol. 87, no. 6, pp. 14931503, 2007.
[7] X. Jiang, F. Meng, J. Xu, and W. Zhou, No-Reference
Perceptual Video Quality Measurement for High
Defnition Videos Based on an Artifcial Neural
Network, in Computer and Electrical Engineering,
2008. ICCEE 2008. International Conference on, 2008,
pp. 424427.
[8] J. Choe, K. Lee, C. Lee, and S. Korea, No-reference
video quality measurement using neural networks, in
2009 16th International Conference on Digital Signal
Processing, 2009, pp. 14.
[9] S. Suresh, R. Venkatesh Babu, and H. J. Kim, Noreference
image quality assessment using modifed
extreme learning machine classifer, Applied Soft
Computing, vol. 9, no. 2, pp. 541552, Mar. 2009.
[10] A. M. Eskicioglu and P. S. Fisher, Image quality
measures and their performance, IEEE Transactions
on Communications, vol. 43, no. 12, pp. 29592965,
1995.
[11] U. Engelke and H.-J. Zepernick, Perceptual-based
Quality Metrics for Image and Video Services: A
Survey, in Proceedings EuroNGI Conf. Next
Generation Internet Networks, 2007, pp. 190197.
[12] Z. Wang, A. C. Bovik, H. R. Sheikh, and E. P
Simoncelli, Image quality assessment: from error
visibility to structural similarity., IEEE Transactions on
Image Processing, vol. 13, no. 4, pp. 600612, 2004.
[13] Z. Wang, E. P. Simoncelli, and A. C. Bovik, Multiscale
structural similarity for image quality assessment, in
The Thrity-Seventh Asilomar Conference on Signals,
Systems & Computers, 2003, 2003, vol. 2, no. 1, pp.
13981402.
[14] H. R. Wu, K. R. Rao, and A. A. Kassim, Digital Video
Image Quality and Perceptual Coding, Journal of
Electronic Imaging, vol. 16, no. 3, 2007.
[15] Z. Wang and A. C. Bovik, A universal image quality
index, IEEE Signal Processing Letters, vol. 9, no. 3,
pp. 8184, Mar. 2002.
[16] Y. Shi, Y. Ding, R. Zhang, and J. Li, Structure and Hue
Similarity for Color Image Quality Assessment, in 2009
International Conference on Electronic Computer
Technology, 2009, pp. 329333.
[17] W. B. Silva, A. A. P. Pohl, and K. V. O. Fonseca, A
Reduced-Reference Video Quality Assessment Method
based on the Activity-Diference of DCT Coefcients,
IEICE Transactions on Information and Systems, vol. E96-D, no. 3, 2013.
[18] P. Le Callet, C. Viard-Gaudin, and D. Barba, A Convolutional Neural Network Approach for Objective Video Quality Assessment, IEEE Transactions on Neural Networks, vol. 17, no. 5, pp. 13161327, 2006.
[19] P. Le Callet and D. Barba, Image Quality Assessment: From Sites Errors to a Global Appreciation of Quality, in Proceedings of the Picture Coding Sympsium, 2001, pp. 105108.
[20] M. Miyahara, K. Kotani, and V. R. Algazi, Objective picture quality scale (PQS) for image coding, IEEE Transactions on Communications, vol. 46, no. 9, pp. 12151226, 1998.
[21] M. Slanina, V. Ricny, and R. Forchheimer, A Novel Metric for H.264/AVC No-Reference Quality Assessment, in 14th International Workshop on Systems, Signals and Image Processing and 6th EURASIP Conference focused on Speech and Image Processing, Multimedia Communications and Services, 2007, pp. 114117.
[22] O. Sugimoto, S. Naito, S. Sakazawa, and A. Koike, Objective perceptual video quality measurement method based on hybrid no reference framework, in 16th IEEE International Conference on Image Processing (ICIP09), 2009, pp. 22372240.
[23] T. Oelbaum, C. Keimel, and K. Diepold, Rule-Based No-Reference Video Quality Evaluation Using Additionally Coded Videos, IEEE Journal of Selected Topics in Signal Processing, vol. 3, no. 2, pp. 294303, 2009.
[24] N. Staelens, N. Vercammen, Y. Dhondt, B. Vermeulen, P. Lambert, R. de Walle, and P. Demeester, ViQID: A No-Reference bit stream-based visual quality impairment detector, in Proceedings of the Second Int Quality of Multimedia Experience (QoMEX) Workshop, 2010, pp. 206211.
[25] F. Yang, S. Wan, Q. Xie, and H. R. Wu, No-Reference Quality Assessment for Networked Video via Primary Analysis of Bit Stream, IEEE Transactions on Circuits and Systems for Video Technology, vol. 20, no. 11, pp. 15441554, Nov. 2010.
[26] Z. Wang, H. R. Sheikh, and A. C. Bovik, Objective Video Quality Assessment, in The Handbook of Video Databases: Design and Applications, B. Furht and O. Marques, Eds. Boca Raton, FL, USA: CRC Press, 2003, pp. 10411078.
[27] W. B. da Silva and A. de A. P. Pohl, Mtodos Sem Referncia Baseados em Caractersticas Espao-Temporais para Avaliao Objetiva de Qualidade de Vdeo Digital, Universidade Tecnolgica Federal do Paran (UTFPR), 2013.
[28] G.-B. Huang, Q.-Y. Zhu, and C.-K. Siew, Extreme learning machine: Theory and applications, Neurocomputing, vol. 70, no. 13, pp. 489501, Dec. 2006.
[29] Z. Wang, H. R. Sheikh, and A. C. Bovik, No-reference perceptual quality assessment of JPEG compressed images, in Image Processing. 2002. Proceedings. IEEE International Conference on Image Processing, 2002, vol. 1, pp. vol.1 I477 I480.
[30] W. B. Silva and A. A. P. Pohl, No-Reference Video Quality Assessment Method based on the Levenberg-Marquardt Minimization, in XXX Brazilian Symposium on Telecommunications (SBrT12), 2012.
[31] ITU-T P.910, Subjective video quality assessment methods for multimedia applications, Standardization Sector of ITU, 1999.
[32] W. Ding, Y. Tong, Q. Zhang, and D. Yang, Image and Video Quality Assessment Using Neural Network and SVM, Tsinghua Science & Technology, vol. 13, no. 1, pp. 112116, 2008.
[33] K. S. Banerjee, C. R. Rao, and S. K. Mitra, Generalized Inverse of Matrices and Its Applications, Technometrics, vol. 15, no. 1, p. 197, Feb. 1973.
[34] VQEG, Final report from the video quality experts group on the validation of reduced-reference and no-reference objective models for standard defnition television, Phase I, 2009.
[35] VQEG, Report on the validation of video quality models for high defnition video content, 2010.
[36] J. W. Tukey, Exploratory Data Analysis. New York: Addison-Wesley Publishing Company, 1977.
[37] P. Gastaldo and R. Zunino, Neural networks for the no-reference assessment of perceived quality, J. Electronic Imaging, vol. 14, no. 3, p. 033004, 2005.
[38] R. Herzog, M. adk, T. O. Aydn, K. I. Kim, K. Myszkowski, and H.-P. Seidel, NoRM: No-Reference Image Quality Metric for Realistic Image Synthesis, Comp. Graph. Forum, vol. 31, no. 2pt4, pp. 545554, 2012.
A Televiso Corporativa como Canal Miditico
Jos Riccardo Bonavita
ricardo.bonavita@eco.ufrj.br
28 Revista de Radiodifuso v. 07 n. 08 2013
Pesquisas em ambientes digitais - TV Internet Radio Cinema
1
A Televiso Corporativa como Canal Miditico
Jos Riccardo Bonavita
Escola de Comunicao da UFRJ, Rio de Janeiro, Brasil, ricardo.bonavita@eco.ufrj.br
Resumo: Este artigo tem por finalidade
analisar a forma como empresas do mundo
inteiro usam a linguagem universal da
mdia televisiva e, atravs de transmisses
de broadcasting (transmisses de televiso
via satlite ou intranet), para filiais e pontos
de reunio de seus funcionrios e
colaboradores espalhados em uma
determinada regio de um pas, ou mesmo
em vrios pases, simultaneamente,
copiam os modelos criados pela livre
manifestao do canal miditico televisivo
como forma de tentar integrar seus
funcionrios e repassar o discurso e a
mentalidade corporativa e seus valores.
Palavras chave: Televiso, corporativa,
comunicao, mdia, audiovisual.
Introduo
A televiso estampa os discursos
de cada poca e de cada sociedade com
suas imagens, funcionando at hoje desta
forma, como uma vitrine discursiva, e que
ainda se reflete em seu prestgio, na
tcnica da confiabilidade em sua
informao. O discurso criado para a
televiso, que existiu antes dela e se
enraizou depois dela, formou seu lugar na
sociedade, destacando-a e fazendo com
que se tornasse o veculo mais popular.
Por conseguinte, a formatao da
mensagem empresarial atravs do meio
televisivo corporativo foi a maneira
encontrada para concretizar objetivos
comunicacionais corporativos e, por
conseguinte, obter a apreenso de
contedos e conceitos de valor corporativo
por parte dos colaboradores de uma
empresa.
Objetivo
Ao analisarmos como se d a
utilizao da linguagem de televiso pela
TV de Comunicao Interna, observamos
que a apropriao pela ideologia
corporativa da face artstica do audiovisual
remete a caractersticas reconhecidas pelo
pblico como universais, expressa por
seus meios s aspiraes autnticas deste
pblico, encontrando a um modelo de
linguagem. Pretendemos traar um breve
painel mostrando que a formatao da
mensagem empresarial nestes moldes,
atravs da transmisso de Televiso
Corporativa, uma das garantias de
sucesso desta forma de comunicao.
Discusso: a construo de um modelo
Dunker e Prado citando Zizek [1]
nos afirma que: assim, pois, a luta pela
hegemonia ideolgica e poltica sempre a
luta pela apropriao dos termos que so
espontaneamente vivenciados como
apolticos. O que isso quer dizer
simplesmente? Quer dizer que, inspirados
muitas vezes em programas da mdia
televisiva tradicional (no corporativos), sua
imitao corporativa incorpora mtodos e
normas da TV tradicional para us-los a
seu servio, transferindo a formatao de
entretenimento para o contedo
estritamente empresarial, ou comercial.
Assim, gerentes se transmutam em
apresentadores de auditrio, presidentes
em lderes motivacionais, diretores de
Marketing em atores. O espao cnico
agora a empresa, suas logomarcas, seus
ambientes antes fechados ao pblico e
agora vistos como set, sua misso lida
como texto de um telejornal.
Essa apropriao promove e
impulsiona as diretrizes corporativas e
valores que as empresas desejam ver
absorvidos por seus funcionrios, e assim
v-los multiplicados e postos a servio do
crescimento empresarial. O canal miditico
televisivo ajuda a massificar e disfara,
atravs de uma linguagem j digerida pela
memria comum, ou seja, a familiaridade
com os modelos da televiso aberta, a
mensagem corporativa.
Desse modo, a preocupao das
empresas tende a ser cada vez maior em
relao aos sistemas que possibilitem uma
comunicao gil e eficaz. A tendncia
que se produza uma ligao forte entre os
colaboradores e a empresa, atravs da TV
Corporativa, criando uma fora produtiva,
que tende a influenciar a definio das
metas e objetivos da organizao. Segundo
Kotler [2]:
...a cultura organizacional um conjunto de
crenas e valores especficos de uma
determinada organizao. Essas crenas e
valores referem-se aos hbitos,
mentalidade, estilo de liderana,
Pesquisas em ambientes digitais - TV Internet Radio Cinema
Revista de Radiodifuso v. 07 n. 08 2013 29
MTRICA SEM REFERNCIA BASEADA EM REDES NEURAIS
PARA AVALIAO OBJETIVA DE QUALIDADE DE VDEO DIGITAL
Wyllian Bezerra da Silva, Alexandre de Almeida Prado Pohl
Programa de Ps-Graduao em Engenharia Eltrica e Informtica Industrial (CPGEI) UTFPR, Curitiba, Brasil
wyllianbs@gmail.com, pohl@utfpr.edu.br
Resumo: Este trabalho apresenta uma mtrica sem referncia para avaliao de qualidade de vdeo digital baseada em uma rede neural artifcial que usa uma verso estendida do algoritmo de aprendizado ELM (Extreme Learning Machine). O mtodo proposto realiza o treinamento da rede neural a partir de seis caractersticas espao-temporais. Os resultados experimentais mostram que o mtodo proposto apresenta desempenho superior s mtricas de referncia completa PSNR e MS-SSIM na tarefa de predio de qualidade de vdeo. Logo, o mtodo proposto pode ser usado no monitoramento de qualidade em sistemas de transmisso e recepo de vdeo digital, tais como IPTV e TV digital.
Palavras chave: algoritmo ELM, avaliao objetiva de vdeo, mtrica sem referncia, rede neural artifcial.
1. INTRODUO
Durante os ltimos anos, a literatura tem apresentado um nmero crescente publicaes acerca de mtricas objetivas para avaliao de qualidade de vdeo para diversas aplicaes em radiodifuso ou no processamento de vdeo digital, seja na aquisio do sinal, codifcao e decodifcao, compresso, transmisso, restaurao, armazenamento, segmentao e exibio de sinais de vdeo digital [14]. A avaliao de qualidade de vdeo digital pode ser realizada por meio de mtricas subjetiva e objetiva. A primeira requer uma grande quantidade de recursos humanos e apresenta elevado custo em sua implementao [13]. Porm, as mtricas objetivas so vantajosas quando apresentam um determinado grau de correlao com as mtricas subjetivas. Logo, o desenvolvimento destas um desafo no campo de avaliao de qualidade de vdeo e imagem. Alm disso, as mtricas objetivas, devido natureza de seu critrio objetivo, independem de interao humana e so facilmente reprodutveis [3]. Dentre as mtricas objetivas destacam-se as mtricas sem referncia (No-Reference NR), pois no necessitam do vdeo de referncia no clculo de sua medida. Entretanto, estas requerem um conhecimento a priori sobre as distores em vdeo digital para que seja estabelecida uma correlao com os resultados subjetivos [3].
A maioria das mtricas NR encontradas na literatura so baseadas na avaliao de qualidade de imagens e em caractersticas relacionadas ao Sistema Visual Humano (SVH). Assim, o desenvolvimento de mtricas NR difcil, devido necessidade de emular a percepo do SVH que envolve aspectos cognitivos, emocionais e estticos relacionados ao contedo do vdeo e que so altamente dependentes do observador [4], [5].
A literatura reporta diversos esforos no desenvolvimento de mtricas para avaliao de qualidade de vdeo baseadas em redes neurais e em algoritmos de aprendizado. Babu et al. [6] apresentam uma mtrica para avaliar a qualidade de imagens comprimidas em JPEG (Joint Photographic Experts Group) por meio de um algoritmo de aprendizado de crescimento e propem o uso de uma rede neural GAP-RBF (Growing and Pruning Radial Basis Function) que usa caractersticas relacionadas ao SVH. Jiang et al. [7] desenvolveram uma mtrica NR para avaliao de qualidade de vdeo em HD (High Defnition) baseada em uma rede neural treinada pelo algoritmo BP (Back-Propagation) que usa seis caractersticas espao-temporais e a RoI (Region of Interest). Choe et al. [8] desenvolveram uma mtrica NR baseada no fuxo de bits para avaliao de qualidade de vdeo codifcado em H.264. Esta mtrica extrai caractersticas quadro a quadro e usa uma rede neural alimentada adiante (feedforward) com trs camadas. Suresh et al. [9] apresentaram uma extenso do algoritmo ELM na tarefa de avaliar a qualidade de imagens comprimidas em JPEG com base no esquema de seleo mltipla KS-ELM (K-fold selection Scheme using ELM) e no algoritmo RCGA-ELM (Real-Coded Genetic Algorithm using ELM) para seleo dos pesos de entrada e polarizaes.
Este trabalho apresenta uma verso estendida do algoritmo ELM para redes neurais SLFN (Single-hidden-Layer Feedforward Neural Networks) que implementa um simples critrio de parada na fase de treinamento. Alm disso, esse mtodo usa seis caractersticas espao-temporais de vdeos submetidos a diversas condies de distoro.
Este artigo est dividido da seguinte maneira: a Seo 2 descreve as mtricas para avaliao de qualidade de vdeo. A Seo 3 descreve o mtodo NR proposto para avalio de qualidade de vdeo digital. A Seo 4 apresenta os resultados experimentais, em que so comparados o mtodo NR proposto e duas mtricas FR. Finalmente, a Seo 5 apresenta a concluso do artigo.
2. AVALIAO DE QUALIDADE DE VDEO
O processo de avaliao de qualidade de vdeo
pode ser realizado com a aplicao de mtricas
subjetivas ou objetivas. As mtricas subjetivas
estimam a qualidade do vdeo por meio de avaliadores
humanos. Logo, exigem um alto custo, pois
necessitam de uma grande quantidade de recursos
humanos e apresentam problemas quanto aos
requisitos de imparcialidade e reprodutibilidade,
tornando-se inapropriadas em sistemas de
radiodifuso ou em provedores de contedo [10], [11].
Por outro lado, as mtricas objetivas so baseadas em
modelos matemticos, cujo objetivo produzir um
escore de qualidade que emule a percepo do SVH.
Alm disso, as mtricas objetivas requerem baixo
custo de implementao (quando comparadas com as
mtricas subjetivas) e no apresentam problemas
quanto reprodutibilidade e imparcialidade.
As mtricas objetivas para avaliao de qualidade
de vdeo podem ser classifcadas em trs categorias:
(i) mtricas de referncia completa (Full-Reference
FR); (ii) mtricas de referncia reduzida (Reduced-
Reference RR); (iii) mtricas sem referncia (NR).
2.1. Mtricas FR
As mtricas FR requerem o vdeo de referncia
(fonte) no clculo do escore de qualidade. Estas
mtricas so amplamente utilizadas no processo de
validao de mtricas RR ou NR, por meio da
comparao de desempenho defnida pelas
recomendaes do Grupo de Especialistas em
Qualidade de Vdeo (VQEG Video Quality Experts
Group) que um rgo de padronizao internacional
de mtricas subjetivas e objetivas de qualidade de
vdeo. Dentre as mtricas FR, destacam-se o PSNR
(Peak Signal-to-Noise Ratio), SSIM (Structural
SIMilarity index) [12] e MS-SSIM (Multi-Scale
Structural SIMilarity index) [13].
O PSNR uma mtrica FR baseada no erro pixel a
pixel de fcil implementao. Entretanto, apresenta
baixa correlao com o SVH [14]. A sua medida
processada sobre o erro quadro a quadro, i.e., entre o
quadro original x e o quadro y . A expresso a seguir
defne o PSNR para um conjunto de quadros F .
20
1
1
PSNR 20log ,
F
f
f f
v
F MSE



(1)
com

2
0 0
1
MSE , , , , ,
N M
f
i j
x f i j y f i j
NM

(2)
em que o termo f v igual a (2 1) k , cujo k o
nmero de bits por pixel, i.e., a componente de
luminncia do quadro f . Os termos x f ,i, j e
y f ,i, j so os valores de luminncia do quadro de
origem e degradado, respectivamente. As
componentes bidimensionais so representadas pelo
nmero de colunas N e pelo nmero de linhas M . O
termo f MSE defnido como erro quadrtico mdio
ou MSE (Mean Square Error).
A mtrica SSIM baseia-se no fato de que o SVH
fortemente adaptado para extrair informaes das
caractersticas estruturais de um quadro ou imagem.
Logo, uma medida de similaridade estrutural (ou
distoro) pode prover boa aproximao para a
qualidade perceptual de um vdeo [3, 79]. Sejam x e
y dois sinais no-negativos, em que y o sinal
degradado e x o sinal original (sem perda de
qualidade), a medida de similaridade utilizada como
um ndice quantitativo de qualidade do sinal distorcido,
ou seja, x tomado como a referncia para medir a
qualidade de y . A mtrica SSIM possui diversas
extenses, dentre as quais a verso MS-SSIM,
proposta por Wang et al. [13] que assume uma
abordagem multiescalar.
2.2. Mtricas RR
As mtricas de referncia reduzida retiram certa
quantidade de caractersticas do vdeo original (fonte),
baseadas em componentes espaciais, temporais, no
domnio da frequncia ou no fuxo de bits (bitstream).
Este tipo de mtrica amplamente utilizada no
monitoramento de transmisses em rede [17]. Neste
tipo de cenrio de aplicao, o vdeo transmitido
com uma sequncia de informao codifcada
(overhead) e no lado receptor ocorre a sua
decodifcao, seguido pelo clculo do ndice de
qualidade, o qual obtido por meio da comparao
entre a representao reduzida da informao nos
pares emissor e receptor [18]. Tipicamente, mtricas
RR so implementadas por meio de funes, divididas
em duas etapas [19]: (i) clculo do erro entre os
vdeos original e distorcido, constitudo pela diferena
de suas caractersticas, a fm de compor a
representao reduzida da informao; (ii) funo que
agrupa os erros ou diferenas para obter um ndice de
qualidade global. Algumas mtricas RR exploram
propriedades dos artefatos, por meio da extrao de
caractersticas e um modelo de parametrizao [20]
com foco em tipos especfcos de distores
(artefatos). Esta abordagem encontrada em Silva et
al. [17], cujo clculo do escore de qualidade
baseado na diferena de atividade dos coefcientes
DCT (Discrete Cosine Transform) em um macro bloco
com resoluo de 1616 pixels.
2.3. Mtricas NR
As mtricas NR extraem caractersticas
relacionadas ao SVH do vdeo distorcido, i.e., na
recepo do sinal de vdeo [14]. Tipicamente, h duas
abordagens no desenvolvimento destas mtricas: (i)
extrao dos parmetros sobre o fuxo de bits, tais
como a taxa de compresso, informaes
relacionadas ao GoP (Group of Pictures), estimao
de movimento, perfl e nvel de codifcao, bem como
o parmetro de quantizao ou QP (Quantization
Parameter) [2125]. Mtricas NR apresentam maior
complexidade quando so aplicadas em vdeo, devido
variao temporal dos quadros, contedos das
cenas e difculdade de compreenso das
caractersticas do SVH [26]. Assim, algumas mtricas
dessa categoria exploram caractersticas espaciais e
temporais na estimao de qualidade de vdeo [21].
3. MTODO PROPOSTO
O mtodo proposto, denominado NRVQA-ELMtc
(No-Reference Video Quality Assessment using
Extreme Learning Machine algorithm with termination
criteria) [27] combina caractersticas espaciais e
temporais, por meio de uma rede neural artifcial
SLFNs usando o algoritmo de treinamento ELM [28]
com a implementao de um simples critrio de
parada.
3.1. Caractersticas espao-temporais
As caractersticas espaciais incorporadas no
mtodo proposto so baseadas em medidas de
artefatos em vdeo digital, i.e., distores de blocagem
e borramento desenvolvidas por Wang et al. [20].
Assim, a componente de luminncia do quadro f
representada por y(f , i, j ) com i 1,M e j 1, N ,
em que M e N so os nmeros de linhas e colunas,
respectivamente, de um quadro. Logo, as diferenas
de luminncia ao longo das linhas e colunas so
representadas, respectivamente, pelas expresses a
seguir.


, , , , 1 , , , 1, 1 ,
, , , 1, , , , 1, 1 .
h
v
d f i j y f i j y f i j j N
d f i j y f i j y f i j i M


(3)
O efeito de blocagem pode ser estimado pela
mdia das diferenas entre as bordas dos blocos da
DCT (Discrete Cosine Transform) nas direes
horizontal e vertical para uma sequncia F de
quadros, conforme mostra a Equao (4), com um
macrobloco de dimenso , cujo tamanho tpico
de 8 [20].


1
1
1 1 1
1
1
1 1 1
1
, , 1 ,
1
1
1
, 1 , .
1
1
N
F M
h h
f i j
M
F N
v
i j
v
f
B d f i j
N
F M
B d f i j
M
F N












(4)
A medida de blocagem em uma sequncia de
vdeo com F quadros determinada pela mdia entre
h B e v B , caracterizando a medida B , conforme a
expresso a seguir.
.
2
h v B B
B

(5)
Os efeitos de borramento so estimados pelo
clculo da reduo de atividade entre os blocos ,
em que usada a medida de blocagem nas direes
horizontal e vertical, conforme as expresses




1
1 1 1
1
1 1 1
, , ,
1 1
, ,
1
.
1
F M N
h h h
f i j
F M N
v v
f
v
i j
A d f i j B
F M N
A d f i j B
F N M








(6)
A medida de borramento, representada por A ,
conforme a Equao (7), determinada pela mdia
entre h A e v A .
.
2
h v A A
A

(7)
O segundo fator que contribui para a deteco do
artefato de borramento baseado na taxa de
cruzamento por zero (Zero Crossing ZC) nas
direes horizontal e vertical, conforme as expresses
a seguir.




2
1 1 1
2
1 1 1
1
, , ,
2
1
, , ,
2
F M N
h h
f i j
F M N
v v
f i j
Z z f i j
F M N
Z z f i j
F N M




(8)
em que os termos h z e v z so determinados por


1, na direo horizontal
, , ,
0, caso contrrio
1, na direo vertical
, , .
0, caso contrrio
h
v
z f i j
z f i j



(9)
Assim, a medida de borramento Z determinada
pela mdia entre as componentes h Z e v Z .
.
2
h v Z Z
Z

(10)
O mtodo proposto tambm incorpora trs
caractersticas temporais no treinamento da rede
neural SLFN com o algoritmo ELM.
A primeira caracterstica temporal a diferena de
movimento entre quadros adjacentes, representada
pela varivel TI (Temporal perceptual Information) [31]
que considera os valores de luminncia de pixels
localizados em uma mesma regio de um quadro,
conforme a expresso a seguir.

2
1
, , ,
1
F
f
TI m f i j
F


(11)
em que o nmero total de quadros F e mf ,i, j

o desvio padro da diferena de movimento
(diferena de luminncia) entre o quadro atual
y f ,i, j e o quadro anterior y f 1,i, j .
A segunda caracterstica temporal a mdia da
diferena absoluta (Mean Absolute Diference MAD)
[31] entre quadros sucessivos, representada pela
Equao (12) que defne a medida global da MAD
para todos os quadros de um vdeo.


2 1 1
1
, , 1, , .
1
F M N
f i j
MAD y f i j y f i j
M N F



(12)
A terceira caracterstica temporal a mdia da
diferena absoluta ponderada (weighted Mean
Absolute Diference MADw) [32], a qual mede o grau
de variao das cenas de um vdeo que considera a
cena atual de um quadro f e do quadro anterior f 1,
conforme a expresso:
2 1
1
.
1
F
f
f f
MAD
MADw
F MAD


(13)
Assim, o mtodo proposto combina as
caractersticas espaciais e temporais em uma matriz
, , , , , f f f f f f f x A B Z TI MAD MADw , em que f o
nmero de amostras de vdeo. A Figura 1 apresenta
as caractersticas temporais espaciais de dezessete
bases de dados de vdeos (denominada superconjunto
S) usadas neste trabalho e reportadas em [27]. A
recomendao ITU-T P.910 [31] defne a medida SI
(Spatial perceptual Information) como informao
espacial perceptual. A inspeo visual dessa fgura
mostra que as amostras de vdeo usadas neste
trabalho apresentam uma grande variao espaotemporal.
Fig. 1. Caractersticas espaciais e temporais do superconjunto
S com 216 amostras de referncia
3.2. Mtrica NRVQA-ELMtc
O algoritmo ELM [28] desenvolvido para o
treinamento de uma rede SLFN atribui pesos e
polarizaes (biases) de maneira aleatria, segundo
uma distribuio uniforme. O treinamento compreende
N amostras distintas representadas pela varivel
, , , 1, , n m
f f f f x t x t f N , cujo clculo
conforme a expresso

1
, 1, , ,
K
K i j j f j f
f
f g b f N

x w x o (14)
em que f o a sada (escore objetivo), g(x) a
funo de ativao e j o peso que conecta o jsimo
neurnio da camada oculta ao neurnio de
sada. De acordo com [28], uma rede SLFN com K
ns na camada oculta e uma funo de ativao g(x)
pode apresentar um erro mdio prximo de zero, i.e.,
1
0
K
f f
f
o t . Logo, h parmetros j , j w e j b tal
que

1
, 1, , ,
K
j j f j f
f
g b f N

w x t (15)
em que f t o vetor alvo (escores subjetivos),
T
1, , j j jn w w w o vetor de peso que conecta o jsimo
neurnio da camada oculta ao neurnio da
camada de entrada, j b denota a polarizao (bias) do
j-simo neurnio da camada oculta, j f w x o
produto interno de j w e f x . A Figura 2 ilustra o
algoritmo ELM empregado em uma arquitetura de
rede neural SLFN.
xi
1
j
N
1
j
K
ti
bj
N input neuron K hidden neuron output neuron
1
K
wj
Fig. 2. Arquitetura de uma rede neural SLFN usando algoritmo
de treinamento ELM
O sistema linear da Equao (16) resume o mtodo
do algoritmo ELM.
H T, (16)
em que a matriz da camada oculta representada por
1, , and 1, , f H h f N j K com a primeira
linha da matriz de caractersticas f x igual a
T
1 2 , , , f f f fn x x x x , i.e., a primeira linha igual a
1 1 1 1 1 1 1 , , , , , f f f f f f f x A B Z TI MAD MADw . A matriz de
sada e o vetor alvo (target) so defnidos como
T
1 , K e
T
1, , N T t t , respectivamente. O
termo
T
1 , 1, , j jm j j K denota o vetor de
peso que conecta o j-simo neurnio da camada
oculta e os neurnios de sada. Hung et al. [28]
propuseram a atribuio aleatria de pesos aos
parmetros j w e j b , a fm de seja obtido um pequeno
erro no-nulo durante o treinamento. Considerando o
sistema linear da Equao (17), os pesos da camada
de sada podem ser aproximados por
H T (17)
em que H defnida como matriz inversa
generalizada de Moore-Penrose (MP) [33] da matriz
de sada da camada oculta H . Alm disso, o
conjunto de treinamento , n oculta K e uma
funo de ativao g x , e.g., funo de base radial
(Radial Basis Function RBF), hard-limiting (hardlim),
sigmoidal (sig) e seno (sin). Em resumo, o algoritmo
ELM compreende trs etapas [28]:
i) Atribuio aleatria dos pesos de entrada j w e
polarizaes j b ;
ii) Clculo da matriz da camada de sada H ;
iii) Clculo dos pesos de sada : H T .
O mtodo NRVQA-ELMtc [27] implementa um
simples critrio de parada no treinamento da rede
neural SLFN, quanto atribuio aleatria dos pesos
j w e j b . Embora este critrio no seja direcionado,
busca os pesos relacionados com o menor RMSE
(Root-Mean-Square Error) entre a sada desejada
(escore subjetivo) e o escore objetivo na fase de
treinamento com k iteraes (tipicamente, k 100 ) e
N neurnios na camada oculta. Alm disso, conforme
estudo realizado em [27], caso o RMSE seja menor do
que 0,5 o algoritmo cessa a busca pelos parmetros
j w e j b .
4. RESULTADOS EXPERIMENTAIS
Esta seo apresenta os resultados de acurcia,
i.e., os coefcientes de correlao linear de Pearson
(Pearson Linear Correlation Coefcient PLCC) [34],
[35], entre os escores objetivos e subjetivos de 2627
amostras de vdeo estudadas em [27].
A Figura 3 compara a acurcia (PLCC) entre as
mtricas de referncia completa (FR) PSNR e MSSSIM
com o mtodo proposto (NRVQA-ELMtc) para
as 2627 amostras de vdeo, pertencentes a 17 bases
de dados de vdeo disponibilizadas por diversas
instituies e laboratrios [27]. A funo de ativao
usada na rede neural SLFN foi o seno (sin) com o
nmero de amostras de teste igual ao nmero de
neurnios na camada oculta ( N ). O mtodo de
validao cruzada mltipla (K-fold) foi usado com o
objetivo de gerar uma distribuio de acurcia, a qual
foi analisada por meio do diagrama de caixa (box-plot)
[36], em que o trao, o crculo e o quadrado, ambos
em vermelho, representam a mediana, a mdia e o
desvio padro, respectivamente. Destaca-se que
neste trabalho foi empregada uma validao cruzada
com um grande nmero de amostras de treinamentoteste
com K 100 , i.e., cada caixa do box-plot
comporta 100 experimentos distintos. Tipicamente, a
literatura apresenta trabalhos no campo da avaliao
Fig. 3. Box-plot da predio da acurcia (PLCC) entre as mtricas PSNR, MS-SSIM e o mtodo proposto NRVQA-ELMtc
de qualidade de vdeo com K entre 5 e 10 [37], [38].
Pela inspeo visual da Figura 3 observa-se que o
desempenho do mtodo proposto superior s
mtricas FR, em quaisquer condies de teste, i.e.,
para qualquer quantidade de amostras de teste
(nmero de neurnios na camada oculta) entre 25 e
500. Em especial, para N 50 , o mtodo proposto
apresenta valores de PLCC, em termos da mdia e
mediana, acima de 0,8, denotando uma forte
associao entre os escores objetivos e subjetivos, na
tarefa de predio de qualidade de vdeo. Isto ocorre
devido grande quantidade de amostras de vdeo
usadas no treinamento, e.g., para N 300 foram
usadas 2327 amostras de treinamento, ou seja,
mesmo usando pares de treinamento-teste disjuntos,
o mtodo proposto mostra uma acurcia superior s
mtricas de referncia completa. A assimetria positiva,
i.e., a maior concentrao da acurcia entre o
segundo quartil (mediana) e o terceiro quartil, na
distribuio do box-plot nos testes com 300 e 500
neurnios na camada oculta, indica que o mtodo
proposto apresenta um desempenho expressivo em
comparao com as mtricas FR.
Entretanto, mesmo para N entre 25 e 50, o
mtodo proposto apresentou uma acurcia maior do
que as mtricas FR, cujo melhor resultado foi para
N 25 com o desvio-quartil (amplitude interquartlica)
confnado entre 0,65 e 0,8. Alm disso, este resultado
tambm apresentou assimetria positiva com a mdia
do PLCC em torno de 0,75.
5. CONCLUSO
Este trabalho apresentou uma mtrica NR baseada
em uma rede neural artifcial SLFN, cujo treinamento
determinado pelo algoritmo ELM, o qual considera
caractersticas espao-temporais e os escores
subjetivos (alvos) extrados de 2627 amostras
treinamento. Alm disso, este trabalho prope uma
extenso do algoritmo ELM por meio de um simples
critrio de parada, a fm de que sejam obtidos
parmetros da rede neural artifcial relacionados com
o menor RMSE. Tipicamente, a comparao entre
mtricas FR e NR injusta, devido ausncia do
vdeo de referncia na obteno do escore de
qualidade em mtricas NR. Entretanto, os resultados
experimentais mostram que o mtodo proposto
apresentou desempenho superior s mtricas de
referncia completa PSNR e MS-SSIM, sobretudo,
quando o nmero de amostras de teste e de neurnios
na camada oculta da rede SLFN maior do que 250.
Logo, a mtrica NRVQA-ELMtc pode ser empregada
no monitoramento de qualidade em sistemas de
transmisso e recepo de vdeo digital, tais como
IPTV (Internet Protocol Television), TV digital ou em
dispositivos mveis, tais como ultrabooks,
smartphones, tablets e em aparelhos WiDi (Wireless
Display).
REFERNCIAS
[1] S. Winkler, Issues in vision modeling for perceptual
video quality assessment, Signal Processing, vol. 78,
no. 2, pp. 231252, 1999.
[2] Z. Wang and A. C. Bovik, Modern image quality
assessment. San Rafael, CA: Morgan & Claypool,
2006.
[3] W. Lin and C.-C. Jay Kuo, Perceptual visual quality
metrics: A survey, Journal of Visual Communication
and Image Representation, vol. 22, no. 4, pp. 297312,
May 2011.
[4] S. S. Hemami and A. R. Reibman, No-reference image
and video quality estimation: Applications and humanmotivated
design, Signal Processing: Image
Communication, vol. 25, no. 7, pp. 469481, 2010.
[5] Z. Wang and A. Bovik, Reduced- and No-Reference
Image Quality Assessment, IEEE Signal Processing
Magazine, vol. 28, no. 6, pp. 2940, Nov. 2011.
[6] R. V. Babu, S. Suresh, and A. Perkis, No-reference
JPEG-image quality assessment using GAP-RBF,
Signal Processing, vol. 87, no. 6, pp. 14931503, 2007.
[7] X. Jiang, F. Meng, J. Xu, and W. Zhou, No-Reference
Perceptual Video Quality Measurement for High
Defnition Videos Based on an Artifcial Neural
Network, in Computer and Electrical Engineering,
2008. ICCEE 2008. International Conference on, 2008,
pp. 424427.
[8] J. Choe, K. Lee, C. Lee, and S. Korea, No-reference
video quality measurement using neural networks, in
2009 16th International Conference on Digital Signal
Processing, 2009, pp. 14.
[9] S. Suresh, R. Venkatesh Babu, and H. J. Kim, Noreference
image quality assessment using modifed
extreme learning machine classifer, Applied Soft
Computing, vol. 9, no. 2, pp. 541552, Mar. 2009.
[10] A. M. Eskicioglu and P. S. Fisher, Image quality
measures and their performance, IEEE Transactions
on Communications, vol. 43, no. 12, pp. 29592965,
1995.
[11] U. Engelke and H.-J. Zepernick, Perceptual-based
Quality Metrics for Image and Video Services: A
Survey, in Proceedings EuroNGI Conf. Next
Generation Internet Networks, 2007, pp. 190197.
[12] Z. Wang, A. C. Bovik, H. R. Sheikh, and E. P
Simoncelli, Image quality assessment: from error
visibility to structural similarity., IEEE Transactions on
Image Processing, vol. 13, no. 4, pp. 600612, 2004.
[13] Z. Wang, E. P. Simoncelli, and A. C. Bovik, Multiscale
structural similarity for image quality assessment, in
The Thrity-Seventh Asilomar Conference on Signals,
Systems & Computers, 2003, 2003, vol. 2, no. 1, pp.
13981402.
[14] H. R. Wu, K. R. Rao, and A. A. Kassim, Digital Video
Image Quality and Perceptual Coding, Journal of
Electronic Imaging, vol. 16, no. 3, 2007.
[15] Z. Wang and A. C. Bovik, A universal image quality
index, IEEE Signal Processing Letters, vol. 9, no. 3,
pp. 8184, Mar. 2002.
[16] Y. Shi, Y. Ding, R. Zhang, and J. Li, Structure and Hue
Similarity for Color Image Quality Assessment, in 2009
International Conference on Electronic Computer
Technology, 2009, pp. 329333.
[17] W. B. Silva, A. A. P. Pohl, and K. V. O. Fonseca, A
Reduced-Reference Video Quality Assessment Method
based on the Activity-Diference of DCT Coefcients,
IEICE Transactions on Information and Systems, vol. E96-D, no. 3, 2013.
[18] P. Le Callet, C. Viard-Gaudin, and D. Barba, A Convolutional Neural Network Approach for Objective Video Quality Assessment, IEEE Transactions on Neural Networks, vol. 17, no. 5, pp. 13161327, 2006.
[19] P. Le Callet and D. Barba, Image Quality Assessment: From Sites Errors to a Global Appreciation of Quality, in Proceedings of the Picture Coding Sympsium, 2001, pp. 105108.
[20] M. Miyahara, K. Kotani, and V. R. Algazi, Objective picture quality scale (PQS) for image coding, IEEE Transactions on Communications, vol. 46, no. 9, pp. 12151226, 1998.
[21] M. Slanina, V. Ricny, and R. Forchheimer, A Novel Metric for H.264/AVC No-Reference Quality Assessment, in 14th International Workshop on Systems, Signals and Image Processing and 6th EURASIP Conference focused on Speech and Image Processing, Multimedia Communications and Services, 2007, pp. 114117.
[22] O. Sugimoto, S. Naito, S. Sakazawa, and A. Koike, Objective perceptual video quality measurement method based on hybrid no reference framework, in 16th IEEE International Conference on Image Processing (ICIP09), 2009, pp. 22372240.
[23] T. Oelbaum, C. Keimel, and K. Diepold, Rule-Based No-Reference Video Quality Evaluation Using Additionally Coded Videos, IEEE Journal of Selected Topics in Signal Processing, vol. 3, no. 2, pp. 294303, 2009.
[24] N. Staelens, N. Vercammen, Y. Dhondt, B. Vermeulen, P. Lambert, R. de Walle, and P. Demeester, ViQID: A No-Reference bit stream-based visual quality impairment detector, in Proceedings of the Second Int Quality of Multimedia Experience (QoMEX) Workshop, 2010, pp. 206211.
[25] F. Yang, S. Wan, Q. Xie, and H. R. Wu, No-Reference Quality Assessment for Networked Video via Primary Analysis of Bit Stream, IEEE Transactions on Circuits and Systems for Video Technology, vol. 20, no. 11, pp. 15441554, Nov. 2010.
[26] Z. Wang, H. R. Sheikh, and A. C. Bovik, Objective Video Quality Assessment, in The Handbook of Video Databases: Design and Applications, B. Furht and O. Marques, Eds. Boca Raton, FL, USA: CRC Press, 2003, pp. 10411078.
[27] W. B. da Silva and A. de A. P. Pohl, Mtodos Sem Referncia Baseados em Caractersticas Espao-Temporais para Avaliao Objetiva de Qualidade de Vdeo Digital, Universidade Tecnolgica Federal do Paran (UTFPR), 2013.
[28] G.-B. Huang, Q.-Y. Zhu, and C.-K. Siew, Extreme learning machine: Theory and applications, Neurocomputing, vol. 70, no. 13, pp. 489501, Dec. 2006.
[29] Z. Wang, H. R. Sheikh, and A. C. Bovik, No-reference perceptual quality assessment of JPEG compressed images, in Image Processing. 2002. Proceedings. IEEE International Conference on Image Processing, 2002, vol. 1, pp. vol.1 I477 I480.
[30] W. B. Silva and A. A. P. Pohl, No-Reference Video Quality Assessment Method based on the Levenberg-Marquardt Minimization, in XXX Brazilian Symposium on Telecommunications (SBrT12), 2012.
[31] ITU-T P.910, Subjective video quality assessment methods for multimedia applications, Standardization Sector of ITU, 1999.
[32] W. Ding, Y. Tong, Q. Zhang, and D. Yang, Image and Video Quality Assessment Using Neural Network and SVM, Tsinghua Science & Technology, vol. 13, no. 1, pp. 112116, 2008.
[33] K. S. Banerjee, C. R. Rao, and S. K. Mitra, Generalized Inverse of Matrices and Its Applications, Technometrics, vol. 15, no. 1, p. 197, Feb. 1973.
[34] VQEG, Final report from the video quality experts group on the validation of reduced-reference and no-reference objective models for standard defnition television, Phase I, 2009.
[35] VQEG, Report on the validation of video quality models for high defnition video content, 2010.
[36] J. W. Tukey, Exploratory Data Analysis. New York: Addison-Wesley Publishing Company, 1977.
[37] P. Gastaldo and R. Zunino, Neural networks for the no-reference assessment of perceived quality, J. Electronic Imaging, vol. 14, no. 3, p. 033004, 2005.
[38] R. Herzog, M. adk, T. O. Aydn, K. I. Kim, K. Myszkowski, and H.-P. Seidel, NoRM: No-Reference Image Quality Metric for Realistic Image Synthesis, Comp. Graph. Forum, vol. 31, no. 2pt4, pp. 545554, 2012.
2
comportamentos e padres de deciso
adotados pela organizao e que criam para
ela uma identidade diferenciada (Kotler,
1994, p 613).
Nesse sentido, a comunicao
interna e o fluxo das informaes so
utilizados para preservar ou impulsionar as
metas da empresa. Em geral, as empresas
lderes valorizam a comunicao interna
nas suas organizaes e acreditam que ela
estreita os laos de confiana da equipe na
gesto e promove o seu comprometimento
com o sucesso dos negcios.
Assim, apropriando-se da
linguagem, hoje universal, da mdia
televisiva, corporaes empresariais do
mundo inteiro fazem, atualmente,
transmisses de broadcasting, isto ,
transmisses de televiso via satlite ou
intranet, para sedes e pontos de reunio de
seus funcionrios e colaboradores
espalhados em uma determinada regio de
um pas, ou mesmo do planeta. A
aglutinao de pessoas em torno da TV,
hbito domstico criado no sculo passado,
passou a ser parte integrante agora da
rotina de trabalho em vrias empresas e
corporaes. Na mesma medida, isto traz o
reflexo das preocupaes do mbito da
sociedade para o mbito corporativo.
Causas sociais como, sustentabilidade,
meio-ambiente, grupos tnicos ou de
portadores de deficincias, tm
representao corporativa equivalente
diante da lente da cmera.
O fetiche, aqui reforado, de usar
traos da cultura para consolidar marcas,
se torna experincia audiovisual, de vida e
de participao. Ver-se refletido na TV
Corporativa e, teoricamente, no mais
esquecido como um peo da mquina,
revigora e estimula aqueles que esto
margem, e necessitam participar para no
serem esquecidos, descartados. O plpito
eletrnico a oportunidade que a
corporao d queles que esto
cumprindo perfeitamente seus papis. Da
mesma forma, aqueles que no se
adquam engrenagem, isto , no
cumprem metas, planos, sacrifcios
corporativos, podem ser repreendidos, ou
at ridicularizados, agora em rede!
Historicamente, at o final do
sculo XX, os audiovisuais mais utilizados
por empresas eram: os chamados Vdeos
Institucionais, que promovem e divulgam
uma empresa e suas realizaes ou
produtos; e os Vdeos de Treinamento,
para ensinar ou divulgar tcnicas e
expertises necessrias ao trabalho de seus
funcionrios. O advento da televiso
corporativa, trazendo o hbito de reunir os
funcionrios num dia e horrio pr-
determinados em volta de aparelhos de TV,
como j destacamos, modificou a rotina de
trabalho em vrias empresas. E, hoje em
dia, mais do que informar ou treinar, a
comunicao via TV deve entreter.
Dentre vrias empresas que
utilizam a Televiso Corporativa como
ferramenta de comunicao interna,
gostaramos de analisar como referncia o
Magazine Luiza, uma empresa de vendas a
varejo, considerada a terceira maior no
mercado brasileiro, com um faturamento
anual de seis bilhes e meio de reais em
2011
1
. Com perto de vinte mil
colaboradores, a prtica da comunicao
interna no Magazine Luiza bastante
valorizada, tendo inclusive sido premiada
pelo instituto The Great Place to Work
como a melhor empresa na prtica de
falar com seus funcionrios, em 2010.
Silva Neto [3] nos relata: Segundo a The
Great Place to Work, consultoria
responsvel por uma das metodologias
existentes no Brasil para a seleo das
melhores empresas para se trabalhar, a
definio de credibilidade no ambiente
empresarial a relao construda entre a
liderana e seus funcionrios, onde a
comunicao clara e transparente
fundamental. (Silva Neto, p. 63).
Sendo uma empresa com forte
cultura familiar, refletida pelo fato de seus
principais acionistas, serem da mesma
famlia, e pelo fato de que s
recentemente, em maio de 2011, abriu seu
capital ao mercado, atravs da Bovespa, o
Magazine Luiza tem razes e valores
culturais perceptivelmente interioranos.
Representada na figura de sua presidente,
Luiza Helena Trajano, essa empresa
realiza sua comunicao interna com
caractersticas prprias, em tese permitindo
uma comunicao representativa, onde o
vendedor de uma loja tem acesso ao e-mail
da presidente, e estimulado por ela, via
TV Corporativa, a escrever-lhe relatando
qualquer caso que fira a tica promulgada
pela empresa em seu manifesto de misso
e valores [4]:
A comunicao um dos pilares que
sustentam um dos nossos valores mais
importantes: a transparncia. O Magazine
Luiza tem como regra comunicar todos os
passos importantes da empresa com
antecedncia aos seus colaboradores. E
1
Fonte:
http://ri.magazineluiza.com.br/static/ptb/principais-
indicadores.asp?idioma=ptb
30 Revista de Radiodifuso v. 07 n. 08 2013
Pesquisas em ambientes digitais - TV Internet Radio Cinema
3
quem trabalha na empresa, reconhece isso.
E o mercado tambm reconhece! Em
outubro de 2010, fomos eleitos como a
Empresa que Melhor se Comunica com
seus Colaboradores - Prtica do Falar entre
mais de 750 empresas que participaram da
pesquisa realizada pelo Instituto Great Place
to Work. Por meio dos nossos veculos de
comunicao interna, formados pela Rdio
Luiza, pelo Portal Luiza e a TV Luiza,
transmitimos as mensagens e os
posicionamentos da empresa, de maneira
simultnea para todos os colaboradores.
Esses canais so feitos com a opinio e
contribuio da equipe. A empresa defende
e adota prticas que possibilitam que todos
os colaboradores tenham voz (Culture
Audict The Great Place to Work Institute
2011).
Verificamos que, no que tange a
comunicao corporativa, as empresas
utilizam canais internos de comunicao
para disseminar informaes e, mais
importante do que isso, manter o mood,
isto , a motivao de seus
funcionrios/colaboradores, sintonizado
com a expectativa de crescimento e lucro
do board de diretores e acionistas. Mesmo
assim, existe uma enorme distancia entre o
quanto as empresas consideram a
comunicao interna estratgica para seus
negcios e a forma como essa disciplina
efetivamente trabalhada dentro das
corporaes. A efetividade da comunicao
interna imprescindvel para estas, visto
que a economia globalizada e mercados
cada vez mais competitivos exigem que as
empresas consigam reter seus talentos e
tambm motiv-los a atingirem metas de
desempenho.
Hoje, lugar-comum dizer que o
que permite a uma empresa ter sucesso a
longo prazo no so suas mquinas ou
tecnologia, mas sim as pessoas. So as
pessoas que fazem toda a diferena. O
pblico interno de uma empresa, por sua
vez, complexo e, em geral, atualizado
quanto ao mundo em que vive. No
possvel passar por cima de seu
julgamento das coisas e tentar catequiz-
los em uma direo se esta no
corresponder s expectativas que esse
pblico tem de si prprio. Para tanto, a
funo de entreter contida na mdia
televiso funciona como formato
estratgico para passar a mensagem
corporativa. Alguns de seus
apresentadores-diretores so vistos
comparativamente como dolos
televisivos, que merecem admirao e
destaque dentro da vida cotidiana da
empresa. So recebidos com pedidos de
autgrafos em lojas que visitam. E cada
qual tambm exerce um estilo de
comunicao, sendo mais ou menos
interpretativos frente s cmeras, usando
mais ou menos recursos de oratria,
posies e discursos diferentes.
E preciso tambm, neste caso,
avaliar os rumos, a governana corporativa
de uma empresa. Como explica Costa
Bueno [5], a governana corporativa o
sistema pelo qual as sociedades
corporativas so dirigidas e monitoradas, e
envolve os relacionamentos entre
acionistas, cotistas, conselho
administrativo, diretorias e outros boards
hierrquicos dentro de uma corporao.
Hoje, entretanto, essa governana, e, por
conseguinte sua comunicao entre os
vrios nveis hierrquicos mais
abrangente e inclui outros pblicos, como
os funcionrios em todos os nveis, desde o
cho de fbrica.
Evidentemente, h interesses nem sempre
coincidentes entre os shareholders e os
stakeholders, todos eles reconhecidos como
legtimos. Os primeiros preocupam-se
especialmente com a maximizao do
retorno de seus investimentos, e os
segundos com a repercusso do
desempenho e funcionamento da
organizao em seu trabalho/emprego e na
preservao das condies de sade e do
meio ambiente, com a qualidade de seus
produtos e servios, e de seu atendimento,
e assim por diante (Boanerges Lopes, 2010)
[6].
Dentre os valores da governana
corporativa, e aqui pontuamos o caso do
Magazine Luiza como representativo, est
o disclosure, a transparncia das
informaes, em particular daquelas que,
por sua relevncia, podem impactar o
negcio, e seus resultados presentes e
futuros. O princpio da transparncia
lembra que da boa comunicao interna,
particularmente quando espontnea, franca
e rpida, deve resultar num clima de
confiana. Ela deve contemplar os fatores
intangveis da organizao que conduzem
a criao de valor.
O canal de comunicao via
broadcasting do Magazine Luiza foi
lanado no dia 06 de dezembro de 2006: a
TV Luiza, que atualmente, segundo
pesquisa do Instituto IPSOS, a maior TV
corporativa do segmento de varejo do
Brasil, em termos de pblico absoluto de
sua audincia, hoje em torno de 21 mil
funcionrios. A opo do Magazine Luiza
foi por fazer a transmisso ao vivo, via
satlite, de forma a garantir a
interatividade, participao e agilidade,
caractersticas do formato. Com a TV
Pesquisas em ambientes digitais - TV Internet Radio Cinema
Revista de Radiodifuso v. 07 n. 08 2013 31
MTRICA SEM REFERNCIA BASEADA EM REDES NEURAIS
PARA AVALIAO OBJETIVA DE QUALIDADE DE VDEO DIGITAL
Wyllian Bezerra da Silva, Alexandre de Almeida Prado Pohl
Programa de Ps-Graduao em Engenharia Eltrica e Informtica Industrial (CPGEI) UTFPR, Curitiba, Brasil
wyllianbs@gmail.com, pohl@utfpr.edu.br
Resumo: Este trabalho apresenta uma mtrica sem referncia para avaliao de qualidade de vdeo digital baseada em uma rede neural artifcial que usa uma verso estendida do algoritmo de aprendizado ELM (Extreme Learning Machine). O mtodo proposto realiza o treinamento da rede neural a partir de seis caractersticas espao-temporais. Os resultados experimentais mostram que o mtodo proposto apresenta desempenho superior s mtricas de referncia completa PSNR e MS-SSIM na tarefa de predio de qualidade de vdeo. Logo, o mtodo proposto pode ser usado no monitoramento de qualidade em sistemas de transmisso e recepo de vdeo digital, tais como IPTV e TV digital.
Palavras chave: algoritmo ELM, avaliao objetiva de vdeo, mtrica sem referncia, rede neural artifcial.
1. INTRODUO
Durante os ltimos anos, a literatura tem apresentado um nmero crescente publicaes acerca de mtricas objetivas para avaliao de qualidade de vdeo para diversas aplicaes em radiodifuso ou no processamento de vdeo digital, seja na aquisio do sinal, codifcao e decodifcao, compresso, transmisso, restaurao, armazenamento, segmentao e exibio de sinais de vdeo digital [14]. A avaliao de qualidade de vdeo digital pode ser realizada por meio de mtricas subjetiva e objetiva. A primeira requer uma grande quantidade de recursos humanos e apresenta elevado custo em sua implementao [13]. Porm, as mtricas objetivas so vantajosas quando apresentam um determinado grau de correlao com as mtricas subjetivas. Logo, o desenvolvimento destas um desafo no campo de avaliao de qualidade de vdeo e imagem. Alm disso, as mtricas objetivas, devido natureza de seu critrio objetivo, independem de interao humana e so facilmente reprodutveis [3]. Dentre as mtricas objetivas destacam-se as mtricas sem referncia (No-Reference NR), pois no necessitam do vdeo de referncia no clculo de sua medida. Entretanto, estas requerem um conhecimento a priori sobre as distores em vdeo digital para que seja estabelecida uma correlao com os resultados subjetivos [3].
A maioria das mtricas NR encontradas na literatura so baseadas na avaliao de qualidade de imagens e em caractersticas relacionadas ao Sistema Visual Humano (SVH). Assim, o desenvolvimento de mtricas NR difcil, devido necessidade de emular a percepo do SVH que envolve aspectos cognitivos, emocionais e estticos relacionados ao contedo do vdeo e que so altamente dependentes do observador [4], [5].
A literatura reporta diversos esforos no desenvolvimento de mtricas para avaliao de qualidade de vdeo baseadas em redes neurais e em algoritmos de aprendizado. Babu et al. [6] apresentam uma mtrica para avaliar a qualidade de imagens comprimidas em JPEG (Joint Photographic Experts Group) por meio de um algoritmo de aprendizado de crescimento e propem o uso de uma rede neural GAP-RBF (Growing and Pruning Radial Basis Function) que usa caractersticas relacionadas ao SVH. Jiang et al. [7] desenvolveram uma mtrica NR para avaliao de qualidade de vdeo em HD (High Defnition) baseada em uma rede neural treinada pelo algoritmo BP (Back-Propagation) que usa seis caractersticas espao-temporais e a RoI (Region of Interest). Choe et al. [8] desenvolveram uma mtrica NR baseada no fuxo de bits para avaliao de qualidade de vdeo codifcado em H.264. Esta mtrica extrai caractersticas quadro a quadro e usa uma rede neural alimentada adiante (feedforward) com trs camadas. Suresh et al. [9] apresentaram uma extenso do algoritmo ELM na tarefa de avaliar a qualidade de imagens comprimidas em JPEG com base no esquema de seleo mltipla KS-ELM (K-fold selection Scheme using ELM) e no algoritmo RCGA-ELM (Real-Coded Genetic Algorithm using ELM) para seleo dos pesos de entrada e polarizaes.
Este trabalho apresenta uma verso estendida do algoritmo ELM para redes neurais SLFN (Single-hidden-Layer Feedforward Neural Networks) que implementa um simples critrio de parada na fase de treinamento. Alm disso, esse mtodo usa seis caractersticas espao-temporais de vdeos submetidos a diversas condies de distoro.
Este artigo est dividido da seguinte maneira: a Seo 2 descreve as mtricas para avaliao de qualidade de vdeo. A Seo 3 descreve o mtodo NR proposto para avalio de qualidade de vdeo digital. A Seo 4 apresenta os resultados experimentais, em que so comparados o mtodo NR proposto e duas mtricas FR. Finalmente, a Seo 5 apresenta a concluso do artigo.
2. AVALIAO DE QUALIDADE DE VDEO
O processo de avaliao de qualidade de vdeo
pode ser realizado com a aplicao de mtricas
subjetivas ou objetivas. As mtricas subjetivas
estimam a qualidade do vdeo por meio de avaliadores
humanos. Logo, exigem um alto custo, pois
necessitam de uma grande quantidade de recursos
humanos e apresentam problemas quanto aos
requisitos de imparcialidade e reprodutibilidade,
tornando-se inapropriadas em sistemas de
radiodifuso ou em provedores de contedo [10], [11].
Por outro lado, as mtricas objetivas so baseadas em
modelos matemticos, cujo objetivo produzir um
escore de qualidade que emule a percepo do SVH.
Alm disso, as mtricas objetivas requerem baixo
custo de implementao (quando comparadas com as
mtricas subjetivas) e no apresentam problemas
quanto reprodutibilidade e imparcialidade.
As mtricas objetivas para avaliao de qualidade
de vdeo podem ser classifcadas em trs categorias:
(i) mtricas de referncia completa (Full-Reference
FR); (ii) mtricas de referncia reduzida (Reduced-
Reference RR); (iii) mtricas sem referncia (NR).
2.1. Mtricas FR
As mtricas FR requerem o vdeo de referncia
(fonte) no clculo do escore de qualidade. Estas
mtricas so amplamente utilizadas no processo de
validao de mtricas RR ou NR, por meio da
comparao de desempenho defnida pelas
recomendaes do Grupo de Especialistas em
Qualidade de Vdeo (VQEG Video Quality Experts
Group) que um rgo de padronizao internacional
de mtricas subjetivas e objetivas de qualidade de
vdeo. Dentre as mtricas FR, destacam-se o PSNR
(Peak Signal-to-Noise Ratio), SSIM (Structural
SIMilarity index) [12] e MS-SSIM (Multi-Scale
Structural SIMilarity index) [13].
O PSNR uma mtrica FR baseada no erro pixel a
pixel de fcil implementao. Entretanto, apresenta
baixa correlao com o SVH [14]. A sua medida
processada sobre o erro quadro a quadro, i.e., entre o
quadro original x e o quadro y . A expresso a seguir
defne o PSNR para um conjunto de quadros F .
20
1
1
PSNR 20log ,
F
f
f f
v
F MSE



(1)
com

2
0 0
1
MSE , , , , ,
N M
f
i j
x f i j y f i j
NM

(2)
em que o termo f v igual a (2 1) k , cujo k o
nmero de bits por pixel, i.e., a componente de
luminncia do quadro f . Os termos x f ,i, j e
y f ,i, j so os valores de luminncia do quadro de
origem e degradado, respectivamente. As
componentes bidimensionais so representadas pelo
nmero de colunas N e pelo nmero de linhas M . O
termo f MSE defnido como erro quadrtico mdio
ou MSE (Mean Square Error).
A mtrica SSIM baseia-se no fato de que o SVH
fortemente adaptado para extrair informaes das
caractersticas estruturais de um quadro ou imagem.
Logo, uma medida de similaridade estrutural (ou
distoro) pode prover boa aproximao para a
qualidade perceptual de um vdeo [3, 79]. Sejam x e
y dois sinais no-negativos, em que y o sinal
degradado e x o sinal original (sem perda de
qualidade), a medida de similaridade utilizada como
um ndice quantitativo de qualidade do sinal distorcido,
ou seja, x tomado como a referncia para medir a
qualidade de y . A mtrica SSIM possui diversas
extenses, dentre as quais a verso MS-SSIM,
proposta por Wang et al. [13] que assume uma
abordagem multiescalar.
2.2. Mtricas RR
As mtricas de referncia reduzida retiram certa
quantidade de caractersticas do vdeo original (fonte),
baseadas em componentes espaciais, temporais, no
domnio da frequncia ou no fuxo de bits (bitstream).
Este tipo de mtrica amplamente utilizada no
monitoramento de transmisses em rede [17]. Neste
tipo de cenrio de aplicao, o vdeo transmitido
com uma sequncia de informao codifcada
(overhead) e no lado receptor ocorre a sua
decodifcao, seguido pelo clculo do ndice de
qualidade, o qual obtido por meio da comparao
entre a representao reduzida da informao nos
pares emissor e receptor [18]. Tipicamente, mtricas
RR so implementadas por meio de funes, divididas
em duas etapas [19]: (i) clculo do erro entre os
vdeos original e distorcido, constitudo pela diferena
de suas caractersticas, a fm de compor a
representao reduzida da informao; (ii) funo que
agrupa os erros ou diferenas para obter um ndice de
qualidade global. Algumas mtricas RR exploram
propriedades dos artefatos, por meio da extrao de
caractersticas e um modelo de parametrizao [20]
com foco em tipos especfcos de distores
(artefatos). Esta abordagem encontrada em Silva et
al. [17], cujo clculo do escore de qualidade
baseado na diferena de atividade dos coefcientes
DCT (Discrete Cosine Transform) em um macro bloco
com resoluo de 1616 pixels.
2.3. Mtricas NR
As mtricas NR extraem caractersticas
relacionadas ao SVH do vdeo distorcido, i.e., na
recepo do sinal de vdeo [14]. Tipicamente, h duas
abordagens no desenvolvimento destas mtricas: (i)
extrao dos parmetros sobre o fuxo de bits, tais
como a taxa de compresso, informaes
relacionadas ao GoP (Group of Pictures), estimao
de movimento, perfl e nvel de codifcao, bem como
o parmetro de quantizao ou QP (Quantization
Parameter) [2125]. Mtricas NR apresentam maior
complexidade quando so aplicadas em vdeo, devido
variao temporal dos quadros, contedos das
cenas e difculdade de compreenso das
caractersticas do SVH [26]. Assim, algumas mtricas
dessa categoria exploram caractersticas espaciais e
temporais na estimao de qualidade de vdeo [21].
3. MTODO PROPOSTO
O mtodo proposto, denominado NRVQA-ELMtc
(No-Reference Video Quality Assessment using
Extreme Learning Machine algorithm with termination
criteria) [27] combina caractersticas espaciais e
temporais, por meio de uma rede neural artifcial
SLFNs usando o algoritmo de treinamento ELM [28]
com a implementao de um simples critrio de
parada.
3.1. Caractersticas espao-temporais
As caractersticas espaciais incorporadas no
mtodo proposto so baseadas em medidas de
artefatos em vdeo digital, i.e., distores de blocagem
e borramento desenvolvidas por Wang et al. [20].
Assim, a componente de luminncia do quadro f
representada por y(f , i, j ) com i 1,M e j 1, N ,
em que M e N so os nmeros de linhas e colunas,
respectivamente, de um quadro. Logo, as diferenas
de luminncia ao longo das linhas e colunas so
representadas, respectivamente, pelas expresses a
seguir.


, , , , 1 , , , 1, 1 ,
, , , 1, , , , 1, 1 .
h
v
d f i j y f i j y f i j j N
d f i j y f i j y f i j i M


(3)
O efeito de blocagem pode ser estimado pela
mdia das diferenas entre as bordas dos blocos da
DCT (Discrete Cosine Transform) nas direes
horizontal e vertical para uma sequncia F de
quadros, conforme mostra a Equao (4), com um
macrobloco de dimenso , cujo tamanho tpico
de 8 [20].


1
1
1 1 1
1
1
1 1 1
1
, , 1 ,
1
1
1
, 1 , .
1
1
N
F M
h h
f i j
M
F N
v
i j
v
f
B d f i j
N
F M
B d f i j
M
F N












(4)
A medida de blocagem em uma sequncia de
vdeo com F quadros determinada pela mdia entre
h B e v B , caracterizando a medida B , conforme a
expresso a seguir.
.
2
h v B B
B

(5)
Os efeitos de borramento so estimados pelo
clculo da reduo de atividade entre os blocos ,
em que usada a medida de blocagem nas direes
horizontal e vertical, conforme as expresses




1
1 1 1
1
1 1 1
, , ,
1 1
, ,
1
.
1
F M N
h h h
f i j
F M N
v v
f
v
i j
A d f i j B
F M N
A d f i j B
F N M








(6)
A medida de borramento, representada por A ,
conforme a Equao (7), determinada pela mdia
entre h A e v A .
.
2
h v A A
A

(7)
O segundo fator que contribui para a deteco do
artefato de borramento baseado na taxa de
cruzamento por zero (Zero Crossing ZC) nas
direes horizontal e vertical, conforme as expresses
a seguir.




2
1 1 1
2
1 1 1
1
, , ,
2
1
, , ,
2
F M N
h h
f i j
F M N
v v
f i j
Z z f i j
F M N
Z z f i j
F N M




(8)
em que os termos h z e v z so determinados por


1, na direo horizontal
, , ,
0, caso contrrio
1, na direo vertical
, , .
0, caso contrrio
h
v
z f i j
z f i j



(9)
Assim, a medida de borramento Z determinada
pela mdia entre as componentes h Z e v Z .
.
2
h v Z Z
Z

(10)
O mtodo proposto tambm incorpora trs
caractersticas temporais no treinamento da rede
neural SLFN com o algoritmo ELM.
A primeira caracterstica temporal a diferena de
movimento entre quadros adjacentes, representada
pela varivel TI (Temporal perceptual Information) [31]
que considera os valores de luminncia de pixels
localizados em uma mesma regio de um quadro,
conforme a expresso a seguir.

2
1
, , ,
1
F
f
TI m f i j
F


(11)
em que o nmero total de quadros F e mf ,i, j

o desvio padro da diferena de movimento
(diferena de luminncia) entre o quadro atual
y f ,i, j e o quadro anterior y f 1,i, j .
A segunda caracterstica temporal a mdia da
diferena absoluta (Mean Absolute Diference MAD)
[31] entre quadros sucessivos, representada pela
Equao (12) que defne a medida global da MAD
para todos os quadros de um vdeo.


2 1 1
1
, , 1, , .
1
F M N
f i j
MAD y f i j y f i j
M N F



(12)
A terceira caracterstica temporal a mdia da
diferena absoluta ponderada (weighted Mean
Absolute Diference MADw) [32], a qual mede o grau
de variao das cenas de um vdeo que considera a
cena atual de um quadro f e do quadro anterior f 1,
conforme a expresso:
2 1
1
.
1
F
f
f f
MAD
MADw
F MAD


(13)
Assim, o mtodo proposto combina as
caractersticas espaciais e temporais em uma matriz
, , , , , f f f f f f f x A B Z TI MAD MADw , em que f o
nmero de amostras de vdeo. A Figura 1 apresenta
as caractersticas temporais espaciais de dezessete
bases de dados de vdeos (denominada superconjunto
S) usadas neste trabalho e reportadas em [27]. A
recomendao ITU-T P.910 [31] defne a medida SI
(Spatial perceptual Information) como informao
espacial perceptual. A inspeo visual dessa fgura
mostra que as amostras de vdeo usadas neste
trabalho apresentam uma grande variao espaotemporal.
Fig. 1. Caractersticas espaciais e temporais do superconjunto
S com 216 amostras de referncia
3.2. Mtrica NRVQA-ELMtc
O algoritmo ELM [28] desenvolvido para o
treinamento de uma rede SLFN atribui pesos e
polarizaes (biases) de maneira aleatria, segundo
uma distribuio uniforme. O treinamento compreende
N amostras distintas representadas pela varivel
, , , 1, , n m
f f f f x t x t f N , cujo clculo
conforme a expresso

1
, 1, , ,
K
K i j j f j f
f
f g b f N

x w x o (14)
em que f o a sada (escore objetivo), g(x) a
funo de ativao e j o peso que conecta o jsimo
neurnio da camada oculta ao neurnio de
sada. De acordo com [28], uma rede SLFN com K
ns na camada oculta e uma funo de ativao g(x)
pode apresentar um erro mdio prximo de zero, i.e.,
1
0
K
f f
f
o t . Logo, h parmetros j , j w e j b tal
que

1
, 1, , ,
K
j j f j f
f
g b f N

w x t (15)
em que f t o vetor alvo (escores subjetivos),
T
1, , j j jn w w w o vetor de peso que conecta o jsimo
neurnio da camada oculta ao neurnio da
camada de entrada, j b denota a polarizao (bias) do
j-simo neurnio da camada oculta, j f w x o
produto interno de j w e f x . A Figura 2 ilustra o
algoritmo ELM empregado em uma arquitetura de
rede neural SLFN.
xi
1
j
N
1
j
K
ti
bj
N input neuron K hidden neuron output neuron
1
K
wj
Fig. 2. Arquitetura de uma rede neural SLFN usando algoritmo
de treinamento ELM
O sistema linear da Equao (16) resume o mtodo
do algoritmo ELM.
H T, (16)
em que a matriz da camada oculta representada por
1, , and 1, , f H h f N j K com a primeira
linha da matriz de caractersticas f x igual a
T
1 2 , , , f f f fn x x x x , i.e., a primeira linha igual a
1 1 1 1 1 1 1 , , , , , f f f f f f f x A B Z TI MAD MADw . A matriz de
sada e o vetor alvo (target) so defnidos como
T
1 , K e
T
1, , N T t t , respectivamente. O
termo
T
1 , 1, , j jm j j K denota o vetor de
peso que conecta o j-simo neurnio da camada
oculta e os neurnios de sada. Hung et al. [28]
propuseram a atribuio aleatria de pesos aos
parmetros j w e j b , a fm de seja obtido um pequeno
erro no-nulo durante o treinamento. Considerando o
sistema linear da Equao (17), os pesos da camada
de sada podem ser aproximados por
H T (17)
em que H defnida como matriz inversa
generalizada de Moore-Penrose (MP) [33] da matriz
de sada da camada oculta H . Alm disso, o
conjunto de treinamento , n oculta K e uma
funo de ativao g x , e.g., funo de base radial
(Radial Basis Function RBF), hard-limiting (hardlim),
sigmoidal (sig) e seno (sin). Em resumo, o algoritmo
ELM compreende trs etapas [28]:
i) Atribuio aleatria dos pesos de entrada j w e
polarizaes j b ;
ii) Clculo da matriz da camada de sada H ;
iii) Clculo dos pesos de sada : H T .
O mtodo NRVQA-ELMtc [27] implementa um
simples critrio de parada no treinamento da rede
neural SLFN, quanto atribuio aleatria dos pesos
j w e j b . Embora este critrio no seja direcionado,
busca os pesos relacionados com o menor RMSE
(Root-Mean-Square Error) entre a sada desejada
(escore subjetivo) e o escore objetivo na fase de
treinamento com k iteraes (tipicamente, k 100 ) e
N neurnios na camada oculta. Alm disso, conforme
estudo realizado em [27], caso o RMSE seja menor do
que 0,5 o algoritmo cessa a busca pelos parmetros
j w e j b .
4. RESULTADOS EXPERIMENTAIS
Esta seo apresenta os resultados de acurcia,
i.e., os coefcientes de correlao linear de Pearson
(Pearson Linear Correlation Coefcient PLCC) [34],
[35], entre os escores objetivos e subjetivos de 2627
amostras de vdeo estudadas em [27].
A Figura 3 compara a acurcia (PLCC) entre as
mtricas de referncia completa (FR) PSNR e MSSSIM
com o mtodo proposto (NRVQA-ELMtc) para
as 2627 amostras de vdeo, pertencentes a 17 bases
de dados de vdeo disponibilizadas por diversas
instituies e laboratrios [27]. A funo de ativao
usada na rede neural SLFN foi o seno (sin) com o
nmero de amostras de teste igual ao nmero de
neurnios na camada oculta ( N ). O mtodo de
validao cruzada mltipla (K-fold) foi usado com o
objetivo de gerar uma distribuio de acurcia, a qual
foi analisada por meio do diagrama de caixa (box-plot)
[36], em que o trao, o crculo e o quadrado, ambos
em vermelho, representam a mediana, a mdia e o
desvio padro, respectivamente. Destaca-se que
neste trabalho foi empregada uma validao cruzada
com um grande nmero de amostras de treinamentoteste
com K 100 , i.e., cada caixa do box-plot
comporta 100 experimentos distintos. Tipicamente, a
literatura apresenta trabalhos no campo da avaliao
Fig. 3. Box-plot da predio da acurcia (PLCC) entre as mtricas PSNR, MS-SSIM e o mtodo proposto NRVQA-ELMtc
de qualidade de vdeo com K entre 5 e 10 [37], [38].
Pela inspeo visual da Figura 3 observa-se que o
desempenho do mtodo proposto superior s
mtricas FR, em quaisquer condies de teste, i.e.,
para qualquer quantidade de amostras de teste
(nmero de neurnios na camada oculta) entre 25 e
500. Em especial, para N 50 , o mtodo proposto
apresenta valores de PLCC, em termos da mdia e
mediana, acima de 0,8, denotando uma forte
associao entre os escores objetivos e subjetivos, na
tarefa de predio de qualidade de vdeo. Isto ocorre
devido grande quantidade de amostras de vdeo
usadas no treinamento, e.g., para N 300 foram
usadas 2327 amostras de treinamento, ou seja,
mesmo usando pares de treinamento-teste disjuntos,
o mtodo proposto mostra uma acurcia superior s
mtricas de referncia completa. A assimetria positiva,
i.e., a maior concentrao da acurcia entre o
segundo quartil (mediana) e o terceiro quartil, na
distribuio do box-plot nos testes com 300 e 500
neurnios na camada oculta, indica que o mtodo
proposto apresenta um desempenho expressivo em
comparao com as mtricas FR.
Entretanto, mesmo para N entre 25 e 50, o
mtodo proposto apresentou uma acurcia maior do
que as mtricas FR, cujo melhor resultado foi para
N 25 com o desvio-quartil (amplitude interquartlica)
confnado entre 0,65 e 0,8. Alm disso, este resultado
tambm apresentou assimetria positiva com a mdia
do PLCC em torno de 0,75.
5. CONCLUSO
Este trabalho apresentou uma mtrica NR baseada
em uma rede neural artifcial SLFN, cujo treinamento
determinado pelo algoritmo ELM, o qual considera
caractersticas espao-temporais e os escores
subjetivos (alvos) extrados de 2627 amostras
treinamento. Alm disso, este trabalho prope uma
extenso do algoritmo ELM por meio de um simples
critrio de parada, a fm de que sejam obtidos
parmetros da rede neural artifcial relacionados com
o menor RMSE. Tipicamente, a comparao entre
mtricas FR e NR injusta, devido ausncia do
vdeo de referncia na obteno do escore de
qualidade em mtricas NR. Entretanto, os resultados
experimentais mostram que o mtodo proposto
apresentou desempenho superior s mtricas de
referncia completa PSNR e MS-SSIM, sobretudo,
quando o nmero de amostras de teste e de neurnios
na camada oculta da rede SLFN maior do que 250.
Logo, a mtrica NRVQA-ELMtc pode ser empregada
no monitoramento de qualidade em sistemas de
transmisso e recepo de vdeo digital, tais como
IPTV (Internet Protocol Television), TV digital ou em
dispositivos mveis, tais como ultrabooks,
smartphones, tablets e em aparelhos WiDi (Wireless
Display).
REFERNCIAS
[1] S. Winkler, Issues in vision modeling for perceptual
video quality assessment, Signal Processing, vol. 78,
no. 2, pp. 231252, 1999.
[2] Z. Wang and A. C. Bovik, Modern image quality
assessment. San Rafael, CA: Morgan & Claypool,
2006.
[3] W. Lin and C.-C. Jay Kuo, Perceptual visual quality
metrics: A survey, Journal of Visual Communication
and Image Representation, vol. 22, no. 4, pp. 297312,
May 2011.
[4] S. S. Hemami and A. R. Reibman, No-reference image
and video quality estimation: Applications and humanmotivated
design, Signal Processing: Image
Communication, vol. 25, no. 7, pp. 469481, 2010.
[5] Z. Wang and A. Bovik, Reduced- and No-Reference
Image Quality Assessment, IEEE Signal Processing
Magazine, vol. 28, no. 6, pp. 2940, Nov. 2011.
[6] R. V. Babu, S. Suresh, and A. Perkis, No-reference
JPEG-image quality assessment using GAP-RBF,
Signal Processing, vol. 87, no. 6, pp. 14931503, 2007.
[7] X. Jiang, F. Meng, J. Xu, and W. Zhou, No-Reference
Perceptual Video Quality Measurement for High
Defnition Videos Based on an Artifcial Neural
Network, in Computer and Electrical Engineering,
2008. ICCEE 2008. International Conference on, 2008,
pp. 424427.
[8] J. Choe, K. Lee, C. Lee, and S. Korea, No-reference
video quality measurement using neural networks, in
2009 16th International Conference on Digital Signal
Processing, 2009, pp. 14.
[9] S. Suresh, R. Venkatesh Babu, and H. J. Kim, Noreference
image quality assessment using modifed
extreme learning machine classifer, Applied Soft
Computing, vol. 9, no. 2, pp. 541552, Mar. 2009.
[10] A. M. Eskicioglu and P. S. Fisher, Image quality
measures and their performance, IEEE Transactions
on Communications, vol. 43, no. 12, pp. 29592965,
1995.
[11] U. Engelke and H.-J. Zepernick, Perceptual-based
Quality Metrics for Image and Video Services: A
Survey, in Proceedings EuroNGI Conf. Next
Generation Internet Networks, 2007, pp. 190197.
[12] Z. Wang, A. C. Bovik, H. R. Sheikh, and E. P
Simoncelli, Image quality assessment: from error
visibility to structural similarity., IEEE Transactions on
Image Processing, vol. 13, no. 4, pp. 600612, 2004.
[13] Z. Wang, E. P. Simoncelli, and A. C. Bovik, Multiscale
structural similarity for image quality assessment, in
The Thrity-Seventh Asilomar Conference on Signals,
Systems & Computers, 2003, 2003, vol. 2, no. 1, pp.
13981402.
[14] H. R. Wu, K. R. Rao, and A. A. Kassim, Digital Video
Image Quality and Perceptual Coding, Journal of
Electronic Imaging, vol. 16, no. 3, 2007.
[15] Z. Wang and A. C. Bovik, A universal image quality
index, IEEE Signal Processing Letters, vol. 9, no. 3,
pp. 8184, Mar. 2002.
[16] Y. Shi, Y. Ding, R. Zhang, and J. Li, Structure and Hue
Similarity for Color Image Quality Assessment, in 2009
International Conference on Electronic Computer
Technology, 2009, pp. 329333.
[17] W. B. Silva, A. A. P. Pohl, and K. V. O. Fonseca, A
Reduced-Reference Video Quality Assessment Method
based on the Activity-Diference of DCT Coefcients,
IEICE Transactions on Information and Systems, vol. E96-D, no. 3, 2013.
[18] P. Le Callet, C. Viard-Gaudin, and D. Barba, A Convolutional Neural Network Approach for Objective Video Quality Assessment, IEEE Transactions on Neural Networks, vol. 17, no. 5, pp. 13161327, 2006.
[19] P. Le Callet and D. Barba, Image Quality Assessment: From Sites Errors to a Global Appreciation of Quality, in Proceedings of the Picture Coding Sympsium, 2001, pp. 105108.
[20] M. Miyahara, K. Kotani, and V. R. Algazi, Objective picture quality scale (PQS) for image coding, IEEE Transactions on Communications, vol. 46, no. 9, pp. 12151226, 1998.
[21] M. Slanina, V. Ricny, and R. Forchheimer, A Novel Metric for H.264/AVC No-Reference Quality Assessment, in 14th International Workshop on Systems, Signals and Image Processing and 6th EURASIP Conference focused on Speech and Image Processing, Multimedia Communications and Services, 2007, pp. 114117.
[22] O. Sugimoto, S. Naito, S. Sakazawa, and A. Koike, Objective perceptual video quality measurement method based on hybrid no reference framework, in 16th IEEE International Conference on Image Processing (ICIP09), 2009, pp. 22372240.
[23] T. Oelbaum, C. Keimel, and K. Diepold, Rule-Based No-Reference Video Quality Evaluation Using Additionally Coded Videos, IEEE Journal of Selected Topics in Signal Processing, vol. 3, no. 2, pp. 294303, 2009.
[24] N. Staelens, N. Vercammen, Y. Dhondt, B. Vermeulen, P. Lambert, R. de Walle, and P. Demeester, ViQID: A No-Reference bit stream-based visual quality impairment detector, in Proceedings of the Second Int Quality of Multimedia Experience (QoMEX) Workshop, 2010, pp. 206211.
[25] F. Yang, S. Wan, Q. Xie, and H. R. Wu, No-Reference Quality Assessment for Networked Video via Primary Analysis of Bit Stream, IEEE Transactions on Circuits and Systems for Video Technology, vol. 20, no. 11, pp. 15441554, Nov. 2010.
[26] Z. Wang, H. R. Sheikh, and A. C. Bovik, Objective Video Quality Assessment, in The Handbook of Video Databases: Design and Applications, B. Furht and O. Marques, Eds. Boca Raton, FL, USA: CRC Press, 2003, pp. 10411078.
[27] W. B. da Silva and A. de A. P. Pohl, Mtodos Sem Referncia Baseados em Caractersticas Espao-Temporais para Avaliao Objetiva de Qualidade de Vdeo Digital, Universidade Tecnolgica Federal do Paran (UTFPR), 2013.
[28] G.-B. Huang, Q.-Y. Zhu, and C.-K. Siew, Extreme learning machine: Theory and applications, Neurocomputing, vol. 70, no. 13, pp. 489501, Dec. 2006.
[29] Z. Wang, H. R. Sheikh, and A. C. Bovik, No-reference perceptual quality assessment of JPEG compressed images, in Image Processing. 2002. Proceedings. IEEE International Conference on Image Processing, 2002, vol. 1, pp. vol.1 I477 I480.
[30] W. B. Silva and A. A. P. Pohl, No-Reference Video Quality Assessment Method based on the Levenberg-Marquardt Minimization, in XXX Brazilian Symposium on Telecommunications (SBrT12), 2012.
[31] ITU-T P.910, Subjective video quality assessment methods for multimedia applications, Standardization Sector of ITU, 1999.
[32] W. Ding, Y. Tong, Q. Zhang, and D. Yang, Image and Video Quality Assessment Using Neural Network and SVM, Tsinghua Science & Technology, vol. 13, no. 1, pp. 112116, 2008.
[33] K. S. Banerjee, C. R. Rao, and S. K. Mitra, Generalized Inverse of Matrices and Its Applications, Technometrics, vol. 15, no. 1, p. 197, Feb. 1973.
[34] VQEG, Final report from the video quality experts group on the validation of reduced-reference and no-reference objective models for standard defnition television, Phase I, 2009.
[35] VQEG, Report on the validation of video quality models for high defnition video content, 2010.
[36] J. W. Tukey, Exploratory Data Analysis. New York: Addison-Wesley Publishing Company, 1977.
[37] P. Gastaldo and R. Zunino, Neural networks for the no-reference assessment of perceived quality, J. Electronic Imaging, vol. 14, no. 3, p. 033004, 2005.
[38] R. Herzog, M. adk, T. O. Aydn, K. I. Kim, K. Myszkowski, and H.-P. Seidel, NoRM: No-Reference Image Quality Metric for Realistic Image Synthesis, Comp. Graph. Forum, vol. 31, no. 2pt4, pp. 545554, 2012.
4
queremos fortalecer ainda mais nossos
valores e estar sempre presentes e
dialogando com o campo. Queremos
crescer sem perder nossa essncia
ressaltou a presidente Luiza Helena, em
sua fala de abertura do primeiro programa,
nos idos de 2006, que foi transmitido
inicialmente para 310 pontos no territrio
nacional.
O processo de implantao da TV
foi coordenado pela gerente de Relaes
Institucionais, Ivone Santana, e consistiu
em fases distintas: recebimento e anlise
das propostas apresentadas por vrias
empresas; estudo e definio da tecnologia
a ser adotada para a transmisso; escolha
e contratao da empresa parceira;
distribuio e instalao das antenas de
recepo em cada unidade; definio do
formato da programao; e finalmente, a
formatao de um cronograma de trabalho
para a produo contnua dos programas
semanais, envolvendo roteiro, captao de
imagens, edio e transmisso.
A empresa escolhida para ser a
parceira neste projeto foi a Subway, uma
produtora de So Paulo que j prestava
servios para o Magazine Luiza na
realizao de eventos e vdeos. Segundo
Arnold Eugnio Correia, diretor da Subway,
a TV Luiza mobiliza uma equipe de 26
profissionais no dia da transmisso do
programa sendo que, deste total, 6
pessoas ficam dedicadas para a TV Luiza
em tempo integral. Comeando em Franca,
cidade originria do Magazine Luiza, com
um pequeno estdio de 200 metros
quadrados, e desde setembro de 2010 em
So Paulo, num estdio moderno dentro do
prprio Escritrio de Negcios da empresa,
a TV Luiza, atualmente, realiza um
programa semanal de trinta minutos,
aproximadamente, toda quinta-feira s 8
horas, transmitido ao vivo para suas lojas,
centros de distribuio e escritrios em 16
estados brasileiros, via broadcasting por
satlite.
No processo de produo do
programa, a gesto do programa, exercida
por um executivo da empresa, tem o poder
de filtrar as diversas demandas das vrias
reas da empresa (Marketing, Operaes
de Loja, Compras, Logstica, etc...) para a
limitao do contedo do roteiro do
programa. Obviamente, cada rea de
interesse julga seu contedo como
pertinente e de urgente necessidade de
divulgao. No obstante essa conduta, as
diretrizes corporativas ordenam e
direcionam as prioridades: nem tudo que
necessita ser divulgado, necessita ser
divulgado atravs do programa televisivo.
Contedos primeiramente demandados
produo da TV Luiza so redirecionados a
outros meios de divulgao e comunicao
da empresa, como a Rdio Luiza ou o
Portal da Empresa na Internet, tambm
chamado de Portal Luiza.
Gerenciar o excesso de informao
que bombardeia o funcionrio diariamente
uma necessidade fundamental no
processo de comunicao. As mensagens
e contedos acabam concorrendo pela
ateno do funcionrio, que acaba
selecionando apenas algumas informaes
que o interessam naquele momento, devido
sobrecarga de informao. Com isso,
corre-se o risco de informaes relevantes
se perderem. preciso que o comunicador
faa uma gesto inteligente das
informaes, priorizando as de maior
relevncia e escolhendo os canais
adequados para divulg-las (Silva Neto, p.
60).
A estrutura do programa
corporativo da TV Luiza conta com equipe
similar de um programa de televiso
comercial: diretor, roteirista, produtores,
editores, cinegrafistas, entre outros. O uso
de cenografia que, via de regra, remete s
campanhas que esto sendo veiculadas
pela empresa, parte funcional da
produo de qualquer programa de TV
convencional. Equipamentos de captao e
edio so os mais atuais possveis no
mercado audiovisual. E os cuidados com
maquiagem e figurino so os mesmos
como seriam empregados caso no fossem
os apresentadores diretores, gerentes e
colaboradores, e sim atores profissionais.
A elaborao de cada programa
conta com a confeco de quadros
variados, VTs pr-gravados com assuntos
pertinentes aos temas abordados em cada
rea. A similaridade com a TV
convencional tal que vrios gneros e
formatos so utilizados como, por exemplo,
o programa de auditrio com apresentador
ao vivo, muito usado na TV Luiza, com
participao de pblico e convidados, e
contando sempre com um diretor ou uma
liderana visvel da empresa para
comandar o programa.
Outro formato bastante utilizado o
telejornal. O telejornalismo bastante
valorizado pois as emissoras investem
grande parte de seus recursos no
jornalismo com intuito de dar credibilidade
ao veculo, segundo Aronchi [7]. (Aronchi, p
153).
32 Revista de Radiodifuso v. 07 n. 08 2013
Pesquisas em ambientes digitais - TV Internet Radio Cinema
5
Dois quadros dentro do programa
de variedades que a TV Luiza, se
encaixam, com alguma pertinncia, na
classificao de telejornal ou matria de
telejornal: Reprter por um Dia, e Onde
Esto os Lderes so quadros que o
apresentador chama para citar uma
reportagem feita especialmente para
documentar ou mostrar alguma rea ou
procedimento na empresa, ou ento algum
acontecimento externo onde o nome da
empresa se v refletido na mdia
tradicional. Ambos so mostrados atravs
de VTs (vdeo-tapes, ou seja, matrias pr-
gravadas). Aps o encerramento do VT, o
apresentador, ao vivo, comenta sobre a
relevncia da matria apresentada, bem ao
molde dos telejornais.
Quanto ao fato de que esses
quadros so produzidos com a orientao
corporativa, como visto anteriormente, e
produzidos para mostrar o lado positivo do
dia-a-dia da empresa, vale colocar a
pertinente observao de Beatriz Becker [8]
(Becker, p. 47):
o leitor que torna o texto e a
obra vivos, porque sem audincia no h
espetculo. No importa aqui, portanto,
julgar se os discursos jornalsticos so bons
ou ruins, verdadeiros ou falsos, at porque
esses conceitos tambm so relativos.
Notamos tambm que, assim como
a televiso, historicamente, serviu a um
processo de identidade nacional, nos anos
1960-70, a televiso corporativa do
Magazine Luiza usada, por exemplo no
trabalho de integrao de funcionrios de
uma rede adquirida em 2010, a rede de
lojas Maia, no Nordeste, repassando a
cultura do Magazine Luiza e dando voz e
presena aos funcionrios da rede Maia,
em processo de absoro pelo Magazine
Luiza.
O encerramento da cada programa
no estdio tem um tom especificamente
emocional, com o diretor ou liderana que
apresenta o programa conclamando os
funcionrios a aplicar com afinco o
Atendimento 10 Estrelas (cartilha de regras
de atendimento da corporao). Quando
Douglas Matricardi, diretor de Operaes
de Loja, que est em constante contato
pessoal com gerentes e vendedores,
apresenta o programa, ele chama para si a
tarefa de puxar a emoo para encerrar o
tema e o programa. Seu discurso o
discurso de lder, e lder reconhecido. Para
isso ele usa recursos figurativos em seu
discurso, previamente debatidos
exausto na confeco do roteiro do
programa, e a cmera refora no
enquadramento essa perspectiva, para em
seguida o programa encerrar-se num VT
ainda emocional, com gritos de guerra
dos funcionrios do escritrio, em apoio
aos das lojas.
Por fim, a repercusso do
programa da TV Luiza sempre imediata,
com elogios e crticas dos
telespectadores de lojas desde So Paulo
at os confins do Brasil, chegando por
telefone ou e-mail, alcanando dos
diretores-apresentadores at a prpria
presidente da empresa, Luiza Helena
Trajano, que de 3 a 4 vezes ao ano
apresenta ela prpria o programa.
Concluso
Conclumos ento que as
corporaes, atravs da televiso
corporativa, se propem a usar esse poder
e essa penetrao, a familiaridade da mdia
televisiva com o pblico em geral (sendo os
funcionrios de uma corporao parte
desse pblico em geral a quem os mass
media procuram atingir), para se assegurar
da transmisso da mensagem corporativa,
de maneira objetiva, atravs de veculo to
forte e onipresente, mesmo sem poder
controlar ou prever seu resultado.
Como mostramos, no caso da TV
Luiza, a repercusso do programa um
bom exemplo da importncia que a
Televiso Corporativa assumiu na
comunicao como um todo, sua
apropriao dos recursos tcnicos e
artsticos da televiso aberta, convencional,
e a utilizao destes para traar seu prprio
caminho e servir ao processo corporativo,
que lhe base e fundamento, no intuito de
reforar seus valores e viso.
Referncias
[1] DUNKER, C.I.L. & PRADO, J.L.A..
iek Crtico: poltica e psicanlise na era
do multiculturalismo. So Paulo: Hacker,
2005.
[2] KOTLER, Philip. Administrao de
Marketing: analise, planejamento,
implementao e controle. So Paulo:
Atlas, 1994.
[3] NETO, Belmiro Ribeiro da Silva.
Comunicao corporativa e reputao:
construo e defesa da imagem favorvel.
Rio de Janeiro: Editora Saraiva, 2010.
[4] CULTURE AUDICT The Great Place
to Work Institute 2011. Relatrio do
Pesquisas em ambientes digitais - TV Internet Radio Cinema
Revista de Radiodifuso v. 07 n. 08 2013 33
MTRICA SEM REFERNCIA BASEADA EM REDES NEURAIS
PARA AVALIAO OBJETIVA DE QUALIDADE DE VDEO DIGITAL
Wyllian Bezerra da Silva, Alexandre de Almeida Prado Pohl
Programa de Ps-Graduao em Engenharia Eltrica e Informtica Industrial (CPGEI) UTFPR, Curitiba, Brasil
wyllianbs@gmail.com, pohl@utfpr.edu.br
Resumo: Este trabalho apresenta uma mtrica sem referncia para avaliao de qualidade de vdeo digital baseada em uma rede neural artifcial que usa uma verso estendida do algoritmo de aprendizado ELM (Extreme Learning Machine). O mtodo proposto realiza o treinamento da rede neural a partir de seis caractersticas espao-temporais. Os resultados experimentais mostram que o mtodo proposto apresenta desempenho superior s mtricas de referncia completa PSNR e MS-SSIM na tarefa de predio de qualidade de vdeo. Logo, o mtodo proposto pode ser usado no monitoramento de qualidade em sistemas de transmisso e recepo de vdeo digital, tais como IPTV e TV digital.
Palavras chave: algoritmo ELM, avaliao objetiva de vdeo, mtrica sem referncia, rede neural artifcial.
1. INTRODUO
Durante os ltimos anos, a literatura tem apresentado um nmero crescente publicaes acerca de mtricas objetivas para avaliao de qualidade de vdeo para diversas aplicaes em radiodifuso ou no processamento de vdeo digital, seja na aquisio do sinal, codifcao e decodifcao, compresso, transmisso, restaurao, armazenamento, segmentao e exibio de sinais de vdeo digital [14]. A avaliao de qualidade de vdeo digital pode ser realizada por meio de mtricas subjetiva e objetiva. A primeira requer uma grande quantidade de recursos humanos e apresenta elevado custo em sua implementao [13]. Porm, as mtricas objetivas so vantajosas quando apresentam um determinado grau de correlao com as mtricas subjetivas. Logo, o desenvolvimento destas um desafo no campo de avaliao de qualidade de vdeo e imagem. Alm disso, as mtricas objetivas, devido natureza de seu critrio objetivo, independem de interao humana e so facilmente reprodutveis [3]. Dentre as mtricas objetivas destacam-se as mtricas sem referncia (No-Reference NR), pois no necessitam do vdeo de referncia no clculo de sua medida. Entretanto, estas requerem um conhecimento a priori sobre as distores em vdeo digital para que seja estabelecida uma correlao com os resultados subjetivos [3].
A maioria das mtricas NR encontradas na literatura so baseadas na avaliao de qualidade de imagens e em caractersticas relacionadas ao Sistema Visual Humano (SVH). Assim, o desenvolvimento de mtricas NR difcil, devido necessidade de emular a percepo do SVH que envolve aspectos cognitivos, emocionais e estticos relacionados ao contedo do vdeo e que so altamente dependentes do observador [4], [5].
A literatura reporta diversos esforos no desenvolvimento de mtricas para avaliao de qualidade de vdeo baseadas em redes neurais e em algoritmos de aprendizado. Babu et al. [6] apresentam uma mtrica para avaliar a qualidade de imagens comprimidas em JPEG (Joint Photographic Experts Group) por meio de um algoritmo de aprendizado de crescimento e propem o uso de uma rede neural GAP-RBF (Growing and Pruning Radial Basis Function) que usa caractersticas relacionadas ao SVH. Jiang et al. [7] desenvolveram uma mtrica NR para avaliao de qualidade de vdeo em HD (High Defnition) baseada em uma rede neural treinada pelo algoritmo BP (Back-Propagation) que usa seis caractersticas espao-temporais e a RoI (Region of Interest). Choe et al. [8] desenvolveram uma mtrica NR baseada no fuxo de bits para avaliao de qualidade de vdeo codifcado em H.264. Esta mtrica extrai caractersticas quadro a quadro e usa uma rede neural alimentada adiante (feedforward) com trs camadas. Suresh et al. [9] apresentaram uma extenso do algoritmo ELM na tarefa de avaliar a qualidade de imagens comprimidas em JPEG com base no esquema de seleo mltipla KS-ELM (K-fold selection Scheme using ELM) e no algoritmo RCGA-ELM (Real-Coded Genetic Algorithm using ELM) para seleo dos pesos de entrada e polarizaes.
Este trabalho apresenta uma verso estendida do algoritmo ELM para redes neurais SLFN (Single-hidden-Layer Feedforward Neural Networks) que implementa um simples critrio de parada na fase de treinamento. Alm disso, esse mtodo usa seis caractersticas espao-temporais de vdeos submetidos a diversas condies de distoro.
Este artigo est dividido da seguinte maneira: a Seo 2 descreve as mtricas para avaliao de qualidade de vdeo. A Seo 3 descreve o mtodo NR proposto para avalio de qualidade de vdeo digital. A Seo 4 apresenta os resultados experimentais, em que so comparados o mtodo NR proposto e duas mtricas FR. Finalmente, a Seo 5 apresenta a concluso do artigo.
2. AVALIAO DE QUALIDADE DE VDEO
O processo de avaliao de qualidade de vdeo
pode ser realizado com a aplicao de mtricas
subjetivas ou objetivas. As mtricas subjetivas
estimam a qualidade do vdeo por meio de avaliadores
humanos. Logo, exigem um alto custo, pois
necessitam de uma grande quantidade de recursos
humanos e apresentam problemas quanto aos
requisitos de imparcialidade e reprodutibilidade,
tornando-se inapropriadas em sistemas de
radiodifuso ou em provedores de contedo [10], [11].
Por outro lado, as mtricas objetivas so baseadas em
modelos matemticos, cujo objetivo produzir um
escore de qualidade que emule a percepo do SVH.
Alm disso, as mtricas objetivas requerem baixo
custo de implementao (quando comparadas com as
mtricas subjetivas) e no apresentam problemas
quanto reprodutibilidade e imparcialidade.
As mtricas objetivas para avaliao de qualidade
de vdeo podem ser classifcadas em trs categorias:
(i) mtricas de referncia completa (Full-Reference
FR); (ii) mtricas de referncia reduzida (Reduced-
Reference RR); (iii) mtricas sem referncia (NR).
2.1. Mtricas FR
As mtricas FR requerem o vdeo de referncia
(fonte) no clculo do escore de qualidade. Estas
mtricas so amplamente utilizadas no processo de
validao de mtricas RR ou NR, por meio da
comparao de desempenho defnida pelas
recomendaes do Grupo de Especialistas em
Qualidade de Vdeo (VQEG Video Quality Experts
Group) que um rgo de padronizao internacional
de mtricas subjetivas e objetivas de qualidade de
vdeo. Dentre as mtricas FR, destacam-se o PSNR
(Peak Signal-to-Noise Ratio), SSIM (Structural
SIMilarity index) [12] e MS-SSIM (Multi-Scale
Structural SIMilarity index) [13].
O PSNR uma mtrica FR baseada no erro pixel a
pixel de fcil implementao. Entretanto, apresenta
baixa correlao com o SVH [14]. A sua medida
processada sobre o erro quadro a quadro, i.e., entre o
quadro original x e o quadro y . A expresso a seguir
defne o PSNR para um conjunto de quadros F .
20
1
1
PSNR 20log ,
F
f
f f
v
F MSE



(1)
com

2
0 0
1
MSE , , , , ,
N M
f
i j
x f i j y f i j
NM

(2)
em que o termo f v igual a (2 1) k , cujo k o
nmero de bits por pixel, i.e., a componente de
luminncia do quadro f . Os termos x f ,i, j e
y f ,i, j so os valores de luminncia do quadro de
origem e degradado, respectivamente. As
componentes bidimensionais so representadas pelo
nmero de colunas N e pelo nmero de linhas M . O
termo f MSE defnido como erro quadrtico mdio
ou MSE (Mean Square Error).
A mtrica SSIM baseia-se no fato de que o SVH
fortemente adaptado para extrair informaes das
caractersticas estruturais de um quadro ou imagem.
Logo, uma medida de similaridade estrutural (ou
distoro) pode prover boa aproximao para a
qualidade perceptual de um vdeo [3, 79]. Sejam x e
y dois sinais no-negativos, em que y o sinal
degradado e x o sinal original (sem perda de
qualidade), a medida de similaridade utilizada como
um ndice quantitativo de qualidade do sinal distorcido,
ou seja, x tomado como a referncia para medir a
qualidade de y . A mtrica SSIM possui diversas
extenses, dentre as quais a verso MS-SSIM,
proposta por Wang et al. [13] que assume uma
abordagem multiescalar.
2.2. Mtricas RR
As mtricas de referncia reduzida retiram certa
quantidade de caractersticas do vdeo original (fonte),
baseadas em componentes espaciais, temporais, no
domnio da frequncia ou no fuxo de bits (bitstream).
Este tipo de mtrica amplamente utilizada no
monitoramento de transmisses em rede [17]. Neste
tipo de cenrio de aplicao, o vdeo transmitido
com uma sequncia de informao codifcada
(overhead) e no lado receptor ocorre a sua
decodifcao, seguido pelo clculo do ndice de
qualidade, o qual obtido por meio da comparao
entre a representao reduzida da informao nos
pares emissor e receptor [18]. Tipicamente, mtricas
RR so implementadas por meio de funes, divididas
em duas etapas [19]: (i) clculo do erro entre os
vdeos original e distorcido, constitudo pela diferena
de suas caractersticas, a fm de compor a
representao reduzida da informao; (ii) funo que
agrupa os erros ou diferenas para obter um ndice de
qualidade global. Algumas mtricas RR exploram
propriedades dos artefatos, por meio da extrao de
caractersticas e um modelo de parametrizao [20]
com foco em tipos especfcos de distores
(artefatos). Esta abordagem encontrada em Silva et
al. [17], cujo clculo do escore de qualidade
baseado na diferena de atividade dos coefcientes
DCT (Discrete Cosine Transform) em um macro bloco
com resoluo de 1616 pixels.
2.3. Mtricas NR
As mtricas NR extraem caractersticas
relacionadas ao SVH do vdeo distorcido, i.e., na
recepo do sinal de vdeo [14]. Tipicamente, h duas
abordagens no desenvolvimento destas mtricas: (i)
extrao dos parmetros sobre o fuxo de bits, tais
como a taxa de compresso, informaes
relacionadas ao GoP (Group of Pictures), estimao
de movimento, perfl e nvel de codifcao, bem como
o parmetro de quantizao ou QP (Quantization
Parameter) [2125]. Mtricas NR apresentam maior
complexidade quando so aplicadas em vdeo, devido
variao temporal dos quadros, contedos das
cenas e difculdade de compreenso das
caractersticas do SVH [26]. Assim, algumas mtricas
dessa categoria exploram caractersticas espaciais e
temporais na estimao de qualidade de vdeo [21].
3. MTODO PROPOSTO
O mtodo proposto, denominado NRVQA-ELMtc
(No-Reference Video Quality Assessment using
Extreme Learning Machine algorithm with termination
criteria) [27] combina caractersticas espaciais e
temporais, por meio de uma rede neural artifcial
SLFNs usando o algoritmo de treinamento ELM [28]
com a implementao de um simples critrio de
parada.
3.1. Caractersticas espao-temporais
As caractersticas espaciais incorporadas no
mtodo proposto so baseadas em medidas de
artefatos em vdeo digital, i.e., distores de blocagem
e borramento desenvolvidas por Wang et al. [20].
Assim, a componente de luminncia do quadro f
representada por y(f , i, j ) com i 1,M e j 1, N ,
em que M e N so os nmeros de linhas e colunas,
respectivamente, de um quadro. Logo, as diferenas
de luminncia ao longo das linhas e colunas so
representadas, respectivamente, pelas expresses a
seguir.


, , , , 1 , , , 1, 1 ,
, , , 1, , , , 1, 1 .
h
v
d f i j y f i j y f i j j N
d f i j y f i j y f i j i M


(3)
O efeito de blocagem pode ser estimado pela
mdia das diferenas entre as bordas dos blocos da
DCT (Discrete Cosine Transform) nas direes
horizontal e vertical para uma sequncia F de
quadros, conforme mostra a Equao (4), com um
macrobloco de dimenso , cujo tamanho tpico
de 8 [20].


1
1
1 1 1
1
1
1 1 1
1
, , 1 ,
1
1
1
, 1 , .
1
1
N
F M
h h
f i j
M
F N
v
i j
v
f
B d f i j
N
F M
B d f i j
M
F N












(4)
A medida de blocagem em uma sequncia de
vdeo com F quadros determinada pela mdia entre
h B e v B , caracterizando a medida B , conforme a
expresso a seguir.
.
2
h v B B
B

(5)
Os efeitos de borramento so estimados pelo
clculo da reduo de atividade entre os blocos ,
em que usada a medida de blocagem nas direes
horizontal e vertical, conforme as expresses




1
1 1 1
1
1 1 1
, , ,
1 1
, ,
1
.
1
F M N
h h h
f i j
F M N
v v
f
v
i j
A d f i j B
F M N
A d f i j B
F N M








(6)
A medida de borramento, representada por A ,
conforme a Equao (7), determinada pela mdia
entre h A e v A .
.
2
h v A A
A

(7)
O segundo fator que contribui para a deteco do
artefato de borramento baseado na taxa de
cruzamento por zero (Zero Crossing ZC) nas
direes horizontal e vertical, conforme as expresses
a seguir.




2
1 1 1
2
1 1 1
1
, , ,
2
1
, , ,
2
F M N
h h
f i j
F M N
v v
f i j
Z z f i j
F M N
Z z f i j
F N M




(8)
em que os termos h z e v z so determinados por


1, na direo horizontal
, , ,
0, caso contrrio
1, na direo vertical
, , .
0, caso contrrio
h
v
z f i j
z f i j



(9)
Assim, a medida de borramento Z determinada
pela mdia entre as componentes h Z e v Z .
.
2
h v Z Z
Z

(10)
O mtodo proposto tambm incorpora trs
caractersticas temporais no treinamento da rede
neural SLFN com o algoritmo ELM.
A primeira caracterstica temporal a diferena de
movimento entre quadros adjacentes, representada
pela varivel TI (Temporal perceptual Information) [31]
que considera os valores de luminncia de pixels
localizados em uma mesma regio de um quadro,
conforme a expresso a seguir.

2
1
, , ,
1
F
f
TI m f i j
F


(11)
em que o nmero total de quadros F e mf ,i, j

o desvio padro da diferena de movimento
(diferena de luminncia) entre o quadro atual
y f ,i, j e o quadro anterior y f 1,i, j .
A segunda caracterstica temporal a mdia da
diferena absoluta (Mean Absolute Diference MAD)
[31] entre quadros sucessivos, representada pela
Equao (12) que defne a medida global da MAD
para todos os quadros de um vdeo.


2 1 1
1
, , 1, , .
1
F M N
f i j
MAD y f i j y f i j
M N F



(12)
A terceira caracterstica temporal a mdia da
diferena absoluta ponderada (weighted Mean
Absolute Diference MADw) [32], a qual mede o grau
de variao das cenas de um vdeo que considera a
cena atual de um quadro f e do quadro anterior f 1,
conforme a expresso:
2 1
1
.
1
F
f
f f
MAD
MADw
F MAD


(13)
Assim, o mtodo proposto combina as
caractersticas espaciais e temporais em uma matriz
, , , , , f f f f f f f x A B Z TI MAD MADw , em que f o
nmero de amostras de vdeo. A Figura 1 apresenta
as caractersticas temporais espaciais de dezessete
bases de dados de vdeos (denominada superconjunto
S) usadas neste trabalho e reportadas em [27]. A
recomendao ITU-T P.910 [31] defne a medida SI
(Spatial perceptual Information) como informao
espacial perceptual. A inspeo visual dessa fgura
mostra que as amostras de vdeo usadas neste
trabalho apresentam uma grande variao espaotemporal.
Fig. 1. Caractersticas espaciais e temporais do superconjunto
S com 216 amostras de referncia
3.2. Mtrica NRVQA-ELMtc
O algoritmo ELM [28] desenvolvido para o
treinamento de uma rede SLFN atribui pesos e
polarizaes (biases) de maneira aleatria, segundo
uma distribuio uniforme. O treinamento compreende
N amostras distintas representadas pela varivel
, , , 1, , n m
f f f f x t x t f N , cujo clculo
conforme a expresso

1
, 1, , ,
K
K i j j f j f
f
f g b f N

x w x o (14)
em que f o a sada (escore objetivo), g(x) a
funo de ativao e j o peso que conecta o jsimo
neurnio da camada oculta ao neurnio de
sada. De acordo com [28], uma rede SLFN com K
ns na camada oculta e uma funo de ativao g(x)
pode apresentar um erro mdio prximo de zero, i.e.,
1
0
K
f f
f
o t . Logo, h parmetros j , j w e j b tal
que

1
, 1, , ,
K
j j f j f
f
g b f N

w x t (15)
em que f t o vetor alvo (escores subjetivos),
T
1, , j j jn w w w o vetor de peso que conecta o jsimo
neurnio da camada oculta ao neurnio da
camada de entrada, j b denota a polarizao (bias) do
j-simo neurnio da camada oculta, j f w x o
produto interno de j w e f x . A Figura 2 ilustra o
algoritmo ELM empregado em uma arquitetura de
rede neural SLFN.
xi
1
j
N
1
j
K
ti
bj
N input neuron K hidden neuron output neuron
1
K
wj
Fig. 2. Arquitetura de uma rede neural SLFN usando algoritmo
de treinamento ELM
O sistema linear da Equao (16) resume o mtodo
do algoritmo ELM.
H T, (16)
em que a matriz da camada oculta representada por
1, , and 1, , f H h f N j K com a primeira
linha da matriz de caractersticas f x igual a
T
1 2 , , , f f f fn x x x x , i.e., a primeira linha igual a
1 1 1 1 1 1 1 , , , , , f f f f f f f x A B Z TI MAD MADw . A matriz de
sada e o vetor alvo (target) so defnidos como
T
1 , K e
T
1, , N T t t , respectivamente. O
termo
T
1 , 1, , j jm j j K denota o vetor de
peso que conecta o j-simo neurnio da camada
oculta e os neurnios de sada. Hung et al. [28]
propuseram a atribuio aleatria de pesos aos
parmetros j w e j b , a fm de seja obtido um pequeno
erro no-nulo durante o treinamento. Considerando o
sistema linear da Equao (17), os pesos da camada
de sada podem ser aproximados por
H T (17)
em que H defnida como matriz inversa
generalizada de Moore-Penrose (MP) [33] da matriz
de sada da camada oculta H . Alm disso, o
conjunto de treinamento , n oculta K e uma
funo de ativao g x , e.g., funo de base radial
(Radial Basis Function RBF), hard-limiting (hardlim),
sigmoidal (sig) e seno (sin). Em resumo, o algoritmo
ELM compreende trs etapas [28]:
i) Atribuio aleatria dos pesos de entrada j w e
polarizaes j b ;
ii) Clculo da matriz da camada de sada H ;
iii) Clculo dos pesos de sada : H T .
O mtodo NRVQA-ELMtc [27] implementa um
simples critrio de parada no treinamento da rede
neural SLFN, quanto atribuio aleatria dos pesos
j w e j b . Embora este critrio no seja direcionado,
busca os pesos relacionados com o menor RMSE
(Root-Mean-Square Error) entre a sada desejada
(escore subjetivo) e o escore objetivo na fase de
treinamento com k iteraes (tipicamente, k 100 ) e
N neurnios na camada oculta. Alm disso, conforme
estudo realizado em [27], caso o RMSE seja menor do
que 0,5 o algoritmo cessa a busca pelos parmetros
j w e j b .
4. RESULTADOS EXPERIMENTAIS
Esta seo apresenta os resultados de acurcia,
i.e., os coefcientes de correlao linear de Pearson
(Pearson Linear Correlation Coefcient PLCC) [34],
[35], entre os escores objetivos e subjetivos de 2627
amostras de vdeo estudadas em [27].
A Figura 3 compara a acurcia (PLCC) entre as
mtricas de referncia completa (FR) PSNR e MSSSIM
com o mtodo proposto (NRVQA-ELMtc) para
as 2627 amostras de vdeo, pertencentes a 17 bases
de dados de vdeo disponibilizadas por diversas
instituies e laboratrios [27]. A funo de ativao
usada na rede neural SLFN foi o seno (sin) com o
nmero de amostras de teste igual ao nmero de
neurnios na camada oculta ( N ). O mtodo de
validao cruzada mltipla (K-fold) foi usado com o
objetivo de gerar uma distribuio de acurcia, a qual
foi analisada por meio do diagrama de caixa (box-plot)
[36], em que o trao, o crculo e o quadrado, ambos
em vermelho, representam a mediana, a mdia e o
desvio padro, respectivamente. Destaca-se que
neste trabalho foi empregada uma validao cruzada
com um grande nmero de amostras de treinamentoteste
com K 100 , i.e., cada caixa do box-plot
comporta 100 experimentos distintos. Tipicamente, a
literatura apresenta trabalhos no campo da avaliao
Fig. 3. Box-plot da predio da acurcia (PLCC) entre as mtricas PSNR, MS-SSIM e o mtodo proposto NRVQA-ELMtc
de qualidade de vdeo com K entre 5 e 10 [37], [38].
Pela inspeo visual da Figura 3 observa-se que o
desempenho do mtodo proposto superior s
mtricas FR, em quaisquer condies de teste, i.e.,
para qualquer quantidade de amostras de teste
(nmero de neurnios na camada oculta) entre 25 e
500. Em especial, para N 50 , o mtodo proposto
apresenta valores de PLCC, em termos da mdia e
mediana, acima de 0,8, denotando uma forte
associao entre os escores objetivos e subjetivos, na
tarefa de predio de qualidade de vdeo. Isto ocorre
devido grande quantidade de amostras de vdeo
usadas no treinamento, e.g., para N 300 foram
usadas 2327 amostras de treinamento, ou seja,
mesmo usando pares de treinamento-teste disjuntos,
o mtodo proposto mostra uma acurcia superior s
mtricas de referncia completa. A assimetria positiva,
i.e., a maior concentrao da acurcia entre o
segundo quartil (mediana) e o terceiro quartil, na
distribuio do box-plot nos testes com 300 e 500
neurnios na camada oculta, indica que o mtodo
proposto apresenta um desempenho expressivo em
comparao com as mtricas FR.
Entretanto, mesmo para N entre 25 e 50, o
mtodo proposto apresentou uma acurcia maior do
que as mtricas FR, cujo melhor resultado foi para
N 25 com o desvio-quartil (amplitude interquartlica)
confnado entre 0,65 e 0,8. Alm disso, este resultado
tambm apresentou assimetria positiva com a mdia
do PLCC em torno de 0,75.
5. CONCLUSO
Este trabalho apresentou uma mtrica NR baseada
em uma rede neural artifcial SLFN, cujo treinamento
determinado pelo algoritmo ELM, o qual considera
caractersticas espao-temporais e os escores
subjetivos (alvos) extrados de 2627 amostras
treinamento. Alm disso, este trabalho prope uma
extenso do algoritmo ELM por meio de um simples
critrio de parada, a fm de que sejam obtidos
parmetros da rede neural artifcial relacionados com
o menor RMSE. Tipicamente, a comparao entre
mtricas FR e NR injusta, devido ausncia do
vdeo de referncia na obteno do escore de
qualidade em mtricas NR. Entretanto, os resultados
experimentais mostram que o mtodo proposto
apresentou desempenho superior s mtricas de
referncia completa PSNR e MS-SSIM, sobretudo,
quando o nmero de amostras de teste e de neurnios
na camada oculta da rede SLFN maior do que 250.
Logo, a mtrica NRVQA-ELMtc pode ser empregada
no monitoramento de qualidade em sistemas de
transmisso e recepo de vdeo digital, tais como
IPTV (Internet Protocol Television), TV digital ou em
dispositivos mveis, tais como ultrabooks,
smartphones, tablets e em aparelhos WiDi (Wireless
Display).
REFERNCIAS
[1] S. Winkler, Issues in vision modeling for perceptual
video quality assessment, Signal Processing, vol. 78,
no. 2, pp. 231252, 1999.
[2] Z. Wang and A. C. Bovik, Modern image quality
assessment. San Rafael, CA: Morgan & Claypool,
2006.
[3] W. Lin and C.-C. Jay Kuo, Perceptual visual quality
metrics: A survey, Journal of Visual Communication
and Image Representation, vol. 22, no. 4, pp. 297312,
May 2011.
[4] S. S. Hemami and A. R. Reibman, No-reference image
and video quality estimation: Applications and humanmotivated
design, Signal Processing: Image
Communication, vol. 25, no. 7, pp. 469481, 2010.
[5] Z. Wang and A. Bovik, Reduced- and No-Reference
Image Quality Assessment, IEEE Signal Processing
Magazine, vol. 28, no. 6, pp. 2940, Nov. 2011.
[6] R. V. Babu, S. Suresh, and A. Perkis, No-reference
JPEG-image quality assessment using GAP-RBF,
Signal Processing, vol. 87, no. 6, pp. 14931503, 2007.
[7] X. Jiang, F. Meng, J. Xu, and W. Zhou, No-Reference
Perceptual Video Quality Measurement for High
Defnition Videos Based on an Artifcial Neural
Network, in Computer and Electrical Engineering,
2008. ICCEE 2008. International Conference on, 2008,
pp. 424427.
[8] J. Choe, K. Lee, C. Lee, and S. Korea, No-reference
video quality measurement using neural networks, in
2009 16th International Conference on Digital Signal
Processing, 2009, pp. 14.
[9] S. Suresh, R. Venkatesh Babu, and H. J. Kim, Noreference
image quality assessment using modifed
extreme learning machine classifer, Applied Soft
Computing, vol. 9, no. 2, pp. 541552, Mar. 2009.
[10] A. M. Eskicioglu and P. S. Fisher, Image quality
measures and their performance, IEEE Transactions
on Communications, vol. 43, no. 12, pp. 29592965,
1995.
[11] U. Engelke and H.-J. Zepernick, Perceptual-based
Quality Metrics for Image and Video Services: A
Survey, in Proceedings EuroNGI Conf. Next
Generation Internet Networks, 2007, pp. 190197.
[12] Z. Wang, A. C. Bovik, H. R. Sheikh, and E. P
Simoncelli, Image quality assessment: from error
visibility to structural similarity., IEEE Transactions on
Image Processing, vol. 13, no. 4, pp. 600612, 2004.
[13] Z. Wang, E. P. Simoncelli, and A. C. Bovik, Multiscale
structural similarity for image quality assessment, in
The Thrity-Seventh Asilomar Conference on Signals,
Systems & Computers, 2003, 2003, vol. 2, no. 1, pp.
13981402.
[14] H. R. Wu, K. R. Rao, and A. A. Kassim, Digital Video
Image Quality and Perceptual Coding, Journal of
Electronic Imaging, vol. 16, no. 3, 2007.
[15] Z. Wang and A. C. Bovik, A universal image quality
index, IEEE Signal Processing Letters, vol. 9, no. 3,
pp. 8184, Mar. 2002.
[16] Y. Shi, Y. Ding, R. Zhang, and J. Li, Structure and Hue
Similarity for Color Image Quality Assessment, in 2009
International Conference on Electronic Computer
Technology, 2009, pp. 329333.
[17] W. B. Silva, A. A. P. Pohl, and K. V. O. Fonseca, A
Reduced-Reference Video Quality Assessment Method
based on the Activity-Diference of DCT Coefcients,
IEICE Transactions on Information and Systems, vol. E96-D, no. 3, 2013.
[18] P. Le Callet, C. Viard-Gaudin, and D. Barba, A Convolutional Neural Network Approach for Objective Video Quality Assessment, IEEE Transactions on Neural Networks, vol. 17, no. 5, pp. 13161327, 2006.
[19] P. Le Callet and D. Barba, Image Quality Assessment: From Sites Errors to a Global Appreciation of Quality, in Proceedings of the Picture Coding Sympsium, 2001, pp. 105108.
[20] M. Miyahara, K. Kotani, and V. R. Algazi, Objective picture quality scale (PQS) for image coding, IEEE Transactions on Communications, vol. 46, no. 9, pp. 12151226, 1998.
[21] M. Slanina, V. Ricny, and R. Forchheimer, A Novel Metric for H.264/AVC No-Reference Quality Assessment, in 14th International Workshop on Systems, Signals and Image Processing and 6th EURASIP Conference focused on Speech and Image Processing, Multimedia Communications and Services, 2007, pp. 114117.
[22] O. Sugimoto, S. Naito, S. Sakazawa, and A. Koike, Objective perceptual video quality measurement method based on hybrid no reference framework, in 16th IEEE International Conference on Image Processing (ICIP09), 2009, pp. 22372240.
[23] T. Oelbaum, C. Keimel, and K. Diepold, Rule-Based No-Reference Video Quality Evaluation Using Additionally Coded Videos, IEEE Journal of Selected Topics in Signal Processing, vol. 3, no. 2, pp. 294303, 2009.
[24] N. Staelens, N. Vercammen, Y. Dhondt, B. Vermeulen, P. Lambert, R. de Walle, and P. Demeester, ViQID: A No-Reference bit stream-based visual quality impairment detector, in Proceedings of the Second Int Quality of Multimedia Experience (QoMEX) Workshop, 2010, pp. 206211.
[25] F. Yang, S. Wan, Q. Xie, and H. R. Wu, No-Reference Quality Assessment for Networked Video via Primary Analysis of Bit Stream, IEEE Transactions on Circuits and Systems for Video Technology, vol. 20, no. 11, pp. 15441554, Nov. 2010.
[26] Z. Wang, H. R. Sheikh, and A. C. Bovik, Objective Video Quality Assessment, in The Handbook of Video Databases: Design and Applications, B. Furht and O. Marques, Eds. Boca Raton, FL, USA: CRC Press, 2003, pp. 10411078.
[27] W. B. da Silva and A. de A. P. Pohl, Mtodos Sem Referncia Baseados em Caractersticas Espao-Temporais para Avaliao Objetiva de Qualidade de Vdeo Digital, Universidade Tecnolgica Federal do Paran (UTFPR), 2013.
[28] G.-B. Huang, Q.-Y. Zhu, and C.-K. Siew, Extreme learning machine: Theory and applications, Neurocomputing, vol. 70, no. 13, pp. 489501, Dec. 2006.
[29] Z. Wang, H. R. Sheikh, and A. C. Bovik, No-reference perceptual quality assessment of JPEG compressed images, in Image Processing. 2002. Proceedings. IEEE International Conference on Image Processing, 2002, vol. 1, pp. vol.1 I477 I480.
[30] W. B. Silva and A. A. P. Pohl, No-Reference Video Quality Assessment Method based on the Levenberg-Marquardt Minimization, in XXX Brazilian Symposium on Telecommunications (SBrT12), 2012.
[31] ITU-T P.910, Subjective video quality assessment methods for multimedia applications, Standardization Sector of ITU, 1999.
[32] W. Ding, Y. Tong, Q. Zhang, and D. Yang, Image and Video Quality Assessment Using Neural Network and SVM, Tsinghua Science & Technology, vol. 13, no. 1, pp. 112116, 2008.
[33] K. S. Banerjee, C. R. Rao, and S. K. Mitra, Generalized Inverse of Matrices and Its Applications, Technometrics, vol. 15, no. 1, p. 197, Feb. 1973.
[34] VQEG, Final report from the video quality experts group on the validation of reduced-reference and no-reference objective models for standard defnition television, Phase I, 2009.
[35] VQEG, Report on the validation of video quality models for high defnition video content, 2010.
[36] J. W. Tukey, Exploratory Data Analysis. New York: Addison-Wesley Publishing Company, 1977.
[37] P. Gastaldo and R. Zunino, Neural networks for the no-reference assessment of perceived quality, J. Electronic Imaging, vol. 14, no. 3, p. 033004, 2005.
[38] R. Herzog, M. adk, T. O. Aydn, K. I. Kim, K. Myszkowski, and H.-P. Seidel, NoRM: No-Reference Image Quality Metric for Realistic Image Synthesis, Comp. Graph. Forum, vol. 31, no. 2pt4, pp. 545554, 2012.
6
Magazine Luiza enviado ao instituto The
Great Place to Work Institute.
[5] BUENO, Wilson da Costa. Comunicao
empresarial. Teoria e Pesquisa. So Paulo:
Manole. 2003.
[6] LOPES, Boanerges. (Org.)
Comunicao empresarial. Transformaes
e tendncias. Rio de Janeiro: MAUAD
Editora, 2010.
[7] ARONCHI DE SOUZA, Jos Carlos.
Gneros e Formatos na Televiso
Brasileira. So Paulo. Summus Editorial,
2004.
[8] BECKER, Beatriz. A linguagem do
telejornal: Um estudo da cobertura dos 500
anos do Descobrimento do Brasil. Rio de
Janeiro: E-papers Servios Editoriais, 2005.
O aplicativo de check-in de TV como ferramenta
de engajamento na era transmdia
Bruna Uehara
brunauehara@yahoo.com.br,
Joo Paulo Polo
joaopaulopolo@yahoo.com.br
34 Revista de Radiodifuso v. 07 n. 08 2013
Pesquisas em ambientes digitais - TV Internet Radio Cinema
Pesquisas em ambientes digitais - TV Internet Radio Cinema
Revista de Radiodifuso v. 07 n. 08 2013 35
MTRICA SEM REFERNCIA BASEADA EM REDES NEURAIS
PARA AVALIAO OBJETIVA DE QUALIDADE DE VDEO DIGITAL
Wyllian Bezerra da Silva, Alexandre de Almeida Prado Pohl
Programa de Ps-Graduao em Engenharia Eltrica e Informtica Industrial (CPGEI) UTFPR, Curitiba, Brasil
wyllianbs@gmail.com, pohl@utfpr.edu.br
Resumo: Este trabalho apresenta uma mtrica sem referncia para avaliao de qualidade de vdeo digital baseada em uma rede neural artifcial que usa uma verso estendida do algoritmo de aprendizado ELM (Extreme Learning Machine). O mtodo proposto realiza o treinamento da rede neural a partir de seis caractersticas espao-temporais. Os resultados experimentais mostram que o mtodo proposto apresenta desempenho superior s mtricas de referncia completa PSNR e MS-SSIM na tarefa de predio de qualidade de vdeo. Logo, o mtodo proposto pode ser usado no monitoramento de qualidade em sistemas de transmisso e recepo de vdeo digital, tais como IPTV e TV digital.
Palavras chave: algoritmo ELM, avaliao objetiva de vdeo, mtrica sem referncia, rede neural artifcial.
1. INTRODUO
Durante os ltimos anos, a literatura tem apresentado um nmero crescente publicaes acerca de mtricas objetivas para avaliao de qualidade de vdeo para diversas aplicaes em radiodifuso ou no processamento de vdeo digital, seja na aquisio do sinal, codifcao e decodifcao, compresso, transmisso, restaurao, armazenamento, segmentao e exibio de sinais de vdeo digital [14]. A avaliao de qualidade de vdeo digital pode ser realizada por meio de mtricas subjetiva e objetiva. A primeira requer uma grande quantidade de recursos humanos e apresenta elevado custo em sua implementao [13]. Porm, as mtricas objetivas so vantajosas quando apresentam um determinado grau de correlao com as mtricas subjetivas. Logo, o desenvolvimento destas um desafo no campo de avaliao de qualidade de vdeo e imagem. Alm disso, as mtricas objetivas, devido natureza de seu critrio objetivo, independem de interao humana e so facilmente reprodutveis [3]. Dentre as mtricas objetivas destacam-se as mtricas sem referncia (No-Reference NR), pois no necessitam do vdeo de referncia no clculo de sua medida. Entretanto, estas requerem um conhecimento a priori sobre as distores em vdeo digital para que seja estabelecida uma correlao com os resultados subjetivos [3].
A maioria das mtricas NR encontradas na literatura so baseadas na avaliao de qualidade de imagens e em caractersticas relacionadas ao Sistema Visual Humano (SVH). Assim, o desenvolvimento de mtricas NR difcil, devido necessidade de emular a percepo do SVH que envolve aspectos cognitivos, emocionais e estticos relacionados ao contedo do vdeo e que so altamente dependentes do observador [4], [5].
A literatura reporta diversos esforos no desenvolvimento de mtricas para avaliao de qualidade de vdeo baseadas em redes neurais e em algoritmos de aprendizado. Babu et al. [6] apresentam uma mtrica para avaliar a qualidade de imagens comprimidas em JPEG (Joint Photographic Experts Group) por meio de um algoritmo de aprendizado de crescimento e propem o uso de uma rede neural GAP-RBF (Growing and Pruning Radial Basis Function) que usa caractersticas relacionadas ao SVH. Jiang et al. [7] desenvolveram uma mtrica NR para avaliao de qualidade de vdeo em HD (High Defnition) baseada em uma rede neural treinada pelo algoritmo BP (Back-Propagation) que usa seis caractersticas espao-temporais e a RoI (Region of Interest). Choe et al. [8] desenvolveram uma mtrica NR baseada no fuxo de bits para avaliao de qualidade de vdeo codifcado em H.264. Esta mtrica extrai caractersticas quadro a quadro e usa uma rede neural alimentada adiante (feedforward) com trs camadas. Suresh et al. [9] apresentaram uma extenso do algoritmo ELM na tarefa de avaliar a qualidade de imagens comprimidas em JPEG com base no esquema de seleo mltipla KS-ELM (K-fold selection Scheme using ELM) e no algoritmo RCGA-ELM (Real-Coded Genetic Algorithm using ELM) para seleo dos pesos de entrada e polarizaes.
Este trabalho apresenta uma verso estendida do algoritmo ELM para redes neurais SLFN (Single-hidden-Layer Feedforward Neural Networks) que implementa um simples critrio de parada na fase de treinamento. Alm disso, esse mtodo usa seis caractersticas espao-temporais de vdeos submetidos a diversas condies de distoro.
Este artigo est dividido da seguinte maneira: a Seo 2 descreve as mtricas para avaliao de qualidade de vdeo. A Seo 3 descreve o mtodo NR proposto para avalio de qualidade de vdeo digital. A Seo 4 apresenta os resultados experimentais, em que so comparados o mtodo NR proposto e duas mtricas FR. Finalmente, a Seo 5 apresenta a concluso do artigo.
2. AVALIAO DE QUALIDADE DE VDEO
O processo de avaliao de qualidade de vdeo
pode ser realizado com a aplicao de mtricas
subjetivas ou objetivas. As mtricas subjetivas
estimam a qualidade do vdeo por meio de avaliadores
humanos. Logo, exigem um alto custo, pois
necessitam de uma grande quantidade de recursos
humanos e apresentam problemas quanto aos
requisitos de imparcialidade e reprodutibilidade,
tornando-se inapropriadas em sistemas de
radiodifuso ou em provedores de contedo [10], [11].
Por outro lado, as mtricas objetivas so baseadas em
modelos matemticos, cujo objetivo produzir um
escore de qualidade que emule a percepo do SVH.
Alm disso, as mtricas objetivas requerem baixo
custo de implementao (quando comparadas com as
mtricas subjetivas) e no apresentam problemas
quanto reprodutibilidade e imparcialidade.
As mtricas objetivas para avaliao de qualidade
de vdeo podem ser classifcadas em trs categorias:
(i) mtricas de referncia completa (Full-Reference
FR); (ii) mtricas de referncia reduzida (Reduced-
Reference RR); (iii) mtricas sem referncia (NR).
2.1. Mtricas FR
As mtricas FR requerem o vdeo de referncia
(fonte) no clculo do escore de qualidade. Estas
mtricas so amplamente utilizadas no processo de
validao de mtricas RR ou NR, por meio da
comparao de desempenho defnida pelas
recomendaes do Grupo de Especialistas em
Qualidade de Vdeo (VQEG Video Quality Experts
Group) que um rgo de padronizao internacional
de mtricas subjetivas e objetivas de qualidade de
vdeo. Dentre as mtricas FR, destacam-se o PSNR
(Peak Signal-to-Noise Ratio), SSIM (Structural
SIMilarity index) [12] e MS-SSIM (Multi-Scale
Structural SIMilarity index) [13].
O PSNR uma mtrica FR baseada no erro pixel a
pixel de fcil implementao. Entretanto, apresenta
baixa correlao com o SVH [14]. A sua medida
processada sobre o erro quadro a quadro, i.e., entre o
quadro original x e o quadro y . A expresso a seguir
defne o PSNR para um conjunto de quadros F .
20
1
1
PSNR 20log ,
F
f
f f
v
F MSE



(1)
com

2
0 0
1
MSE , , , , ,
N M
f
i j
x f i j y f i j
NM

(2)
em que o termo f v igual a (2 1) k , cujo k o
nmero de bits por pixel, i.e., a componente de
luminncia do quadro f . Os termos x f ,i, j e
y f ,i, j so os valores de luminncia do quadro de
origem e degradado, respectivamente. As
componentes bidimensionais so representadas pelo
nmero de colunas N e pelo nmero de linhas M . O
termo f MSE defnido como erro quadrtico mdio
ou MSE (Mean Square Error).
A mtrica SSIM baseia-se no fato de que o SVH
fortemente adaptado para extrair informaes das
caractersticas estruturais de um quadro ou imagem.
Logo, uma medida de similaridade estrutural (ou
distoro) pode prover boa aproximao para a
qualidade perceptual de um vdeo [3, 79]. Sejam x e
y dois sinais no-negativos, em que y o sinal
degradado e x o sinal original (sem perda de
qualidade), a medida de similaridade utilizada como
um ndice quantitativo de qualidade do sinal distorcido,
ou seja, x tomado como a referncia para medir a
qualidade de y . A mtrica SSIM possui diversas
extenses, dentre as quais a verso MS-SSIM,
proposta por Wang et al. [13] que assume uma
abordagem multiescalar.
2.2. Mtricas RR
As mtricas de referncia reduzida retiram certa
quantidade de caractersticas do vdeo original (fonte),
baseadas em componentes espaciais, temporais, no
domnio da frequncia ou no fuxo de bits (bitstream).
Este tipo de mtrica amplamente utilizada no
monitoramento de transmisses em rede [17]. Neste
tipo de cenrio de aplicao, o vdeo transmitido
com uma sequncia de informao codifcada
(overhead) e no lado receptor ocorre a sua
decodifcao, seguido pelo clculo do ndice de
qualidade, o qual obtido por meio da comparao
entre a representao reduzida da informao nos
pares emissor e receptor [18]. Tipicamente, mtricas
RR so implementadas por meio de funes, divididas
em duas etapas [19]: (i) clculo do erro entre os
vdeos original e distorcido, constitudo pela diferena
de suas caractersticas, a fm de compor a
representao reduzida da informao; (ii) funo que
agrupa os erros ou diferenas para obter um ndice de
qualidade global. Algumas mtricas RR exploram
propriedades dos artefatos, por meio da extrao de
caractersticas e um modelo de parametrizao [20]
com foco em tipos especfcos de distores
(artefatos). Esta abordagem encontrada em Silva et
al. [17], cujo clculo do escore de qualidade
baseado na diferena de atividade dos coefcientes
DCT (Discrete Cosine Transform) em um macro bloco
com resoluo de 1616 pixels.
2.3. Mtricas NR
As mtricas NR extraem caractersticas
relacionadas ao SVH do vdeo distorcido, i.e., na
recepo do sinal de vdeo [14]. Tipicamente, h duas
abordagens no desenvolvimento destas mtricas: (i)
extrao dos parmetros sobre o fuxo de bits, tais
como a taxa de compresso, informaes
relacionadas ao GoP (Group of Pictures), estimao
de movimento, perfl e nvel de codifcao, bem como
o parmetro de quantizao ou QP (Quantization
Parameter) [2125]. Mtricas NR apresentam maior
complexidade quando so aplicadas em vdeo, devido
variao temporal dos quadros, contedos das
cenas e difculdade de compreenso das
caractersticas do SVH [26]. Assim, algumas mtricas
dessa categoria exploram caractersticas espaciais e
temporais na estimao de qualidade de vdeo [21].
3. MTODO PROPOSTO
O mtodo proposto, denominado NRVQA-ELMtc
(No-Reference Video Quality Assessment using
Extreme Learning Machine algorithm with termination
criteria) [27] combina caractersticas espaciais e
temporais, por meio de uma rede neural artifcial
SLFNs usando o algoritmo de treinamento ELM [28]
com a implementao de um simples critrio de
parada.
3.1. Caractersticas espao-temporais
As caractersticas espaciais incorporadas no
mtodo proposto so baseadas em medidas de
artefatos em vdeo digital, i.e., distores de blocagem
e borramento desenvolvidas por Wang et al. [20].
Assim, a componente de luminncia do quadro f
representada por y(f , i, j ) com i 1,M e j 1, N ,
em que M e N so os nmeros de linhas e colunas,
respectivamente, de um quadro. Logo, as diferenas
de luminncia ao longo das linhas e colunas so
representadas, respectivamente, pelas expresses a
seguir.


, , , , 1 , , , 1, 1 ,
, , , 1, , , , 1, 1 .
h
v
d f i j y f i j y f i j j N
d f i j y f i j y f i j i M


(3)
O efeito de blocagem pode ser estimado pela
mdia das diferenas entre as bordas dos blocos da
DCT (Discrete Cosine Transform) nas direes
horizontal e vertical para uma sequncia F de
quadros, conforme mostra a Equao (4), com um
macrobloco de dimenso , cujo tamanho tpico
de 8 [20].


1
1
1 1 1
1
1
1 1 1
1
, , 1 ,
1
1
1
, 1 , .
1
1
N
F M
h h
f i j
M
F N
v
i j
v
f
B d f i j
N
F M
B d f i j
M
F N












(4)
A medida de blocagem em uma sequncia de
vdeo com F quadros determinada pela mdia entre
h B e v B , caracterizando a medida B , conforme a
expresso a seguir.
.
2
h v B B
B

(5)
Os efeitos de borramento so estimados pelo
clculo da reduo de atividade entre os blocos ,
em que usada a medida de blocagem nas direes
horizontal e vertical, conforme as expresses




1
1 1 1
1
1 1 1
, , ,
1 1
, ,
1
.
1
F M N
h h h
f i j
F M N
v v
f
v
i j
A d f i j B
F M N
A d f i j B
F N M








(6)
A medida de borramento, representada por A ,
conforme a Equao (7), determinada pela mdia
entre h A e v A .
.
2
h v A A
A

(7)
O segundo fator que contribui para a deteco do
artefato de borramento baseado na taxa de
cruzamento por zero (Zero Crossing ZC) nas
direes horizontal e vertical, conforme as expresses
a seguir.




2
1 1 1
2
1 1 1
1
, , ,
2
1
, , ,
2
F M N
h h
f i j
F M N
v v
f i j
Z z f i j
F M N
Z z f i j
F N M




(8)
em que os termos h z e v z so determinados por


1, na direo horizontal
, , ,
0, caso contrrio
1, na direo vertical
, , .
0, caso contrrio
h
v
z f i j
z f i j



(9)
Assim, a medida de borramento Z determinada
pela mdia entre as componentes h Z e v Z .
.
2
h v Z Z
Z

(10)
O mtodo proposto tambm incorpora trs
caractersticas temporais no treinamento da rede
neural SLFN com o algoritmo ELM.
A primeira caracterstica temporal a diferena de
movimento entre quadros adjacentes, representada
pela varivel TI (Temporal perceptual Information) [31]
que considera os valores de luminncia de pixels
localizados em uma mesma regio de um quadro,
conforme a expresso a seguir.

2
1
, , ,
1
F
f
TI m f i j
F


(11)
em que o nmero total de quadros F e mf ,i, j

o desvio padro da diferena de movimento
(diferena de luminncia) entre o quadro atual
y f ,i, j e o quadro anterior y f 1,i, j .
A segunda caracterstica temporal a mdia da
diferena absoluta (Mean Absolute Diference MAD)
[31] entre quadros sucessivos, representada pela
Equao (12) que defne a medida global da MAD
para todos os quadros de um vdeo.


2 1 1
1
, , 1, , .
1
F M N
f i j
MAD y f i j y f i j
M N F



(12)
A terceira caracterstica temporal a mdia da
diferena absoluta ponderada (weighted Mean
Absolute Diference MADw) [32], a qual mede o grau
de variao das cenas de um vdeo que considera a
cena atual de um quadro f e do quadro anterior f 1,
conforme a expresso:
2 1
1
.
1
F
f
f f
MAD
MADw
F MAD


(13)
Assim, o mtodo proposto combina as
caractersticas espaciais e temporais em uma matriz
, , , , , f f f f f f f x A B Z TI MAD MADw , em que f o
nmero de amostras de vdeo. A Figura 1 apresenta
as caractersticas temporais espaciais de dezessete
bases de dados de vdeos (denominada superconjunto
S) usadas neste trabalho e reportadas em [27]. A
recomendao ITU-T P.910 [31] defne a medida SI
(Spatial perceptual Information) como informao
espacial perceptual. A inspeo visual dessa fgura
mostra que as amostras de vdeo usadas neste
trabalho apresentam uma grande variao espaotemporal.
Fig. 1. Caractersticas espaciais e temporais do superconjunto
S com 216 amostras de referncia
3.2. Mtrica NRVQA-ELMtc
O algoritmo ELM [28] desenvolvido para o
treinamento de uma rede SLFN atribui pesos e
polarizaes (biases) de maneira aleatria, segundo
uma distribuio uniforme. O treinamento compreende
N amostras distintas representadas pela varivel
, , , 1, , n m
f f f f x t x t f N , cujo clculo
conforme a expresso

1
, 1, , ,
K
K i j j f j f
f
f g b f N

x w x o (14)
em que f o a sada (escore objetivo), g(x) a
funo de ativao e j o peso que conecta o jsimo
neurnio da camada oculta ao neurnio de
sada. De acordo com [28], uma rede SLFN com K
ns na camada oculta e uma funo de ativao g(x)
pode apresentar um erro mdio prximo de zero, i.e.,
1
0
K
f f
f
o t . Logo, h parmetros j , j w e j b tal
que

1
, 1, , ,
K
j j f j f
f
g b f N

w x t (15)
em que f t o vetor alvo (escores subjetivos),
T
1, , j j jn w w w o vetor de peso que conecta o jsimo
neurnio da camada oculta ao neurnio da
camada de entrada, j b denota a polarizao (bias) do
j-simo neurnio da camada oculta, j f w x o
produto interno de j w e f x . A Figura 2 ilustra o
algoritmo ELM empregado em uma arquitetura de
rede neural SLFN.
xi
1
j
N
1
j
K
ti
bj
N input neuron K hidden neuron output neuron
1
K
wj
Fig. 2. Arquitetura de uma rede neural SLFN usando algoritmo
de treinamento ELM
O sistema linear da Equao (16) resume o mtodo
do algoritmo ELM.
H T, (16)
em que a matriz da camada oculta representada por
1, , and 1, , f H h f N j K com a primeira
linha da matriz de caractersticas f x igual a
T
1 2 , , , f f f fn x x x x , i.e., a primeira linha igual a
1 1 1 1 1 1 1 , , , , , f f f f f f f x A B Z TI MAD MADw . A matriz de
sada e o vetor alvo (target) so defnidos como
T
1 , K e
T
1, , N T t t , respectivamente. O
termo
T
1 , 1, , j jm j j K denota o vetor de
peso que conecta o j-simo neurnio da camada
oculta e os neurnios de sada. Hung et al. [28]
propuseram a atribuio aleatria de pesos aos
parmetros j w e j b , a fm de seja obtido um pequeno
erro no-nulo durante o treinamento. Considerando o
sistema linear da Equao (17), os pesos da camada
de sada podem ser aproximados por
H T (17)
em que H defnida como matriz inversa
generalizada de Moore-Penrose (MP) [33] da matriz
de sada da camada oculta H . Alm disso, o
conjunto de treinamento , n oculta K e uma
funo de ativao g x , e.g., funo de base radial
(Radial Basis Function RBF), hard-limiting (hardlim),
sigmoidal (sig) e seno (sin). Em resumo, o algoritmo
ELM compreende trs etapas [28]:
i) Atribuio aleatria dos pesos de entrada j w e
polarizaes j b ;
ii) Clculo da matriz da camada de sada H ;
iii) Clculo dos pesos de sada : H T .
O mtodo NRVQA-ELMtc [27] implementa um
simples critrio de parada no treinamento da rede
neural SLFN, quanto atribuio aleatria dos pesos
j w e j b . Embora este critrio no seja direcionado,
busca os pesos relacionados com o menor RMSE
(Root-Mean-Square Error) entre a sada desejada
(escore subjetivo) e o escore objetivo na fase de
treinamento com k iteraes (tipicamente, k 100 ) e
N neurnios na camada oculta. Alm disso, conforme
estudo realizado em [27], caso o RMSE seja menor do
que 0,5 o algoritmo cessa a busca pelos parmetros
j w e j b .
4. RESULTADOS EXPERIMENTAIS
Esta seo apresenta os resultados de acurcia,
i.e., os coefcientes de correlao linear de Pearson
(Pearson Linear Correlation Coefcient PLCC) [34],
[35], entre os escores objetivos e subjetivos de 2627
amostras de vdeo estudadas em [27].
A Figura 3 compara a acurcia (PLCC) entre as
mtricas de referncia completa (FR) PSNR e MSSSIM
com o mtodo proposto (NRVQA-ELMtc) para
as 2627 amostras de vdeo, pertencentes a 17 bases
de dados de vdeo disponibilizadas por diversas
instituies e laboratrios [27]. A funo de ativao
usada na rede neural SLFN foi o seno (sin) com o
nmero de amostras de teste igual ao nmero de
neurnios na camada oculta ( N ). O mtodo de
validao cruzada mltipla (K-fold) foi usado com o
objetivo de gerar uma distribuio de acurcia, a qual
foi analisada por meio do diagrama de caixa (box-plot)
[36], em que o trao, o crculo e o quadrado, ambos
em vermelho, representam a mediana, a mdia e o
desvio padro, respectivamente. Destaca-se que
neste trabalho foi empregada uma validao cruzada
com um grande nmero de amostras de treinamentoteste
com K 100 , i.e., cada caixa do box-plot
comporta 100 experimentos distintos. Tipicamente, a
literatura apresenta trabalhos no campo da avaliao
Fig. 3. Box-plot da predio da acurcia (PLCC) entre as mtricas PSNR, MS-SSIM e o mtodo proposto NRVQA-ELMtc
de qualidade de vdeo com K entre 5 e 10 [37], [38].
Pela inspeo visual da Figura 3 observa-se que o
desempenho do mtodo proposto superior s
mtricas FR, em quaisquer condies de teste, i.e.,
para qualquer quantidade de amostras de teste
(nmero de neurnios na camada oculta) entre 25 e
500. Em especial, para N 50 , o mtodo proposto
apresenta valores de PLCC, em termos da mdia e
mediana, acima de 0,8, denotando uma forte
associao entre os escores objetivos e subjetivos, na
tarefa de predio de qualidade de vdeo. Isto ocorre
devido grande quantidade de amostras de vdeo
usadas no treinamento, e.g., para N 300 foram
usadas 2327 amostras de treinamento, ou seja,
mesmo usando pares de treinamento-teste disjuntos,
o mtodo proposto mostra uma acurcia superior s
mtricas de referncia completa. A assimetria positiva,
i.e., a maior concentrao da acurcia entre o
segundo quartil (mediana) e o terceiro quartil, na
distribuio do box-plot nos testes com 300 e 500
neurnios na camada oculta, indica que o mtodo
proposto apresenta um desempenho expressivo em
comparao com as mtricas FR.
Entretanto, mesmo para N entre 25 e 50, o
mtodo proposto apresentou uma acurcia maior do
que as mtricas FR, cujo melhor resultado foi para
N 25 com o desvio-quartil (amplitude interquartlica)
confnado entre 0,65 e 0,8. Alm disso, este resultado
tambm apresentou assimetria positiva com a mdia
do PLCC em torno de 0,75.
5. CONCLUSO
Este trabalho apresentou uma mtrica NR baseada
em uma rede neural artifcial SLFN, cujo treinamento
determinado pelo algoritmo ELM, o qual considera
caractersticas espao-temporais e os escores
subjetivos (alvos) extrados de 2627 amostras
treinamento. Alm disso, este trabalho prope uma
extenso do algoritmo ELM por meio de um simples
critrio de parada, a fm de que sejam obtidos
parmetros da rede neural artifcial relacionados com
o menor RMSE. Tipicamente, a comparao entre
mtricas FR e NR injusta, devido ausncia do
vdeo de referncia na obteno do escore de
qualidade em mtricas NR. Entretanto, os resultados
experimentais mostram que o mtodo proposto
apresentou desempenho superior s mtricas de
referncia completa PSNR e MS-SSIM, sobretudo,
quando o nmero de amostras de teste e de neurnios
na camada oculta da rede SLFN maior do que 250.
Logo, a mtrica NRVQA-ELMtc pode ser empregada
no monitoramento de qualidade em sistemas de
transmisso e recepo de vdeo digital, tais como
IPTV (Internet Protocol Television), TV digital ou em
dispositivos mveis, tais como ultrabooks,
smartphones, tablets e em aparelhos WiDi (Wireless
Display).
REFERNCIAS
[1] S. Winkler, Issues in vision modeling for perceptual
video quality assessment, Signal Processing, vol. 78,
no. 2, pp. 231252, 1999.
[2] Z. Wang and A. C. Bovik, Modern image quality
assessment. San Rafael, CA: Morgan & Claypool,
2006.
[3] W. Lin and C.-C. Jay Kuo, Perceptual visual quality
metrics: A survey, Journal of Visual Communication
and Image Representation, vol. 22, no. 4, pp. 297312,
May 2011.
[4] S. S. Hemami and A. R. Reibman, No-reference image
and video quality estimation: Applications and humanmotivated
design, Signal Processing: Image
Communication, vol. 25, no. 7, pp. 469481, 2010.
[5] Z. Wang and A. Bovik, Reduced- and No-Reference
Image Quality Assessment, IEEE Signal Processing
Magazine, vol. 28, no. 6, pp. 2940, Nov. 2011.
[6] R. V. Babu, S. Suresh, and A. Perkis, No-reference
JPEG-image quality assessment using GAP-RBF,
Signal Processing, vol. 87, no. 6, pp. 14931503, 2007.
[7] X. Jiang, F. Meng, J. Xu, and W. Zhou, No-Reference
Perceptual Video Quality Measurement for High
Defnition Videos Based on an Artifcial Neural
Network, in Computer and Electrical Engineering,
2008. ICCEE 2008. International Conference on, 2008,
pp. 424427.
[8] J. Choe, K. Lee, C. Lee, and S. Korea, No-reference
video quality measurement using neural networks, in
2009 16th International Conference on Digital Signal
Processing, 2009, pp. 14.
[9] S. Suresh, R. Venkatesh Babu, and H. J. Kim, Noreference
image quality assessment using modifed
extreme learning machine classifer, Applied Soft
Computing, vol. 9, no. 2, pp. 541552, Mar. 2009.
[10] A. M. Eskicioglu and P. S. Fisher, Image quality
measures and their performance, IEEE Transactions
on Communications, vol. 43, no. 12, pp. 29592965,
1995.
[11] U. Engelke and H.-J. Zepernick, Perceptual-based
Quality Metrics for Image and Video Services: A
Survey, in Proceedings EuroNGI Conf. Next
Generation Internet Networks, 2007, pp. 190197.
[12] Z. Wang, A. C. Bovik, H. R. Sheikh, and E. P
Simoncelli, Image quality assessment: from error
visibility to structural similarity., IEEE Transactions on
Image Processing, vol. 13, no. 4, pp. 600612, 2004.
[13] Z. Wang, E. P. Simoncelli, and A. C. Bovik, Multiscale
structural similarity for image quality assessment, in
The Thrity-Seventh Asilomar Conference on Signals,
Systems & Computers, 2003, 2003, vol. 2, no. 1, pp.
13981402.
[14] H. R. Wu, K. R. Rao, and A. A. Kassim, Digital Video
Image Quality and Perceptual Coding, Journal of
Electronic Imaging, vol. 16, no. 3, 2007.
[15] Z. Wang and A. C. Bovik, A universal image quality
index, IEEE Signal Processing Letters, vol. 9, no. 3,
pp. 8184, Mar. 2002.
[16] Y. Shi, Y. Ding, R. Zhang, and J. Li, Structure and Hue
Similarity for Color Image Quality Assessment, in 2009
International Conference on Electronic Computer
Technology, 2009, pp. 329333.
[17] W. B. Silva, A. A. P. Pohl, and K. V. O. Fonseca, A
Reduced-Reference Video Quality Assessment Method
based on the Activity-Diference of DCT Coefcients,
IEICE Transactions on Information and Systems, vol. E96-D, no. 3, 2013.
[18] P. Le Callet, C. Viard-Gaudin, and D. Barba, A Convolutional Neural Network Approach for Objective Video Quality Assessment, IEEE Transactions on Neural Networks, vol. 17, no. 5, pp. 13161327, 2006.
[19] P. Le Callet and D. Barba, Image Quality Assessment: From Sites Errors to a Global Appreciation of Quality, in Proceedings of the Picture Coding Sympsium, 2001, pp. 105108.
[20] M. Miyahara, K. Kotani, and V. R. Algazi, Objective picture quality scale (PQS) for image coding, IEEE Transactions on Communications, vol. 46, no. 9, pp. 12151226, 1998.
[21] M. Slanina, V. Ricny, and R. Forchheimer, A Novel Metric for H.264/AVC No-Reference Quality Assessment, in 14th International Workshop on Systems, Signals and Image Processing and 6th EURASIP Conference focused on Speech and Image Processing, Multimedia Communications and Services, 2007, pp. 114117.
[22] O. Sugimoto, S. Naito, S. Sakazawa, and A. Koike, Objective perceptual video quality measurement method based on hybrid no reference framework, in 16th IEEE International Conference on Image Processing (ICIP09), 2009, pp. 22372240.
[23] T. Oelbaum, C. Keimel, and K. Diepold, Rule-Based No-Reference Video Quality Evaluation Using Additionally Coded Videos, IEEE Journal of Selected Topics in Signal Processing, vol. 3, no. 2, pp. 294303, 2009.
[24] N. Staelens, N. Vercammen, Y. Dhondt, B. Vermeulen, P. Lambert, R. de Walle, and P. Demeester, ViQID: A No-Reference bit stream-based visual quality impairment detector, in Proceedings of the Second Int Quality of Multimedia Experience (QoMEX) Workshop, 2010, pp. 206211.
[25] F. Yang, S. Wan, Q. Xie, and H. R. Wu, No-Reference Quality Assessment for Networked Video via Primary Analysis of Bit Stream, IEEE Transactions on Circuits and Systems for Video Technology, vol. 20, no. 11, pp. 15441554, Nov. 2010.
[26] Z. Wang, H. R. Sheikh, and A. C. Bovik, Objective Video Quality Assessment, in The Handbook of Video Databases: Design and Applications, B. Furht and O. Marques, Eds. Boca Raton, FL, USA: CRC Press, 2003, pp. 10411078.
[27] W. B. da Silva and A. de A. P. Pohl, Mtodos Sem Referncia Baseados em Caractersticas Espao-Temporais para Avaliao Objetiva de Qualidade de Vdeo Digital, Universidade Tecnolgica Federal do Paran (UTFPR), 2013.
[28] G.-B. Huang, Q.-Y. Zhu, and C.-K. Siew, Extreme learning machine: Theory and applications, Neurocomputing, vol. 70, no. 13, pp. 489501, Dec. 2006.
[29] Z. Wang, H. R. Sheikh, and A. C. Bovik, No-reference perceptual quality assessment of JPEG compressed images, in Image Processing. 2002. Proceedings. IEEE International Conference on Image Processing, 2002, vol. 1, pp. vol.1 I477 I480.
[30] W. B. Silva and A. A. P. Pohl, No-Reference Video Quality Assessment Method based on the Levenberg-Marquardt Minimization, in XXX Brazilian Symposium on Telecommunications (SBrT12), 2012.
[31] ITU-T P.910, Subjective video quality assessment methods for multimedia applications, Standardization Sector of ITU, 1999.
[32] W. Ding, Y. Tong, Q. Zhang, and D. Yang, Image and Video Quality Assessment Using Neural Network and SVM, Tsinghua Science & Technology, vol. 13, no. 1, pp. 112116, 2008.
[33] K. S. Banerjee, C. R. Rao, and S. K. Mitra, Generalized Inverse of Matrices and Its Applications, Technometrics, vol. 15, no. 1, p. 197, Feb. 1973.
[34] VQEG, Final report from the video quality experts group on the validation of reduced-reference and no-reference objective models for standard defnition television, Phase I, 2009.
[35] VQEG, Report on the validation of video quality models for high defnition video content, 2010.
[36] J. W. Tukey, Exploratory Data Analysis. New York: Addison-Wesley Publishing Company, 1977.
[37] P. Gastaldo and R. Zunino, Neural networks for the no-reference assessment of perceived quality, J. Electronic Imaging, vol. 14, no. 3, p. 033004, 2005.
[38] R. Herzog, M. adk, T. O. Aydn, K. I. Kim, K. Myszkowski, and H.-P. Seidel, NoRM: No-Reference Image Quality Metric for Realistic Image Synthesis, Comp. Graph. Forum, vol. 31, no. 2pt4, pp. 545554, 2012.
O APLICATIVO DE CHECK-IN DE TV COMO FERRAMENTA
DE ENGAJAMENTO NA ERA TRANSMDIA

Bruna Uehara e Joo Paulo Polo
FAAP Fundao Armando lvares Penteado, So Paulo, Brasil
brunauehara@yahoo.com.br, joaopaulopolo@yahoo.com.br

Resumo: Este artigo se prope a discutir de
que maneira um aplicativo (tambm chamado
de app) de check-in de TV pode colaborar
com a fidelizao e engajamento de
telespectadores, tendo em vista o fenmeno
atual da segunda tela. Refletir sobre como as
empresas de comunicao podem utilizar
esse comportamento do pblico e o panorama
transmiditico com o intuito de alavancar a
audincia da emissora e atrair anunciantes.
Palavras-chave: segunda tela, check-in,
engajamento, aplicativo (app), social TV

INTRODUO
No Brasil, j uma realidade o uso da
segunda tela (expresso utilizada para designar a
utilizao de smartphones, tablets e computadores
ao mesmo tempo em que assistimos TV). O nmero
de telespectadores com acesso a dispositivos
mveis e internet aumenta a cada dia. Nmeros
da consultoria Ibope Nielsen revelam que um em
cada seis brasileiros assiste TV e navega pela
internet ao mesmo tempo. Os dados apontam ainda
que 80% dos consumidores simultneos de duas
telas no pas trocam de canal de TV com base nas
informaes que recebem pela internet.
O IBOPE Media tambm estudou o uso das
redes sociais pelos brasileiros
1
. E concluiu que
grande parte do tempo gasto na internet para
navegar em pginas como Facebook, Twitter, blogs,
microblog e fruns de discusso. Em janeiro de
2013, mais de 46 milhes de usurios passaram por
esses sites, o equivalente a 86% dos internautas
ativos da internet no perodo analisado. Em
comparao com o mesmo ms de 2012, quando
havia 40,6 milhes de usurios de redes sociais no
pas, o crescimento foi de 15%. a concretizao
do que se chama de Social TV.
Os produtores de TV, dessa forma,
necessitam pensar em formatos que atendam a
esse novo comportamento do pblico, que assiste
TV enquanto navega pela internet em busca de
diferentes contedos.
Nesse sentido, as ferramentas online das
empresas de comunicao no deveriam se
restringir mais a sites que apenas reproduzem os
vdeos e programas da TV. necessrio usar a rede
sem se esquecer da caracterstica principal dela,
que possibilitar ao internauta um comportamento
ativo. Ao navegar pela pgina dos programas, ele

1
Disponvel em http://www.ibope.com.br/pt-
br/noticias/paginas/numero-de-usuarios-de-redes-sociais-
ultrapassa-46-milhoes-de-brasileiros.aspx. Acesso em
10/06/2013.


no apenas quer ver, ele quer opinar, criticar e,
acima de tudo, contar para os outros o que pensa.
A ferramenta de check-in da programao
da TV pode ser a porta de entrada para se criar um
ambiente virtual de engajamento do pblico, no qual
o prprio telespectador divulga aquilo que assiste.
Esse comportamento de teclar sobre determinado
programa que est no ar j ocorre de forma
espontnea nas redes sociais de maior apelo no
pas. A qualquer hora do dia, ao acessar o
Facebook ou o Twitter, possvel identificar
comentrios sobre a programao televisiva daquele
momento. As mensagens expressam elogios,
crticas ou o simples fato de estar plugado num
determinado canal.
Ento, implantar um sistema de check-in
prprio para que os telespectadores-internautas
compartilhem o que esto vendo na TV apenas
formatar uma ferramenta especfica e com ela poder
desenvolver outras estratgias de fidelizao do
pblico e de convergncia de contedo.
Esse nicho de mercado j vem sendo
bastante explorado nos Estados Unidos desde
2009. Muitas redes sociais surgiram com essa
funo especfica para o telespectador compartilhar
seus gostos sobre a programao de TV. O GetGlue
e o IntoNow so dois exemplos de viabilidade dessa
ferramenta. No Brasil, a Rede Globo, principal
emissora do pas, fez duas experincias este ano,
sobre as quais este artigo tratar adiante.
UM TELESPECTADOR CONECTADO
Muito antes do advento da internet e das
redes sociais, o ser humano estabelece relaes
sociais como base para a prpria existncia. Elas
sempre foram necessrias para a busca de
alimentos, criao de comunidades, troca de
experincias e sentimentos e perpetuao da
espcie.
Diferentes das relaes estabelecidas
antigamente, na era digital, as redes off-line
necessitavam da proximidade fsica. Com a Internet,
por exemplo, essa barreira se desintegrou. E muito
alm disso: ela modificou o papel daquele que, to
somente, era visto como um receptor passivo de
contedos previamente formatados.
Com esta migrao das redes sociais
off-line para as redes sociais on-line,
alm da facilidade de criar
relacionamentos entre pessoas de
interesses comuns, a forma de lidar
com o contedo encontrado
transformou o consumidor em um
produtor de contedo. Hoje, o
consumidor no apenas compartilha
suas experincias, como tambm opina
sobre qualquer assunto, recomendando
ou condenando o contedo para os
membros de seus grupos de convvio
em suas redes sociais, sejam elas
informaes de momentos, lugares
vivenciados, cultura, poltica,
preferncias consumistas e demais
assuntos. Com isso, os membros
receptores podem compartilhar
consideraes a respeito destes
contedos para outros grupos, criando
um ciclo constante e interminvel de
engajamento verdadeiro e, muitas
vezes, espontneo. (ARNAUT, 2011)
Esse panorama atual, no qual est inserida
a mdia televisiva, influencia e altera, portanto, o
comportamento tambm do telespectador. Ele
deixou de apenas sentar-se na frente do aparelho
para tambm se relacionar bilateralmente com ele.
O receptor deixa de ser apenas um mero indivduo
que recebe mensagens, mas um sujeito do processo
de comunicao que interpreta o contedo da
mensagem conforme os valores sociais que
defende (ARNAUT, 2011). E essa matria-prima
remodelada disseminada para qualquer tipo de
mdia pelos diversos dispositivos existentes. Tablets,
smartphones, computadores j so realidade no dia-
36 Revista de Radiodifuso v. 07 n. 08 2013
Pesquisas em ambientes digitais - TV Internet Radio Cinema
Pesquisas em ambientes digitais - TV Internet Radio Cinema
Revista de Radiodifuso v. 07 n. 08 2013 37
MTRICA SEM REFERNCIA BASEADA EM REDES NEURAIS
PARA AVALIAO OBJETIVA DE QUALIDADE DE VDEO DIGITAL
Wyllian Bezerra da Silva, Alexandre de Almeida Prado Pohl
Programa de Ps-Graduao em Engenharia Eltrica e Informtica Industrial (CPGEI) UTFPR, Curitiba, Brasil
wyllianbs@gmail.com, pohl@utfpr.edu.br
Resumo: Este trabalho apresenta uma mtrica sem referncia para avaliao de qualidade de vdeo digital baseada em uma rede neural artifcial que usa uma verso estendida do algoritmo de aprendizado ELM (Extreme Learning Machine). O mtodo proposto realiza o treinamento da rede neural a partir de seis caractersticas espao-temporais. Os resultados experimentais mostram que o mtodo proposto apresenta desempenho superior s mtricas de referncia completa PSNR e MS-SSIM na tarefa de predio de qualidade de vdeo. Logo, o mtodo proposto pode ser usado no monitoramento de qualidade em sistemas de transmisso e recepo de vdeo digital, tais como IPTV e TV digital.
Palavras chave: algoritmo ELM, avaliao objetiva de vdeo, mtrica sem referncia, rede neural artifcial.
1. INTRODUO
Durante os ltimos anos, a literatura tem apresentado um nmero crescente publicaes acerca de mtricas objetivas para avaliao de qualidade de vdeo para diversas aplicaes em radiodifuso ou no processamento de vdeo digital, seja na aquisio do sinal, codifcao e decodifcao, compresso, transmisso, restaurao, armazenamento, segmentao e exibio de sinais de vdeo digital [14]. A avaliao de qualidade de vdeo digital pode ser realizada por meio de mtricas subjetiva e objetiva. A primeira requer uma grande quantidade de recursos humanos e apresenta elevado custo em sua implementao [13]. Porm, as mtricas objetivas so vantajosas quando apresentam um determinado grau de correlao com as mtricas subjetivas. Logo, o desenvolvimento destas um desafo no campo de avaliao de qualidade de vdeo e imagem. Alm disso, as mtricas objetivas, devido natureza de seu critrio objetivo, independem de interao humana e so facilmente reprodutveis [3]. Dentre as mtricas objetivas destacam-se as mtricas sem referncia (No-Reference NR), pois no necessitam do vdeo de referncia no clculo de sua medida. Entretanto, estas requerem um conhecimento a priori sobre as distores em vdeo digital para que seja estabelecida uma correlao com os resultados subjetivos [3].
A maioria das mtricas NR encontradas na literatura so baseadas na avaliao de qualidade de imagens e em caractersticas relacionadas ao Sistema Visual Humano (SVH). Assim, o desenvolvimento de mtricas NR difcil, devido necessidade de emular a percepo do SVH que envolve aspectos cognitivos, emocionais e estticos relacionados ao contedo do vdeo e que so altamente dependentes do observador [4], [5].
A literatura reporta diversos esforos no desenvolvimento de mtricas para avaliao de qualidade de vdeo baseadas em redes neurais e em algoritmos de aprendizado. Babu et al. [6] apresentam uma mtrica para avaliar a qualidade de imagens comprimidas em JPEG (Joint Photographic Experts Group) por meio de um algoritmo de aprendizado de crescimento e propem o uso de uma rede neural GAP-RBF (Growing and Pruning Radial Basis Function) que usa caractersticas relacionadas ao SVH. Jiang et al. [7] desenvolveram uma mtrica NR para avaliao de qualidade de vdeo em HD (High Defnition) baseada em uma rede neural treinada pelo algoritmo BP (Back-Propagation) que usa seis caractersticas espao-temporais e a RoI (Region of Interest). Choe et al. [8] desenvolveram uma mtrica NR baseada no fuxo de bits para avaliao de qualidade de vdeo codifcado em H.264. Esta mtrica extrai caractersticas quadro a quadro e usa uma rede neural alimentada adiante (feedforward) com trs camadas. Suresh et al. [9] apresentaram uma extenso do algoritmo ELM na tarefa de avaliar a qualidade de imagens comprimidas em JPEG com base no esquema de seleo mltipla KS-ELM (K-fold selection Scheme using ELM) e no algoritmo RCGA-ELM (Real-Coded Genetic Algorithm using ELM) para seleo dos pesos de entrada e polarizaes.
Este trabalho apresenta uma verso estendida do algoritmo ELM para redes neurais SLFN (Single-hidden-Layer Feedforward Neural Networks) que implementa um simples critrio de parada na fase de treinamento. Alm disso, esse mtodo usa seis caractersticas espao-temporais de vdeos submetidos a diversas condies de distoro.
Este artigo est dividido da seguinte maneira: a Seo 2 descreve as mtricas para avaliao de qualidade de vdeo. A Seo 3 descreve o mtodo NR proposto para avalio de qualidade de vdeo digital. A Seo 4 apresenta os resultados experimentais, em que so comparados o mtodo NR proposto e duas mtricas FR. Finalmente, a Seo 5 apresenta a concluso do artigo.
2. AVALIAO DE QUALIDADE DE VDEO
O processo de avaliao de qualidade de vdeo
pode ser realizado com a aplicao de mtricas
subjetivas ou objetivas. As mtricas subjetivas
estimam a qualidade do vdeo por meio de avaliadores
humanos. Logo, exigem um alto custo, pois
necessitam de uma grande quantidade de recursos
humanos e apresentam problemas quanto aos
requisitos de imparcialidade e reprodutibilidade,
tornando-se inapropriadas em sistemas de
radiodifuso ou em provedores de contedo [10], [11].
Por outro lado, as mtricas objetivas so baseadas em
modelos matemticos, cujo objetivo produzir um
escore de qualidade que emule a percepo do SVH.
Alm disso, as mtricas objetivas requerem baixo
custo de implementao (quando comparadas com as
mtricas subjetivas) e no apresentam problemas
quanto reprodutibilidade e imparcialidade.
As mtricas objetivas para avaliao de qualidade
de vdeo podem ser classifcadas em trs categorias:
(i) mtricas de referncia completa (Full-Reference
FR); (ii) mtricas de referncia reduzida (Reduced-
Reference RR); (iii) mtricas sem referncia (NR).
2.1. Mtricas FR
As mtricas FR requerem o vdeo de referncia
(fonte) no clculo do escore de qualidade. Estas
mtricas so amplamente utilizadas no processo de
validao de mtricas RR ou NR, por meio da
comparao de desempenho defnida pelas
recomendaes do Grupo de Especialistas em
Qualidade de Vdeo (VQEG Video Quality Experts
Group) que um rgo de padronizao internacional
de mtricas subjetivas e objetivas de qualidade de
vdeo. Dentre as mtricas FR, destacam-se o PSNR
(Peak Signal-to-Noise Ratio), SSIM (Structural
SIMilarity index) [12] e MS-SSIM (Multi-Scale
Structural SIMilarity index) [13].
O PSNR uma mtrica FR baseada no erro pixel a
pixel de fcil implementao. Entretanto, apresenta
baixa correlao com o SVH [14]. A sua medida
processada sobre o erro quadro a quadro, i.e., entre o
quadro original x e o quadro y . A expresso a seguir
defne o PSNR para um conjunto de quadros F .
20
1
1
PSNR 20log ,
F
f
f f
v
F MSE



(1)
com

2
0 0
1
MSE , , , , ,
N M
f
i j
x f i j y f i j
NM

(2)
em que o termo f v igual a (2 1) k , cujo k o
nmero de bits por pixel, i.e., a componente de
luminncia do quadro f . Os termos x f ,i, j e
y f ,i, j so os valores de luminncia do quadro de
origem e degradado, respectivamente. As
componentes bidimensionais so representadas pelo
nmero de colunas N e pelo nmero de linhas M . O
termo f MSE defnido como erro quadrtico mdio
ou MSE (Mean Square Error).
A mtrica SSIM baseia-se no fato de que o SVH
fortemente adaptado para extrair informaes das
caractersticas estruturais de um quadro ou imagem.
Logo, uma medida de similaridade estrutural (ou
distoro) pode prover boa aproximao para a
qualidade perceptual de um vdeo [3, 79]. Sejam x e
y dois sinais no-negativos, em que y o sinal
degradado e x o sinal original (sem perda de
qualidade), a medida de similaridade utilizada como
um ndice quantitativo de qualidade do sinal distorcido,
ou seja, x tomado como a referncia para medir a
qualidade de y . A mtrica SSIM possui diversas
extenses, dentre as quais a verso MS-SSIM,
proposta por Wang et al. [13] que assume uma
abordagem multiescalar.
2.2. Mtricas RR
As mtricas de referncia reduzida retiram certa
quantidade de caractersticas do vdeo original (fonte),
baseadas em componentes espaciais, temporais, no
domnio da frequncia ou no fuxo de bits (bitstream).
Este tipo de mtrica amplamente utilizada no
monitoramento de transmisses em rede [17]. Neste
tipo de cenrio de aplicao, o vdeo transmitido
com uma sequncia de informao codifcada
(overhead) e no lado receptor ocorre a sua
decodifcao, seguido pelo clculo do ndice de
qualidade, o qual obtido por meio da comparao
entre a representao reduzida da informao nos
pares emissor e receptor [18]. Tipicamente, mtricas
RR so implementadas por meio de funes, divididas
em duas etapas [19]: (i) clculo do erro entre os
vdeos original e distorcido, constitudo pela diferena
de suas caractersticas, a fm de compor a
representao reduzida da informao; (ii) funo que
agrupa os erros ou diferenas para obter um ndice de
qualidade global. Algumas mtricas RR exploram
propriedades dos artefatos, por meio da extrao de
caractersticas e um modelo de parametrizao [20]
com foco em tipos especfcos de distores
(artefatos). Esta abordagem encontrada em Silva et
al. [17], cujo clculo do escore de qualidade
baseado na diferena de atividade dos coefcientes
DCT (Discrete Cosine Transform) em um macro bloco
com resoluo de 1616 pixels.
2.3. Mtricas NR
As mtricas NR extraem caractersticas
relacionadas ao SVH do vdeo distorcido, i.e., na
recepo do sinal de vdeo [14]. Tipicamente, h duas
abordagens no desenvolvimento destas mtricas: (i)
extrao dos parmetros sobre o fuxo de bits, tais
como a taxa de compresso, informaes
relacionadas ao GoP (Group of Pictures), estimao
de movimento, perfl e nvel de codifcao, bem como
o parmetro de quantizao ou QP (Quantization
Parameter) [2125]. Mtricas NR apresentam maior
complexidade quando so aplicadas em vdeo, devido
variao temporal dos quadros, contedos das
cenas e difculdade de compreenso das
caractersticas do SVH [26]. Assim, algumas mtricas
dessa categoria exploram caractersticas espaciais e
temporais na estimao de qualidade de vdeo [21].
3. MTODO PROPOSTO
O mtodo proposto, denominado NRVQA-ELMtc
(No-Reference Video Quality Assessment using
Extreme Learning Machine algorithm with termination
criteria) [27] combina caractersticas espaciais e
temporais, por meio de uma rede neural artifcial
SLFNs usando o algoritmo de treinamento ELM [28]
com a implementao de um simples critrio de
parada.
3.1. Caractersticas espao-temporais
As caractersticas espaciais incorporadas no
mtodo proposto so baseadas em medidas de
artefatos em vdeo digital, i.e., distores de blocagem
e borramento desenvolvidas por Wang et al. [20].
Assim, a componente de luminncia do quadro f
representada por y(f , i, j ) com i 1,M e j 1, N ,
em que M e N so os nmeros de linhas e colunas,
respectivamente, de um quadro. Logo, as diferenas
de luminncia ao longo das linhas e colunas so
representadas, respectivamente, pelas expresses a
seguir.


, , , , 1 , , , 1, 1 ,
, , , 1, , , , 1, 1 .
h
v
d f i j y f i j y f i j j N
d f i j y f i j y f i j i M


(3)
O efeito de blocagem pode ser estimado pela
mdia das diferenas entre as bordas dos blocos da
DCT (Discrete Cosine Transform) nas direes
horizontal e vertical para uma sequncia F de
quadros, conforme mostra a Equao (4), com um
macrobloco de dimenso , cujo tamanho tpico
de 8 [20].


1
1
1 1 1
1
1
1 1 1
1
, , 1 ,
1
1
1
, 1 , .
1
1
N
F M
h h
f i j
M
F N
v
i j
v
f
B d f i j
N
F M
B d f i j
M
F N












(4)
A medida de blocagem em uma sequncia de
vdeo com F quadros determinada pela mdia entre
h B e v B , caracterizando a medida B , conforme a
expresso a seguir.
.
2
h v B B
B

(5)
Os efeitos de borramento so estimados pelo
clculo da reduo de atividade entre os blocos ,
em que usada a medida de blocagem nas direes
horizontal e vertical, conforme as expresses




1
1 1 1
1
1 1 1
, , ,
1 1
, ,
1
.
1
F M N
h h h
f i j
F M N
v v
f
v
i j
A d f i j B
F M N
A d f i j B
F N M








(6)
A medida de borramento, representada por A ,
conforme a Equao (7), determinada pela mdia
entre h A e v A .
.
2
h v A A
A

(7)
O segundo fator que contribui para a deteco do
artefato de borramento baseado na taxa de
cruzamento por zero (Zero Crossing ZC) nas
direes horizontal e vertical, conforme as expresses
a seguir.




2
1 1 1
2
1 1 1
1
, , ,
2
1
, , ,
2
F M N
h h
f i j
F M N
v v
f i j
Z z f i j
F M N
Z z f i j
F N M




(8)
em que os termos h z e v z so determinados por


1, na direo horizontal
, , ,
0, caso contrrio
1, na direo vertical
, , .
0, caso contrrio
h
v
z f i j
z f i j



(9)
Assim, a medida de borramento Z determinada
pela mdia entre as componentes h Z e v Z .
.
2
h v Z Z
Z

(10)
O mtodo proposto tambm incorpora trs
caractersticas temporais no treinamento da rede
neural SLFN com o algoritmo ELM.
A primeira caracterstica temporal a diferena de
movimento entre quadros adjacentes, representada
pela varivel TI (Temporal perceptual Information) [31]
que considera os valores de luminncia de pixels
localizados em uma mesma regio de um quadro,
conforme a expresso a seguir.

2
1
, , ,
1
F
f
TI m f i j
F


(11)
em que o nmero total de quadros F e mf ,i, j

o desvio padro da diferena de movimento
(diferena de luminncia) entre o quadro atual
y f ,i, j e o quadro anterior y f 1,i, j .
A segunda caracterstica temporal a mdia da
diferena absoluta (Mean Absolute Diference MAD)
[31] entre quadros sucessivos, representada pela
Equao (12) que defne a medida global da MAD
para todos os quadros de um vdeo.


2 1 1
1
, , 1, , .
1
F M N
f i j
MAD y f i j y f i j
M N F



(12)
A terceira caracterstica temporal a mdia da
diferena absoluta ponderada (weighted Mean
Absolute Diference MADw) [32], a qual mede o grau
de variao das cenas de um vdeo que considera a
cena atual de um quadro f e do quadro anterior f 1,
conforme a expresso:
2 1
1
.
1
F
f
f f
MAD
MADw
F MAD


(13)
Assim, o mtodo proposto combina as
caractersticas espaciais e temporais em uma matriz
, , , , , f f f f f f f x A B Z TI MAD MADw , em que f o
nmero de amostras de vdeo. A Figura 1 apresenta
as caractersticas temporais espaciais de dezessete
bases de dados de vdeos (denominada superconjunto
S) usadas neste trabalho e reportadas em [27]. A
recomendao ITU-T P.910 [31] defne a medida SI
(Spatial perceptual Information) como informao
espacial perceptual. A inspeo visual dessa fgura
mostra que as amostras de vdeo usadas neste
trabalho apresentam uma grande variao espaotemporal.
Fig. 1. Caractersticas espaciais e temporais do superconjunto
S com 216 amostras de referncia
3.2. Mtrica NRVQA-ELMtc
O algoritmo ELM [28] desenvolvido para o
treinamento de uma rede SLFN atribui pesos e
polarizaes (biases) de maneira aleatria, segundo
uma distribuio uniforme. O treinamento compreende
N amostras distintas representadas pela varivel
, , , 1, , n m
f f f f x t x t f N , cujo clculo
conforme a expresso

1
, 1, , ,
K
K i j j f j f
f
f g b f N

x w x o (14)
em que f o a sada (escore objetivo), g(x) a
funo de ativao e j o peso que conecta o jsimo
neurnio da camada oculta ao neurnio de
sada. De acordo com [28], uma rede SLFN com K
ns na camada oculta e uma funo de ativao g(x)
pode apresentar um erro mdio prximo de zero, i.e.,
1
0
K
f f
f
o t . Logo, h parmetros j , j w e j b tal
que

1
, 1, , ,
K
j j f j f
f
g b f N

w x t (15)
em que f t o vetor alvo (escores subjetivos),
T
1, , j j jn w w w o vetor de peso que conecta o jsimo
neurnio da camada oculta ao neurnio da
camada de entrada, j b denota a polarizao (bias) do
j-simo neurnio da camada oculta, j f w x o
produto interno de j w e f x . A Figura 2 ilustra o
algoritmo ELM empregado em uma arquitetura de
rede neural SLFN.
xi
1
j
N
1
j
K
ti
bj
N input neuron K hidden neuron output neuron
1
K
wj
Fig. 2. Arquitetura de uma rede neural SLFN usando algoritmo
de treinamento ELM
O sistema linear da Equao (16) resume o mtodo
do algoritmo ELM.
H T, (16)
em que a matriz da camada oculta representada por
1, , and 1, , f H h f N j K com a primeira
linha da matriz de caractersticas f x igual a
T
1 2 , , , f f f fn x x x x , i.e., a primeira linha igual a
1 1 1 1 1 1 1 , , , , , f f f f f f f x A B Z TI MAD MADw . A matriz de
sada e o vetor alvo (target) so defnidos como
T
1 , K e
T
1, , N T t t , respectivamente. O
termo
T
1 , 1, , j jm j j K denota o vetor de
peso que conecta o j-simo neurnio da camada
oculta e os neurnios de sada. Hung et al. [28]
propuseram a atribuio aleatria de pesos aos
parmetros j w e j b , a fm de seja obtido um pequeno
erro no-nulo durante o treinamento. Considerando o
sistema linear da Equao (17), os pesos da camada
de sada podem ser aproximados por
H T (17)
em que H defnida como matriz inversa
generalizada de Moore-Penrose (MP) [33] da matriz
de sada da camada oculta H . Alm disso, o
conjunto de treinamento , n oculta K e uma
funo de ativao g x , e.g., funo de base radial
(Radial Basis Function RBF), hard-limiting (hardlim),
sigmoidal (sig) e seno (sin). Em resumo, o algoritmo
ELM compreende trs etapas [28]:
i) Atribuio aleatria dos pesos de entrada j w e
polarizaes j b ;
ii) Clculo da matriz da camada de sada H ;
iii) Clculo dos pesos de sada : H T .
O mtodo NRVQA-ELMtc [27] implementa um
simples critrio de parada no treinamento da rede
neural SLFN, quanto atribuio aleatria dos pesos
j w e j b . Embora este critrio no seja direcionado,
busca os pesos relacionados com o menor RMSE
(Root-Mean-Square Error) entre a sada desejada
(escore subjetivo) e o escore objetivo na fase de
treinamento com k iteraes (tipicamente, k 100 ) e
N neurnios na camada oculta. Alm disso, conforme
estudo realizado em [27], caso o RMSE seja menor do
que 0,5 o algoritmo cessa a busca pelos parmetros
j w e j b .
4. RESULTADOS EXPERIMENTAIS
Esta seo apresenta os resultados de acurcia,
i.e., os coefcientes de correlao linear de Pearson
(Pearson Linear Correlation Coefcient PLCC) [34],
[35], entre os escores objetivos e subjetivos de 2627
amostras de vdeo estudadas em [27].
A Figura 3 compara a acurcia (PLCC) entre as
mtricas de referncia completa (FR) PSNR e MSSSIM
com o mtodo proposto (NRVQA-ELMtc) para
as 2627 amostras de vdeo, pertencentes a 17 bases
de dados de vdeo disponibilizadas por diversas
instituies e laboratrios [27]. A funo de ativao
usada na rede neural SLFN foi o seno (sin) com o
nmero de amostras de teste igual ao nmero de
neurnios na camada oculta ( N ). O mtodo de
validao cruzada mltipla (K-fold) foi usado com o
objetivo de gerar uma distribuio de acurcia, a qual
foi analisada por meio do diagrama de caixa (box-plot)
[36], em que o trao, o crculo e o quadrado, ambos
em vermelho, representam a mediana, a mdia e o
desvio padro, respectivamente. Destaca-se que
neste trabalho foi empregada uma validao cruzada
com um grande nmero de amostras de treinamentoteste
com K 100 , i.e., cada caixa do box-plot
comporta 100 experimentos distintos. Tipicamente, a
literatura apresenta trabalhos no campo da avaliao
Fig. 3. Box-plot da predio da acurcia (PLCC) entre as mtricas PSNR, MS-SSIM e o mtodo proposto NRVQA-ELMtc
de qualidade de vdeo com K entre 5 e 10 [37], [38].
Pela inspeo visual da Figura 3 observa-se que o
desempenho do mtodo proposto superior s
mtricas FR, em quaisquer condies de teste, i.e.,
para qualquer quantidade de amostras de teste
(nmero de neurnios na camada oculta) entre 25 e
500. Em especial, para N 50 , o mtodo proposto
apresenta valores de PLCC, em termos da mdia e
mediana, acima de 0,8, denotando uma forte
associao entre os escores objetivos e subjetivos, na
tarefa de predio de qualidade de vdeo. Isto ocorre
devido grande quantidade de amostras de vdeo
usadas no treinamento, e.g., para N 300 foram
usadas 2327 amostras de treinamento, ou seja,
mesmo usando pares de treinamento-teste disjuntos,
o mtodo proposto mostra uma acurcia superior s
mtricas de referncia completa. A assimetria positiva,
i.e., a maior concentrao da acurcia entre o
segundo quartil (mediana) e o terceiro quartil, na
distribuio do box-plot nos testes com 300 e 500
neurnios na camada oculta, indica que o mtodo
proposto apresenta um desempenho expressivo em
comparao com as mtricas FR.
Entretanto, mesmo para N entre 25 e 50, o
mtodo proposto apresentou uma acurcia maior do
que as mtricas FR, cujo melhor resultado foi para
N 25 com o desvio-quartil (amplitude interquartlica)
confnado entre 0,65 e 0,8. Alm disso, este resultado
tambm apresentou assimetria positiva com a mdia
do PLCC em torno de 0,75.
5. CONCLUSO
Este trabalho apresentou uma mtrica NR baseada
em uma rede neural artifcial SLFN, cujo treinamento
determinado pelo algoritmo ELM, o qual considera
caractersticas espao-temporais e os escores
subjetivos (alvos) extrados de 2627 amostras
treinamento. Alm disso, este trabalho prope uma
extenso do algoritmo ELM por meio de um simples
critrio de parada, a fm de que sejam obtidos
parmetros da rede neural artifcial relacionados com
o menor RMSE. Tipicamente, a comparao entre
mtricas FR e NR injusta, devido ausncia do
vdeo de referncia na obteno do escore de
qualidade em mtricas NR. Entretanto, os resultados
experimentais mostram que o mtodo proposto
apresentou desempenho superior s mtricas de
referncia completa PSNR e MS-SSIM, sobretudo,
quando o nmero de amostras de teste e de neurnios
na camada oculta da rede SLFN maior do que 250.
Logo, a mtrica NRVQA-ELMtc pode ser empregada
no monitoramento de qualidade em sistemas de
transmisso e recepo de vdeo digital, tais como
IPTV (Internet Protocol Television), TV digital ou em
dispositivos mveis, tais como ultrabooks,
smartphones, tablets e em aparelhos WiDi (Wireless
Display).
REFERNCIAS
[1] S. Winkler, Issues in vision modeling for perceptual
video quality assessment, Signal Processing, vol. 78,
no. 2, pp. 231252, 1999.
[2] Z. Wang and A. C. Bovik, Modern image quality
assessment. San Rafael, CA: Morgan & Claypool,
2006.
[3] W. Lin and C.-C. Jay Kuo, Perceptual visual quality
metrics: A survey, Journal of Visual Communication
and Image Representation, vol. 22, no. 4, pp. 297312,
May 2011.
[4] S. S. Hemami and A. R. Reibman, No-reference image
and video quality estimation: Applications and humanmotivated
design, Signal Processing: Image
Communication, vol. 25, no. 7, pp. 469481, 2010.
[5] Z. Wang and A. Bovik, Reduced- and No-Reference
Image Quality Assessment, IEEE Signal Processing
Magazine, vol. 28, no. 6, pp. 2940, Nov. 2011.
[6] R. V. Babu, S. Suresh, and A. Perkis, No-reference
JPEG-image quality assessment using GAP-RBF,
Signal Processing, vol. 87, no. 6, pp. 14931503, 2007.
[7] X. Jiang, F. Meng, J. Xu, and W. Zhou, No-Reference
Perceptual Video Quality Measurement for High
Defnition Videos Based on an Artifcial Neural
Network, in Computer and Electrical Engineering,
2008. ICCEE 2008. International Conference on, 2008,
pp. 424427.
[8] J. Choe, K. Lee, C. Lee, and S. Korea, No-reference
video quality measurement using neural networks, in
2009 16th International Conference on Digital Signal
Processing, 2009, pp. 14.
[9] S. Suresh, R. Venkatesh Babu, and H. J. Kim, Noreference
image quality assessment using modifed
extreme learning machine classifer, Applied Soft
Computing, vol. 9, no. 2, pp. 541552, Mar. 2009.
[10] A. M. Eskicioglu and P. S. Fisher, Image quality
measures and their performance, IEEE Transactions
on Communications, vol. 43, no. 12, pp. 29592965,
1995.
[11] U. Engelke and H.-J. Zepernick, Perceptual-based
Quality Metrics for Image and Video Services: A
Survey, in Proceedings EuroNGI Conf. Next
Generation Internet Networks, 2007, pp. 190197.
[12] Z. Wang, A. C. Bovik, H. R. Sheikh, and E. P
Simoncelli, Image quality assessment: from error
visibility to structural similarity., IEEE Transactions on
Image Processing, vol. 13, no. 4, pp. 600612, 2004.
[13] Z. Wang, E. P. Simoncelli, and A. C. Bovik, Multiscale
structural similarity for image quality assessment, in
The Thrity-Seventh Asilomar Conference on Signals,
Systems & Computers, 2003, 2003, vol. 2, no. 1, pp.
13981402.
[14] H. R. Wu, K. R. Rao, and A. A. Kassim, Digital Video
Image Quality and Perceptual Coding, Journal of
Electronic Imaging, vol. 16, no. 3, 2007.
[15] Z. Wang and A. C. Bovik, A universal image quality
index, IEEE Signal Processing Letters, vol. 9, no. 3,
pp. 8184, Mar. 2002.
[16] Y. Shi, Y. Ding, R. Zhang, and J. Li, Structure and Hue
Similarity for Color Image Quality Assessment, in 2009
International Conference on Electronic Computer
Technology, 2009, pp. 329333.
[17] W. B. Silva, A. A. P. Pohl, and K. V. O. Fonseca, A
Reduced-Reference Video Quality Assessment Method
based on the Activity-Diference of DCT Coefcients,
IEICE Transactions on Information and Systems, vol. E96-D, no. 3, 2013.
[18] P. Le Callet, C. Viard-Gaudin, and D. Barba, A Convolutional Neural Network Approach for Objective Video Quality Assessment, IEEE Transactions on Neural Networks, vol. 17, no. 5, pp. 13161327, 2006.
[19] P. Le Callet and D. Barba, Image Quality Assessment: From Sites Errors to a Global Appreciation of Quality, in Proceedings of the Picture Coding Sympsium, 2001, pp. 105108.
[20] M. Miyahara, K. Kotani, and V. R. Algazi, Objective picture quality scale (PQS) for image coding, IEEE Transactions on Communications, vol. 46, no. 9, pp. 12151226, 1998.
[21] M. Slanina, V. Ricny, and R. Forchheimer, A Novel Metric for H.264/AVC No-Reference Quality Assessment, in 14th International Workshop on Systems, Signals and Image Processing and 6th EURASIP Conference focused on Speech and Image Processing, Multimedia Communications and Services, 2007, pp. 114117.
[22] O. Sugimoto, S. Naito, S. Sakazawa, and A. Koike, Objective perceptual video quality measurement method based on hybrid no reference framework, in 16th IEEE International Conference on Image Processing (ICIP09), 2009, pp. 22372240.
[23] T. Oelbaum, C. Keimel, and K. Diepold, Rule-Based No-Reference Video Quality Evaluation Using Additionally Coded Videos, IEEE Journal of Selected Topics in Signal Processing, vol. 3, no. 2, pp. 294303, 2009.
[24] N. Staelens, N. Vercammen, Y. Dhondt, B. Vermeulen, P. Lambert, R. de Walle, and P. Demeester, ViQID: A No-Reference bit stream-based visual quality impairment detector, in Proceedings of the Second Int Quality of Multimedia Experience (QoMEX) Workshop, 2010, pp. 206211.
[25] F. Yang, S. Wan, Q. Xie, and H. R. Wu, No-Reference Quality Assessment for Networked Video via Primary Analysis of Bit Stream, IEEE Transactions on Circuits and Systems for Video Technology, vol. 20, no. 11, pp. 15441554, Nov. 2010.
[26] Z. Wang, H. R. Sheikh, and A. C. Bovik, Objective Video Quality Assessment, in The Handbook of Video Databases: Design and Applications, B. Furht and O. Marques, Eds. Boca Raton, FL, USA: CRC Press, 2003, pp. 10411078.
[27] W. B. da Silva and A. de A. P. Pohl, Mtodos Sem Referncia Baseados em Caractersticas Espao-Temporais para Avaliao Objetiva de Qualidade de Vdeo Digital, Universidade Tecnolgica Federal do Paran (UTFPR), 2013.
[28] G.-B. Huang, Q.-Y. Zhu, and C.-K. Siew, Extreme learning machine: Theory and applications, Neurocomputing, vol. 70, no. 13, pp. 489501, Dec. 2006.
[29] Z. Wang, H. R. Sheikh, and A. C. Bovik, No-reference perceptual quality assessment of JPEG compressed images, in Image Processing. 2002. Proceedings. IEEE International Conference on Image Processing, 2002, vol. 1, pp. vol.1 I477 I480.
[30] W. B. Silva and A. A. P. Pohl, No-Reference Video Quality Assessment Method based on the Levenberg-Marquardt Minimization, in XXX Brazilian Symposium on Telecommunications (SBrT12), 2012.
[31] ITU-T P.910, Subjective video quality assessment methods for multimedia applications, Standardization Sector of ITU, 1999.
[32] W. Ding, Y. Tong, Q. Zhang, and D. Yang, Image and Video Quality Assessment Using Neural Network and SVM, Tsinghua Science & Technology, vol. 13, no. 1, pp. 112116, 2008.
[33] K. S. Banerjee, C. R. Rao, and S. K. Mitra, Generalized Inverse of Matrices and Its Applications, Technometrics, vol. 15, no. 1, p. 197, Feb. 1973.
[34] VQEG, Final report from the video quality experts group on the validation of reduced-reference and no-reference objective models for standard defnition television, Phase I, 2009.
[35] VQEG, Report on the validation of video quality models for high defnition video content, 2010.
[36] J. W. Tukey, Exploratory Data Analysis. New York: Addison-Wesley Publishing Company, 1977.
[37] P. Gastaldo and R. Zunino, Neural networks for the no-reference assessment of perceived quality, J. Electronic Imaging, vol. 14, no. 3, p. 033004, 2005.
[38] R. Herzog, M. adk, T. O. Aydn, K. I. Kim, K. Myszkowski, and H.-P. Seidel, NoRM: No-Reference Image Quality Metric for Realistic Image Synthesis, Comp. Graph. Forum, vol. 31, no. 2pt4, pp. 545554, 2012.
a-dia das famlias brasileiras e convivem
simultaneamente com os aparelhos de TV.
JENKINS (2009), um dos mais respeitados
estudiosos de Comunicao dos EUA, descreve o
perfil desse consumidor antes e depois da criao
dessas novas tecnologias. O consumidor antigo era
passivo, previsvel, isolado, silencioso e invisvel.
Em contraponto, o consumidor atual ativo, pois se
apropria da informao e tambm produz novos
contedos. Ao contrrio daquele que permanecia fiel
a um canal ou programao, o novo telespectador
migratrio e com baixo grau de lealdade. Est
conectado socialmente e busca suas reas de
interesse em outras mdias. Diferente do pr-digital,
o telespectador hoje barulhento, pblico e atuante.
No fica mais escondido na sombra do controle
remoto.
Para SHIRKY (2011), principalmente o
pblico jovem, que tem maior acesso mdia
interativa, tende a se afastar da mdia que no d
espao para a participao, feita para o puro
consumo.
Mesmo quando assistem a vdeos on-
line, aparentemente uma mera variao
da TV, eles tm oportunidades de
comentar o material, compartilh-lo
com os amigos, rotul-lo, avali-lo ou
classific-lo e, claro, discuti-lo com
outros espectadores por todo o mundo.
(SHIRKY, 2011)

SEGUNDA TELA: CONCORRNCIA OU
OPORTUNIDADE PARA A TV?
O hbito de ver televiso e ao mesmo tempo
teclar no chat, postar mensagens nas redes sociais
e buscar informaes extras sobre aquele contedo
que acaba de ser exibido pela TV est marcando
uma nova mudana no s no modo como os
telespectadores consomem contedo. um
comportamento que passa a ser estudado, de
maneira relevante, pelos meios de comunicao.
O trampolim que impulsionou a ideia da
aplicao da segunda tela como uma
companheira da TV baseado num
simples princpio: somos naturalmente
seres curiosos e compelidos a
alimentar essa curiosidade. Quando
estamos conectados a uma segunda
tela enquanto vemos TV, temos acesso
instantneo para procurar uma
quantidade infinita de informaes
sobre o programa a que estamos
assistindo e assim ajudamos a
satisfazer nossa natural curiosidade.
(PROULX e SHEPATIN, 2012)
2


Tablet, laptop ou smartphone. Os
telespectadores usam, cada vez mais, esses trs
dispositivos enquanto assistem televiso. E
quando eles interagem com os amigos
simultaneamente apresentao de um programa
na TV, fazendo comentrios a respeito daquela
atrao em tempo real, surge o que est se
chamando de Social TV (CESAR E GREETZ, 2011).
De acordo com dados de uma pesquisa
realizada pela Consultoria Nielsen, nos Estados
Unidos, 86% dos espectadores de TV usam tambm
seu tablet. Na Europa, esse ndice de 70%. No
caso do smartphone, 68% das pessoas usam o
aparelho ao mesmo tempo em que vem (ou
ouvem) a TV.
No Brasil, a tendncia se repete. Com o
crescimento econmico, a populao pode ter
acesso s novas tecnologias. Alm disso, surgem
no mercado mais opes de marcas e preos mais
acessveis. Neste cenrio, o pas atingiu, em 2011, a
10 posio no ranking de vendas de tablets,
segundo a Consultoria IDC Brasil. A previso que

2
Todos os trechos citados desta obra foram traduzidos
pelos autores.
38 Revista de Radiodifuso v. 07 n. 08 2013
Pesquisas em ambientes digitais - TV Internet Radio Cinema
at o fim de 2013, sejam vendidos 5,4 milhes de
unidades.
Diversos autores defendem que essa
tendncia no uma ameaa TV. Pelo contrrio:
A mobilidade certamente no uma
inimiga da televiso. Em vez disso,
uma oportunidade para as redes de
transmisso, empresas de TV a cabo,
fabricantes de equipamentos,
desenvolvedores de aplicativos, e
anunciantes para incrementar a
experincia com a TV conectando uma
mdia a outras. (PROULX e SHEPATIN,
2012)
CANNITO (2010) desconstri o mito de que
a TV desaparecer na batalha das mdias. O autor
argumenta que todas as mdias permanecem,
interagem e se complementam.
A televiso deve procurar sua
especificidade no para superar
ou vencer outras mdias, mas
para dividir com elas a
responsabilidade de melhorar a
comunicao entre os homens e
promover uma sociedade com
mais diversidade esttica e mais
liberdade. (CANNITO, 2010)
A sada para a TV, portanto, usar o
comportamento do pblico em seu favor e tambm
entrar no mercado de aplicativos para a segunda tela.
nessa direo que aponta a maioria das apostas
sobre como ser a TV daqui pra frente: integrada
com o mundo online e com participao em tempo
real dos espectadores, atravs de outras telas.
(BECKER, 2013).
necessrio buscar formas de engajar os
consumidores e atrair anunciantes. Com tantas opes
mveis para se informar ou entreter, as pessoas no
esto to dispostas a assistir aos comerciais dos
intervalos de seus programas favoritos. A no ser que
essas propagandas tambm ofeream, de alguma
forma, oportunidade para a participao do pblico,
conforme trataremos adiante.
O desafio, ento, fazer com que esse
pblico, que usa a segunda tela, interaja com o seu
programa e no se distraia em outras discusses
enquanto est usando o smartphone ou o tablet.
Conforme Julie DeTraglia, da rea de estratgia digital
da rede televisiva americana NBC, voc tem que lutar
pela ateno dos telespectadores e esperar que eles
interajam com o seu contedo enquanto assistem
TV. (PROULX e SHEPATIN, 2012)
O aplicativo de check-in uma ferramenta
que se encaixa neste modelo de negcio. PROLUX
e SHEPATIN (2012) defendem que ns fazemos
check-in porque estamos conectados para
compartilhar.
Uma pesquisa feita pela TV Guide, revista
americana especializada na programao de
televiso, mostra que 77% das pessoas que
compartilham nas redes sociais o que esto
assistindo na TV o fazem para contar aos amigos o
que eles gostam da programao.

FACEBOOK E TWITTER COMO ALIADOS
Mesmo no mercado americano, onde esto
mais evoludos se comparados com o Brasil,
aplicativos de check-in ainda tm uma base
pequena (mas crescente) de usurios. Mas o que
torna mais amplo o seu apelo justamente a ligao
que eles tm com grandes redes sociais como
Facebook e Twitter. PROULX e SHEPATIN (2012)
afirmam que o compartilhamento do check-in nessas
redes frequentemente um catalisador para maior
engajamento do pblico. E o fato de um check-in
iniciado num aplicativo se mudar para outra
plataforma no necessariamente o faz menos
valioso.
A relao da TV com essas redes sociais
est cada vez mais simbitica: a TV dita os assuntos
no Facebook e no Twitter e estes tambm ajudam a
alavancar a audincia televisiva
3
. Durante os Jogos
Olmpicos de Londres em 2012, por exemplo, a rede
americana NBC relatou que a mdia social
incentivou as pessoas a acompanhar as Olmpiadas.
Outra pesquisa nos Estados Unidos revela que esse
comportamento de falar sobre a programao
televisiva nas redes sociais est fazendo com que
os telespectadores assistam mais TV ao vivo porque
eles tm medo de perder o efeito surpresa dos
programas favoritos ao ler algum comentrio no
Facebook ou Twitter.
No Brasil, estudo da E.Life
4
, empresa de
monitorao especializada em inteligncia de
mercado, mostra que metade dos Trending Topics
(temas mais destacados) do Twitter, no segundo
trimestre de 2013, de assuntos relacionados
diretamente programao de TV (novelas,
seriados, atores e jogos de futebol).
Mais uma prova de que essa relao rede
social e TV tambm importante por aqui, o
lanamento recente de uma ferramenta para medir a
audincia no Twitter de programas da TV aberta e
da TV paga. O TTV, um servio de TV social da start
up Tuilux, usa um algoritmo que identifica mais de
15 mil programas de 95 canais que analisa
mensagens no microblog relacionadas s atraes.
Por ms, a ferramenta capta mais de 6 milhes de
posts para avaliar a opinio dos usurios da rede
sobre a programao televisiva brasileira.
CHECK-IN NA TV: GETGLUE, INTONOW E AS
TENTATIVAS BRASILEIRAS

3
Twitter impulsiona audincia. Disponvel em:
http://www.meioemensagem.com.br/home/midia/noticias/201
2/10/25/TV-social--cada-vez-mais-
concreta.html#.UTzWajdqO5I . Acesso em 20/02/2013.
4
Pesquisa sobre influncia da TV nos TTs do Twitter
disponvel em: http://www.buzzmonitor.com.br/imprensa/tv-
tem-a-maior-influencia-nos-trending--topics-do-twitter-
aponta-estudo-da-elife . Acesso em 21/03/2013.
Os servios de check-in na TV so uma
forma de transformar a solitria
atividade de ver televiso em casa em
uma experincia divertida e
competitiva. (PROULX e SHEPATIN,
2012)

Desde 2009, muitas redes sociais voltadas
para o compartilhamento de informaes sobre a
programao de TV surgiram nos Estados Unidos.
Nesse perodo, algumas se reinventaram e se
consolidaram. o caso do GetGlue cujo
significado, na traduo livre para portugus,
Fique Grudado.
O GetGlue se identifica como uma rede
social de entretenimento. Nasceu em 2007 com foco
em livros, cinema e msica mas logo mudou o alvo
para a TV.
No comeo, a funo principal era sugerir
uma programao personalizada ao telespectador.
O usurio baixava o aplicativo e j no cadastro tinha
acesso a uma lista de programas de televiso. Ele
escolhia dez opes de que gostava e a partir da as
sugestes ao telespectador ficavam mais afinadas
ao seu gosto.
Em 2010, com as verses para Iphone e
Ipad, o GletGlue aproveitou a mobilidade e
introduziu a ideia de check-in na TV: ao acessar a
rede social, o usurio conta o que est assistindo.
Conforme faz o check-in nos programas, ganha
adesivos virtuais relacionados s atraes que viu.
Ao completar vinte, pode pedir a entrega fsica de
tais adesivos. Trata-se de uma estratgia que
premia e que incentiva a competio entre os
amigos. Quanto mais check-in realiza, mais ganha.
Atualmente, o GetGlue oferece outras
funcionalidades: de acordo com os seus gostos,
monta uma agenda diria para lembrar que em
determinado horrio ser exibido o programa de sua
Pesquisas em ambientes digitais - TV Internet Radio Cinema
Revista de Radiodifuso v. 07 n. 08 2013 39
MTRICA SEM REFERNCIA BASEADA EM REDES NEURAIS
PARA AVALIAO OBJETIVA DE QUALIDADE DE VDEO DIGITAL
Wyllian Bezerra da Silva, Alexandre de Almeida Prado Pohl
Programa de Ps-Graduao em Engenharia Eltrica e Informtica Industrial (CPGEI) UTFPR, Curitiba, Brasil
wyllianbs@gmail.com, pohl@utfpr.edu.br
Resumo: Este trabalho apresenta uma mtrica sem referncia para avaliao de qualidade de vdeo digital baseada em uma rede neural artifcial que usa uma verso estendida do algoritmo de aprendizado ELM (Extreme Learning Machine). O mtodo proposto realiza o treinamento da rede neural a partir de seis caractersticas espao-temporais. Os resultados experimentais mostram que o mtodo proposto apresenta desempenho superior s mtricas de referncia completa PSNR e MS-SSIM na tarefa de predio de qualidade de vdeo. Logo, o mtodo proposto pode ser usado no monitoramento de qualidade em sistemas de transmisso e recepo de vdeo digital, tais como IPTV e TV digital.
Palavras chave: algoritmo ELM, avaliao objetiva de vdeo, mtrica sem referncia, rede neural artifcial.
1. INTRODUO
Durante os ltimos anos, a literatura tem apresentado um nmero crescente publicaes acerca de mtricas objetivas para avaliao de qualidade de vdeo para diversas aplicaes em radiodifuso ou no processamento de vdeo digital, seja na aquisio do sinal, codifcao e decodifcao, compresso, transmisso, restaurao, armazenamento, segmentao e exibio de sinais de vdeo digital [14]. A avaliao de qualidade de vdeo digital pode ser realizada por meio de mtricas subjetiva e objetiva. A primeira requer uma grande quantidade de recursos humanos e apresenta elevado custo em sua implementao [13]. Porm, as mtricas objetivas so vantajosas quando apresentam um determinado grau de correlao com as mtricas subjetivas. Logo, o desenvolvimento destas um desafo no campo de avaliao de qualidade de vdeo e imagem. Alm disso, as mtricas objetivas, devido natureza de seu critrio objetivo, independem de interao humana e so facilmente reprodutveis [3]. Dentre as mtricas objetivas destacam-se as mtricas sem referncia (No-Reference NR), pois no necessitam do vdeo de referncia no clculo de sua medida. Entretanto, estas requerem um conhecimento a priori sobre as distores em vdeo digital para que seja estabelecida uma correlao com os resultados subjetivos [3].
A maioria das mtricas NR encontradas na literatura so baseadas na avaliao de qualidade de imagens e em caractersticas relacionadas ao Sistema Visual Humano (SVH). Assim, o desenvolvimento de mtricas NR difcil, devido necessidade de emular a percepo do SVH que envolve aspectos cognitivos, emocionais e estticos relacionados ao contedo do vdeo e que so altamente dependentes do observador [4], [5].
A literatura reporta diversos esforos no desenvolvimento de mtricas para avaliao de qualidade de vdeo baseadas em redes neurais e em algoritmos de aprendizado. Babu et al. [6] apresentam uma mtrica para avaliar a qualidade de imagens comprimidas em JPEG (Joint Photographic Experts Group) por meio de um algoritmo de aprendizado de crescimento e propem o uso de uma rede neural GAP-RBF (Growing and Pruning Radial Basis Function) que usa caractersticas relacionadas ao SVH. Jiang et al. [7] desenvolveram uma mtrica NR para avaliao de qualidade de vdeo em HD (High Defnition) baseada em uma rede neural treinada pelo algoritmo BP (Back-Propagation) que usa seis caractersticas espao-temporais e a RoI (Region of Interest). Choe et al. [8] desenvolveram uma mtrica NR baseada no fuxo de bits para avaliao de qualidade de vdeo codifcado em H.264. Esta mtrica extrai caractersticas quadro a quadro e usa uma rede neural alimentada adiante (feedforward) com trs camadas. Suresh et al. [9] apresentaram uma extenso do algoritmo ELM na tarefa de avaliar a qualidade de imagens comprimidas em JPEG com base no esquema de seleo mltipla KS-ELM (K-fold selection Scheme using ELM) e no algoritmo RCGA-ELM (Real-Coded Genetic Algorithm using ELM) para seleo dos pesos de entrada e polarizaes.
Este trabalho apresenta uma verso estendida do algoritmo ELM para redes neurais SLFN (Single-hidden-Layer Feedforward Neural Networks) que implementa um simples critrio de parada na fase de treinamento. Alm disso, esse mtodo usa seis caractersticas espao-temporais de vdeos submetidos a diversas condies de distoro.
Este artigo est dividido da seguinte maneira: a Seo 2 descreve as mtricas para avaliao de qualidade de vdeo. A Seo 3 descreve o mtodo NR proposto para avalio de qualidade de vdeo digital. A Seo 4 apresenta os resultados experimentais, em que so comparados o mtodo NR proposto e duas mtricas FR. Finalmente, a Seo 5 apresenta a concluso do artigo.
2. AVALIAO DE QUALIDADE DE VDEO
O processo de avaliao de qualidade de vdeo
pode ser realizado com a aplicao de mtricas
subjetivas ou objetivas. As mtricas subjetivas
estimam a qualidade do vdeo por meio de avaliadores
humanos. Logo, exigem um alto custo, pois
necessitam de uma grande quantidade de recursos
humanos e apresentam problemas quanto aos
requisitos de imparcialidade e reprodutibilidade,
tornando-se inapropriadas em sistemas de
radiodifuso ou em provedores de contedo [10], [11].
Por outro lado, as mtricas objetivas so baseadas em
modelos matemticos, cujo objetivo produzir um
escore de qualidade que emule a percepo do SVH.
Alm disso, as mtricas objetivas requerem baixo
custo de implementao (quando comparadas com as
mtricas subjetivas) e no apresentam problemas
quanto reprodutibilidade e imparcialidade.
As mtricas objetivas para avaliao de qualidade
de vdeo podem ser classifcadas em trs categorias:
(i) mtricas de referncia completa (Full-Reference
FR); (ii) mtricas de referncia reduzida (Reduced-
Reference RR); (iii) mtricas sem referncia (NR).
2.1. Mtricas FR
As mtricas FR requerem o vdeo de referncia
(fonte) no clculo do escore de qualidade. Estas
mtricas so amplamente utilizadas no processo de
validao de mtricas RR ou NR, por meio da
comparao de desempenho defnida pelas
recomendaes do Grupo de Especialistas em
Qualidade de Vdeo (VQEG Video Quality Experts
Group) que um rgo de padronizao internacional
de mtricas subjetivas e objetivas de qualidade de
vdeo. Dentre as mtricas FR, destacam-se o PSNR
(Peak Signal-to-Noise Ratio), SSIM (Structural
SIMilarity index) [12] e MS-SSIM (Multi-Scale
Structural SIMilarity index) [13].
O PSNR uma mtrica FR baseada no erro pixel a
pixel de fcil implementao. Entretanto, apresenta
baixa correlao com o SVH [14]. A sua medida
processada sobre o erro quadro a quadro, i.e., entre o
quadro original x e o quadro y . A expresso a seguir
defne o PSNR para um conjunto de quadros F .
20
1
1
PSNR 20log ,
F
f
f f
v
F MSE



(1)
com

2
0 0
1
MSE , , , , ,
N M
f
i j
x f i j y f i j
NM

(2)
em que o termo f v igual a (2 1) k , cujo k o
nmero de bits por pixel, i.e., a componente de
luminncia do quadro f . Os termos x f ,i, j e
y f ,i, j so os valores de luminncia do quadro de
origem e degradado, respectivamente. As
componentes bidimensionais so representadas pelo
nmero de colunas N e pelo nmero de linhas M . O
termo f MSE defnido como erro quadrtico mdio
ou MSE (Mean Square Error).
A mtrica SSIM baseia-se no fato de que o SVH
fortemente adaptado para extrair informaes das
caractersticas estruturais de um quadro ou imagem.
Logo, uma medida de similaridade estrutural (ou
distoro) pode prover boa aproximao para a
qualidade perceptual de um vdeo [3, 79]. Sejam x e
y dois sinais no-negativos, em que y o sinal
degradado e x o sinal original (sem perda de
qualidade), a medida de similaridade utilizada como
um ndice quantitativo de qualidade do sinal distorcido,
ou seja, x tomado como a referncia para medir a
qualidade de y . A mtrica SSIM possui diversas
extenses, dentre as quais a verso MS-SSIM,
proposta por Wang et al. [13] que assume uma
abordagem multiescalar.
2.2. Mtricas RR
As mtricas de referncia reduzida retiram certa
quantidade de caractersticas do vdeo original (fonte),
baseadas em componentes espaciais, temporais, no
domnio da frequncia ou no fuxo de bits (bitstream).
Este tipo de mtrica amplamente utilizada no
monitoramento de transmisses em rede [17]. Neste
tipo de cenrio de aplicao, o vdeo transmitido
com uma sequncia de informao codifcada
(overhead) e no lado receptor ocorre a sua
decodifcao, seguido pelo clculo do ndice de
qualidade, o qual obtido por meio da comparao
entre a representao reduzida da informao nos
pares emissor e receptor [18]. Tipicamente, mtricas
RR so implementadas por meio de funes, divididas
em duas etapas [19]: (i) clculo do erro entre os
vdeos original e distorcido, constitudo pela diferena
de suas caractersticas, a fm de compor a
representao reduzida da informao; (ii) funo que
agrupa os erros ou diferenas para obter um ndice de
qualidade global. Algumas mtricas RR exploram
propriedades dos artefatos, por meio da extrao de
caractersticas e um modelo de parametrizao [20]
com foco em tipos especfcos de distores
(artefatos). Esta abordagem encontrada em Silva et
al. [17], cujo clculo do escore de qualidade
baseado na diferena de atividade dos coefcientes
DCT (Discrete Cosine Transform) em um macro bloco
com resoluo de 1616 pixels.
2.3. Mtricas NR
As mtricas NR extraem caractersticas
relacionadas ao SVH do vdeo distorcido, i.e., na
recepo do sinal de vdeo [14]. Tipicamente, h duas
abordagens no desenvolvimento destas mtricas: (i)
extrao dos parmetros sobre o fuxo de bits, tais
como a taxa de compresso, informaes
relacionadas ao GoP (Group of Pictures), estimao
de movimento, perfl e nvel de codifcao, bem como
o parmetro de quantizao ou QP (Quantization
Parameter) [2125]. Mtricas NR apresentam maior
complexidade quando so aplicadas em vdeo, devido
variao temporal dos quadros, contedos das
cenas e difculdade de compreenso das
caractersticas do SVH [26]. Assim, algumas mtricas
dessa categoria exploram caractersticas espaciais e
temporais na estimao de qualidade de vdeo [21].
3. MTODO PROPOSTO
O mtodo proposto, denominado NRVQA-ELMtc
(No-Reference Video Quality Assessment using
Extreme Learning Machine algorithm with termination
criteria) [27] combina caractersticas espaciais e
temporais, por meio de uma rede neural artifcial
SLFNs usando o algoritmo de treinamento ELM [28]
com a implementao de um simples critrio de
parada.
3.1. Caractersticas espao-temporais
As caractersticas espaciais incorporadas no
mtodo proposto so baseadas em medidas de
artefatos em vdeo digital, i.e., distores de blocagem
e borramento desenvolvidas por Wang et al. [20].
Assim, a componente de luminncia do quadro f
representada por y(f , i, j ) com i 1,M e j 1, N ,
em que M e N so os nmeros de linhas e colunas,
respectivamente, de um quadro. Logo, as diferenas
de luminncia ao longo das linhas e colunas so
representadas, respectivamente, pelas expresses a
seguir.


, , , , 1 , , , 1, 1 ,
, , , 1, , , , 1, 1 .
h
v
d f i j y f i j y f i j j N
d f i j y f i j y f i j i M


(3)
O efeito de blocagem pode ser estimado pela
mdia das diferenas entre as bordas dos blocos da
DCT (Discrete Cosine Transform) nas direes
horizontal e vertical para uma sequncia F de
quadros, conforme mostra a Equao (4), com um
macrobloco de dimenso , cujo tamanho tpico
de 8 [20].


1
1
1 1 1
1
1
1 1 1
1
, , 1 ,
1
1
1
, 1 , .
1
1
N
F M
h h
f i j
M
F N
v
i j
v
f
B d f i j
N
F M
B d f i j
M
F N












(4)
A medida de blocagem em uma sequncia de
vdeo com F quadros determinada pela mdia entre
h B e v B , caracterizando a medida B , conforme a
expresso a seguir.
.
2
h v B B
B

(5)
Os efeitos de borramento so estimados pelo
clculo da reduo de atividade entre os blocos ,
em que usada a medida de blocagem nas direes
horizontal e vertical, conforme as expresses




1
1 1 1
1
1 1 1
, , ,
1 1
, ,
1
.
1
F M N
h h h
f i j
F M N
v v
f
v
i j
A d f i j B
F M N
A d f i j B
F N M








(6)
A medida de borramento, representada por A ,
conforme a Equao (7), determinada pela mdia
entre h A e v A .
.
2
h v A A
A

(7)
O segundo fator que contribui para a deteco do
artefato de borramento baseado na taxa de
cruzamento por zero (Zero Crossing ZC) nas
direes horizontal e vertical, conforme as expresses
a seguir.




2
1 1 1
2
1 1 1
1
, , ,
2
1
, , ,
2
F M N
h h
f i j
F M N
v v
f i j
Z z f i j
F M N
Z z f i j
F N M




(8)
em que os termos h z e v z so determinados por


1, na direo horizontal
, , ,
0, caso contrrio
1, na direo vertical
, , .
0, caso contrrio
h
v
z f i j
z f i j



(9)
Assim, a medida de borramento Z determinada
pela mdia entre as componentes h Z e v Z .
.
2
h v Z Z
Z

(10)
O mtodo proposto tambm incorpora trs
caractersticas temporais no treinamento da rede
neural SLFN com o algoritmo ELM.
A primeira caracterstica temporal a diferena de
movimento entre quadros adjacentes, representada
pela varivel TI (Temporal perceptual Information) [31]
que considera os valores de luminncia de pixels
localizados em uma mesma regio de um quadro,
conforme a expresso a seguir.

2
1
, , ,
1
F
f
TI m f i j
F


(11)
em que o nmero total de quadros F e mf ,i, j

o desvio padro da diferena de movimento
(diferena de luminncia) entre o quadro atual
y f ,i, j e o quadro anterior y f 1,i, j .
A segunda caracterstica temporal a mdia da
diferena absoluta (Mean Absolute Diference MAD)
[31] entre quadros sucessivos, representada pela
Equao (12) que defne a medida global da MAD
para todos os quadros de um vdeo.


2 1 1
1
, , 1, , .
1
F M N
f i j
MAD y f i j y f i j
M N F



(12)
A terceira caracterstica temporal a mdia da
diferena absoluta ponderada (weighted Mean
Absolute Diference MADw) [32], a qual mede o grau
de variao das cenas de um vdeo que considera a
cena atual de um quadro f e do quadro anterior f 1,
conforme a expresso:
2 1
1
.
1
F
f
f f
MAD
MADw
F MAD


(13)
Assim, o mtodo proposto combina as
caractersticas espaciais e temporais em uma matriz
, , , , , f f f f f f f x A B Z TI MAD MADw , em que f o
nmero de amostras de vdeo. A Figura 1 apresenta
as caractersticas temporais espaciais de dezessete
bases de dados de vdeos (denominada superconjunto
S) usadas neste trabalho e reportadas em [27]. A
recomendao ITU-T P.910 [31] defne a medida SI
(Spatial perceptual Information) como informao
espacial perceptual. A inspeo visual dessa fgura
mostra que as amostras de vdeo usadas neste
trabalho apresentam uma grande variao espaotemporal.
Fig. 1. Caractersticas espaciais e temporais do superconjunto
S com 216 amostras de referncia
3.2. Mtrica NRVQA-ELMtc
O algoritmo ELM [28] desenvolvido para o
treinamento de uma rede SLFN atribui pesos e
polarizaes (biases) de maneira aleatria, segundo
uma distribuio uniforme. O treinamento compreende
N amostras distintas representadas pela varivel
, , , 1, , n m
f f f f x t x t f N , cujo clculo
conforme a expresso

1
, 1, , ,
K
K i j j f j f
f
f g b f N

x w x o (14)
em que f o a sada (escore objetivo), g(x) a
funo de ativao e j o peso que conecta o jsimo
neurnio da camada oculta ao neurnio de
sada. De acordo com [28], uma rede SLFN com K
ns na camada oculta e uma funo de ativao g(x)
pode apresentar um erro mdio prximo de zero, i.e.,
1
0
K
f f
f
o t . Logo, h parmetros j , j w e j b tal
que

1
, 1, , ,
K
j j f j f
f
g b f N

w x t (15)
em que f t o vetor alvo (escores subjetivos),
T
1, , j j jn w w w o vetor de peso que conecta o jsimo
neurnio da camada oculta ao neurnio da
camada de entrada, j b denota a polarizao (bias) do
j-simo neurnio da camada oculta, j f w x o
produto interno de j w e f x . A Figura 2 ilustra o
algoritmo ELM empregado em uma arquitetura de
rede neural SLFN.
xi
1
j
N
1
j
K
ti
bj
N input neuron K hidden neuron output neuron
1
K
wj
Fig. 2. Arquitetura de uma rede neural SLFN usando algoritmo
de treinamento ELM
O sistema linear da Equao (16) resume o mtodo
do algoritmo ELM.
H T, (16)
em que a matriz da camada oculta representada por
1, , and 1, , f H h f N j K com a primeira
linha da matriz de caractersticas f x igual a
T
1 2 , , , f f f fn x x x x , i.e., a primeira linha igual a
1 1 1 1 1 1 1 , , , , , f f f f f f f x A B Z TI MAD MADw . A matriz de
sada e o vetor alvo (target) so defnidos como
T
1 , K e
T
1, , N T t t , respectivamente. O
termo
T
1 , 1, , j jm j j K denota o vetor de
peso que conecta o j-simo neurnio da camada
oculta e os neurnios de sada. Hung et al. [28]
propuseram a atribuio aleatria de pesos aos
parmetros j w e j b , a fm de seja obtido um pequeno
erro no-nulo durante o treinamento. Considerando o
sistema linear da Equao (17), os pesos da camada
de sada podem ser aproximados por
H T (17)
em que H defnida como matriz inversa
generalizada de Moore-Penrose (MP) [33] da matriz
de sada da camada oculta H . Alm disso, o
conjunto de treinamento , n oculta K e uma
funo de ativao g x , e.g., funo de base radial
(Radial Basis Function RBF), hard-limiting (hardlim),
sigmoidal (sig) e seno (sin). Em resumo, o algoritmo
ELM compreende trs etapas [28]:
i) Atribuio aleatria dos pesos de entrada j w e
polarizaes j b ;
ii) Clculo da matriz da camada de sada H ;
iii) Clculo dos pesos de sada : H T .
O mtodo NRVQA-ELMtc [27] implementa um
simples critrio de parada no treinamento da rede
neural SLFN, quanto atribuio aleatria dos pesos
j w e j b . Embora este critrio no seja direcionado,
busca os pesos relacionados com o menor RMSE
(Root-Mean-Square Error) entre a sada desejada
(escore subjetivo) e o escore objetivo na fase de
treinamento com k iteraes (tipicamente, k 100 ) e
N neurnios na camada oculta. Alm disso, conforme
estudo realizado em [27], caso o RMSE seja menor do
que 0,5 o algoritmo cessa a busca pelos parmetros
j w e j b .
4. RESULTADOS EXPERIMENTAIS
Esta seo apresenta os resultados de acurcia,
i.e., os coefcientes de correlao linear de Pearson
(Pearson Linear Correlation Coefcient PLCC) [34],
[35], entre os escores objetivos e subjetivos de 2627
amostras de vdeo estudadas em [27].
A Figura 3 compara a acurcia (PLCC) entre as
mtricas de referncia completa (FR) PSNR e MSSSIM
com o mtodo proposto (NRVQA-ELMtc) para
as 2627 amostras de vdeo, pertencentes a 17 bases
de dados de vdeo disponibilizadas por diversas
instituies e laboratrios [27]. A funo de ativao
usada na rede neural SLFN foi o seno (sin) com o
nmero de amostras de teste igual ao nmero de
neurnios na camada oculta ( N ). O mtodo de
validao cruzada mltipla (K-fold) foi usado com o
objetivo de gerar uma distribuio de acurcia, a qual
foi analisada por meio do diagrama de caixa (box-plot)
[36], em que o trao, o crculo e o quadrado, ambos
em vermelho, representam a mediana, a mdia e o
desvio padro, respectivamente. Destaca-se que
neste trabalho foi empregada uma validao cruzada
com um grande nmero de amostras de treinamentoteste
com K 100 , i.e., cada caixa do box-plot
comporta 100 experimentos distintos. Tipicamente, a
literatura apresenta trabalhos no campo da avaliao
Fig. 3. Box-plot da predio da acurcia (PLCC) entre as mtricas PSNR, MS-SSIM e o mtodo proposto NRVQA-ELMtc
de qualidade de vdeo com K entre 5 e 10 [37], [38].
Pela inspeo visual da Figura 3 observa-se que o
desempenho do mtodo proposto superior s
mtricas FR, em quaisquer condies de teste, i.e.,
para qualquer quantidade de amostras de teste
(nmero de neurnios na camada oculta) entre 25 e
500. Em especial, para N 50 , o mtodo proposto
apresenta valores de PLCC, em termos da mdia e
mediana, acima de 0,8, denotando uma forte
associao entre os escores objetivos e subjetivos, na
tarefa de predio de qualidade de vdeo. Isto ocorre
devido grande quantidade de amostras de vdeo
usadas no treinamento, e.g., para N 300 foram
usadas 2327 amostras de treinamento, ou seja,
mesmo usando pares de treinamento-teste disjuntos,
o mtodo proposto mostra uma acurcia superior s
mtricas de referncia completa. A assimetria positiva,
i.e., a maior concentrao da acurcia entre o
segundo quartil (mediana) e o terceiro quartil, na
distribuio do box-plot nos testes com 300 e 500
neurnios na camada oculta, indica que o mtodo
proposto apresenta um desempenho expressivo em
comparao com as mtricas FR.
Entretanto, mesmo para N entre 25 e 50, o
mtodo proposto apresentou uma acurcia maior do
que as mtricas FR, cujo melhor resultado foi para
N 25 com o desvio-quartil (amplitude interquartlica)
confnado entre 0,65 e 0,8. Alm disso, este resultado
tambm apresentou assimetria positiva com a mdia
do PLCC em torno de 0,75.
5. CONCLUSO
Este trabalho apresentou uma mtrica NR baseada
em uma rede neural artifcial SLFN, cujo treinamento
determinado pelo algoritmo ELM, o qual considera
caractersticas espao-temporais e os escores
subjetivos (alvos) extrados de 2627 amostras
treinamento. Alm disso, este trabalho prope uma
extenso do algoritmo ELM por meio de um simples
critrio de parada, a fm de que sejam obtidos
parmetros da rede neural artifcial relacionados com
o menor RMSE. Tipicamente, a comparao entre
mtricas FR e NR injusta, devido ausncia do
vdeo de referncia na obteno do escore de
qualidade em mtricas NR. Entretanto, os resultados
experimentais mostram que o mtodo proposto
apresentou desempenho superior s mtricas de
referncia completa PSNR e MS-SSIM, sobretudo,
quando o nmero de amostras de teste e de neurnios
na camada oculta da rede SLFN maior do que 250.
Logo, a mtrica NRVQA-ELMtc pode ser empregada
no monitoramento de qualidade em sistemas de
transmisso e recepo de vdeo digital, tais como
IPTV (Internet Protocol Television), TV digital ou em
dispositivos mveis, tais como ultrabooks,
smartphones, tablets e em aparelhos WiDi (Wireless
Display).
REFERNCIAS
[1] S. Winkler, Issues in vision modeling for perceptual
video quality assessment, Signal Processing, vol. 78,
no. 2, pp. 231252, 1999.
[2] Z. Wang and A. C. Bovik, Modern image quality
assessment. San Rafael, CA: Morgan & Claypool,
2006.
[3] W. Lin and C.-C. Jay Kuo, Perceptual visual quality
metrics: A survey, Journal of Visual Communication
and Image Representation, vol. 22, no. 4, pp. 297312,
May 2011.
[4] S. S. Hemami and A. R. Reibman, No-reference image
and video quality estimation: Applications and humanmotivated
design, Signal Processing: Image
Communication, vol. 25, no. 7, pp. 469481, 2010.
[5] Z. Wang and A. Bovik, Reduced- and No-Reference
Image Quality Assessment, IEEE Signal Processing
Magazine, vol. 28, no. 6, pp. 2940, Nov. 2011.
[6] R. V. Babu, S. Suresh, and A. Perkis, No-reference
JPEG-image quality assessment using GAP-RBF,
Signal Processing, vol. 87, no. 6, pp. 14931503, 2007.
[7] X. Jiang, F. Meng, J. Xu, and W. Zhou, No-Reference
Perceptual Video Quality Measurement for High
Defnition Videos Based on an Artifcial Neural
Network, in Computer and Electrical Engineering,
2008. ICCEE 2008. International Conference on, 2008,
pp. 424427.
[8] J. Choe, K. Lee, C. Lee, and S. Korea, No-reference
video quality measurement using neural networks, in
2009 16th International Conference on Digital Signal
Processing, 2009, pp. 14.
[9] S. Suresh, R. Venkatesh Babu, and H. J. Kim, Noreference
image quality assessment using modifed
extreme learning machine classifer, Applied Soft
Computing, vol. 9, no. 2, pp. 541552, Mar. 2009.
[10] A. M. Eskicioglu and P. S. Fisher, Image quality
measures and their performance, IEEE Transactions
on Communications, vol. 43, no. 12, pp. 29592965,
1995.
[11] U. Engelke and H.-J. Zepernick, Perceptual-based
Quality Metrics for Image and Video Services: A
Survey, in Proceedings EuroNGI Conf. Next
Generation Internet Networks, 2007, pp. 190197.
[12] Z. Wang, A. C. Bovik, H. R. Sheikh, and E. P
Simoncelli, Image quality assessment: from error
visibility to structural similarity., IEEE Transactions on
Image Processing, vol. 13, no. 4, pp. 600612, 2004.
[13] Z. Wang, E. P. Simoncelli, and A. C. Bovik, Multiscale
structural similarity for image quality assessment, in
The Thrity-Seventh Asilomar Conference on Signals,
Systems & Computers, 2003, 2003, vol. 2, no. 1, pp.
13981402.
[14] H. R. Wu, K. R. Rao, and A. A. Kassim, Digital Video
Image Quality and Perceptual Coding, Journal of
Electronic Imaging, vol. 16, no. 3, 2007.
[15] Z. Wang and A. C. Bovik, A universal image quality
index, IEEE Signal Processing Letters, vol. 9, no. 3,
pp. 8184, Mar. 2002.
[16] Y. Shi, Y. Ding, R. Zhang, and J. Li, Structure and Hue
Similarity for Color Image Quality Assessment, in 2009
International Conference on Electronic Computer
Technology, 2009, pp. 329333.
[17] W. B. Silva, A. A. P. Pohl, and K. V. O. Fonseca, A
Reduced-Reference Video Quality Assessment Method
based on the Activity-Diference of DCT Coefcients,
IEICE Transactions on Information and Systems, vol. E96-D, no. 3, 2013.
[18] P. Le Callet, C. Viard-Gaudin, and D. Barba, A Convolutional Neural Network Approach for Objective Video Quality Assessment, IEEE Transactions on Neural Networks, vol. 17, no. 5, pp. 13161327, 2006.
[19] P. Le Callet and D. Barba, Image Quality Assessment: From Sites Errors to a Global Appreciation of Quality, in Proceedings of the Picture Coding Sympsium, 2001, pp. 105108.
[20] M. Miyahara, K. Kotani, and V. R. Algazi, Objective picture quality scale (PQS) for image coding, IEEE Transactions on Communications, vol. 46, no. 9, pp. 12151226, 1998.
[21] M. Slanina, V. Ricny, and R. Forchheimer, A Novel Metric for H.264/AVC No-Reference Quality Assessment, in 14th International Workshop on Systems, Signals and Image Processing and 6th EURASIP Conference focused on Speech and Image Processing, Multimedia Communications and Services, 2007, pp. 114117.
[22] O. Sugimoto, S. Naito, S. Sakazawa, and A. Koike, Objective perceptual video quality measurement method based on hybrid no reference framework, in 16th IEEE International Conference on Image Processing (ICIP09), 2009, pp. 22372240.
[23] T. Oelbaum, C. Keimel, and K. Diepold, Rule-Based No-Reference Video Quality Evaluation Using Additionally Coded Videos, IEEE Journal of Selected Topics in Signal Processing, vol. 3, no. 2, pp. 294303, 2009.
[24] N. Staelens, N. Vercammen, Y. Dhondt, B. Vermeulen, P. Lambert, R. de Walle, and P. Demeester, ViQID: A No-Reference bit stream-based visual quality impairment detector, in Proceedings of the Second Int Quality of Multimedia Experience (QoMEX) Workshop, 2010, pp. 206211.
[25] F. Yang, S. Wan, Q. Xie, and H. R. Wu, No-Reference Quality Assessment for Networked Video via Primary Analysis of Bit Stream, IEEE Transactions on Circuits and Systems for Video Technology, vol. 20, no. 11, pp. 15441554, Nov. 2010.
[26] Z. Wang, H. R. Sheikh, and A. C. Bovik, Objective Video Quality Assessment, in The Handbook of Video Databases: Design and Applications, B. Furht and O. Marques, Eds. Boca Raton, FL, USA: CRC Press, 2003, pp. 10411078.
[27] W. B. da Silva and A. de A. P. Pohl, Mtodos Sem Referncia Baseados em Caractersticas Espao-Temporais para Avaliao Objetiva de Qualidade de Vdeo Digital, Universidade Tecnolgica Federal do Paran (UTFPR), 2013.
[28] G.-B. Huang, Q.-Y. Zhu, and C.-K. Siew, Extreme learning machine: Theory and applications, Neurocomputing, vol. 70, no. 13, pp. 489501, Dec. 2006.
[29] Z. Wang, H. R. Sheikh, and A. C. Bovik, No-reference perceptual quality assessment of JPEG compressed images, in Image Processing. 2002. Proceedings. IEEE International Conference on Image Processing, 2002, vol. 1, pp. vol.1 I477 I480.
[30] W. B. Silva and A. A. P. Pohl, No-Reference Video Quality Assessment Method based on the Levenberg-Marquardt Minimization, in XXX Brazilian Symposium on Telecommunications (SBrT12), 2012.
[31] ITU-T P.910, Subjective video quality assessment methods for multimedia applications, Standardization Sector of ITU, 1999.
[32] W. Ding, Y. Tong, Q. Zhang, and D. Yang, Image and Video Quality Assessment Using Neural Network and SVM, Tsinghua Science & Technology, vol. 13, no. 1, pp. 112116, 2008.
[33] K. S. Banerjee, C. R. Rao, and S. K. Mitra, Generalized Inverse of Matrices and Its Applications, Technometrics, vol. 15, no. 1, p. 197, Feb. 1973.
[34] VQEG, Final report from the video quality experts group on the validation of reduced-reference and no-reference objective models for standard defnition television, Phase I, 2009.
[35] VQEG, Report on the validation of video quality models for high defnition video content, 2010.
[36] J. W. Tukey, Exploratory Data Analysis. New York: Addison-Wesley Publishing Company, 1977.
[37] P. Gastaldo and R. Zunino, Neural networks for the no-reference assessment of perceived quality, J. Electronic Imaging, vol. 14, no. 3, p. 033004, 2005.
[38] R. Herzog, M. adk, T. O. Aydn, K. I. Kim, K. Myszkowski, and H.-P. Seidel, NoRM: No-Reference Image Quality Metric for Realistic Image Synthesis, Comp. Graph. Forum, vol. 31, no. 2pt4, pp. 545554, 2012.
40 Revista de Radiodifuso v. 07 n. 08 2013
Pesquisas em ambientes digitais - TV Internet Radio Cinema
preferncia. O aplicativo tambm abastece o perfil
do usurio com informaes, fotos e vdeos
relacionados aos programas favoritos. Uma forma
de oferecer contedo personalizado sobre a
programao e manter a curiosidade e a fidelidade
do usurio.
Em janeiro de 2011, surgiu uma forma ainda
mais fcil de fazer check-in na TV. O IntoNow
lanou a chamada tecnologia de impresses digitais
de udio. O aplicativo rastreia o que o telespectador
est vendo na TV por meio do som e
automaticamente identifica o programa, dando
informaes sobre ele e fazendo uma espcie de
check-in automtico do usurio. Trs meses depois,
a empresa criou uma nova funcionalidade para
manter a fidelidade do internauta mesmo depois do
check-in: os prprios amigos podiam, a partir dali,
mandar recomendaes de programas.
Logo depois, o IntoNow foi comprado pelo
Yahoo. A venda foi considerada, inicialmente,
prematura do ponto de vista empresarial, j que a
companhia estava no auge de crescimento, com 500
mil usurios. Mas o IntoNow queria aproveitar a
chance de agregar o seu nome com uma marca
forte e se beneficiar de parcerias de peso. Foi o que
aconteceu 3 meses depois. O IntoNow foi usado
para atrair fs de um programa famoso, Project
Runway. A estratgia de engajamento era oferecer
contedo exclusivo da atrao em troca da
fidelidade ao programa, por meio do rastreamento
sonoro que comprovava que o usurio estava vendo
a atrao naquele momento. Ou seja, em troca de
uma espcie de check-in. Nesse ponto, importante
destacar que tanto o GetGlue quanto o IntoNow
esto usando estratgias que vo alm do simples
check-in no basta que o usurio aponte na rede
social que esteve assistindo a determinado
programa. necessrio que ele permanea vendo a
atrao e continue a falar sobre ela dentro da rede
social. Com isso, mantido o interesse no contedo
das duas telas. No caso do GetGlue, a companhia
detectou que o internauta apenas fazia o check-in
para pontuar e ganhar o adesivo e depois
simplesmente saa da plataforma.
Esse fato aponta para uma questo que o
produtor de contedo, seja de TV ou de outras
mdias, no pode perder de vista: o que realmente
mantm o interesse e a fidelidade do pblico o
contedo e no a tecnologia. Conforme PROULX e
SHEPATIN (2012), o IntoNow percebeu que
engajamento do pblico com contedo relevante o
que levaria ao comportamento de uso repetitivo
sem a necessidade de mecanismos de jogos ou de
competio.

As experincias da TV Globo
Em fevereiro de 2013, a TV Globo lanou o
aplicativo Globeleza, em referncia ao Carnaval,
um dos maiores eventos transmitidos pela empresa
todos os anos. No era propriamente um aplicativo
de check-in da programao televisiva e sim uma
ferramenta de geolocalizao temtica, voltada para
os eventos relacionados ao Carnaval. Disponvel
nas verses para sistemas iOS e Android, a
ferramenta gratuita permitia ao usurios montar sua
prpria programao nos dias de folia em quatro
grandes cidades brasileiras com programao
carnavalesca de destaque: Rio de Janeiro, So
Paulo, Olinda e Recife.
Por meio do app Globeleza, o folio se
informava sobre o local, o dia e o horrio dos
maiores blocos de Carnaval; o endereo da quadra
das escolas de samba; a ordem dos desfiles; o
esquema especial de transporte pblico para o
sambdromo; os portes de entrada para cada setor
da Marqus de Sapuca (no Rio) e do Anhembi (em
So Paulo). A ferramenta permitia ainda calcular as
melhores rotas para chegar a todos esses locais e
Pesquisas em ambientes digitais - TV Internet Radio Cinema
Revista de Radiodifuso v. 07 n. 08 2013 41
MTRICA SEM REFERNCIA BASEADA EM REDES NEURAIS
PARA AVALIAO OBJETIVA DE QUALIDADE DE VDEO DIGITAL
Wyllian Bezerra da Silva, Alexandre de Almeida Prado Pohl
Programa de Ps-Graduao em Engenharia Eltrica e Informtica Industrial (CPGEI) UTFPR, Curitiba, Brasil
wyllianbs@gmail.com, pohl@utfpr.edu.br
Resumo: Este trabalho apresenta uma mtrica sem referncia para avaliao de qualidade de vdeo digital baseada em uma rede neural artifcial que usa uma verso estendida do algoritmo de aprendizado ELM (Extreme Learning Machine). O mtodo proposto realiza o treinamento da rede neural a partir de seis caractersticas espao-temporais. Os resultados experimentais mostram que o mtodo proposto apresenta desempenho superior s mtricas de referncia completa PSNR e MS-SSIM na tarefa de predio de qualidade de vdeo. Logo, o mtodo proposto pode ser usado no monitoramento de qualidade em sistemas de transmisso e recepo de vdeo digital, tais como IPTV e TV digital.
Palavras chave: algoritmo ELM, avaliao objetiva de vdeo, mtrica sem referncia, rede neural artifcial.
1. INTRODUO
Durante os ltimos anos, a literatura tem apresentado um nmero crescente publicaes acerca de mtricas objetivas para avaliao de qualidade de vdeo para diversas aplicaes em radiodifuso ou no processamento de vdeo digital, seja na aquisio do sinal, codifcao e decodifcao, compresso, transmisso, restaurao, armazenamento, segmentao e exibio de sinais de vdeo digital [14]. A avaliao de qualidade de vdeo digital pode ser realizada por meio de mtricas subjetiva e objetiva. A primeira requer uma grande quantidade de recursos humanos e apresenta elevado custo em sua implementao [13]. Porm, as mtricas objetivas so vantajosas quando apresentam um determinado grau de correlao com as mtricas subjetivas. Logo, o desenvolvimento destas um desafo no campo de avaliao de qualidade de vdeo e imagem. Alm disso, as mtricas objetivas, devido natureza de seu critrio objetivo, independem de interao humana e so facilmente reprodutveis [3]. Dentre as mtricas objetivas destacam-se as mtricas sem referncia (No-Reference NR), pois no necessitam do vdeo de referncia no clculo de sua medida. Entretanto, estas requerem um conhecimento a priori sobre as distores em vdeo digital para que seja estabelecida uma correlao com os resultados subjetivos [3].
A maioria das mtricas NR encontradas na literatura so baseadas na avaliao de qualidade de imagens e em caractersticas relacionadas ao Sistema Visual Humano (SVH). Assim, o desenvolvimento de mtricas NR difcil, devido necessidade de emular a percepo do SVH que envolve aspectos cognitivos, emocionais e estticos relacionados ao contedo do vdeo e que so altamente dependentes do observador [4], [5].
A literatura reporta diversos esforos no desenvolvimento de mtricas para avaliao de qualidade de vdeo baseadas em redes neurais e em algoritmos de aprendizado. Babu et al. [6] apresentam uma mtrica para avaliar a qualidade de imagens comprimidas em JPEG (Joint Photographic Experts Group) por meio de um algoritmo de aprendizado de crescimento e propem o uso de uma rede neural GAP-RBF (Growing and Pruning Radial Basis Function) que usa caractersticas relacionadas ao SVH. Jiang et al. [7] desenvolveram uma mtrica NR para avaliao de qualidade de vdeo em HD (High Defnition) baseada em uma rede neural treinada pelo algoritmo BP (Back-Propagation) que usa seis caractersticas espao-temporais e a RoI (Region of Interest). Choe et al. [8] desenvolveram uma mtrica NR baseada no fuxo de bits para avaliao de qualidade de vdeo codifcado em H.264. Esta mtrica extrai caractersticas quadro a quadro e usa uma rede neural alimentada adiante (feedforward) com trs camadas. Suresh et al. [9] apresentaram uma extenso do algoritmo ELM na tarefa de avaliar a qualidade de imagens comprimidas em JPEG com base no esquema de seleo mltipla KS-ELM (K-fold selection Scheme using ELM) e no algoritmo RCGA-ELM (Real-Coded Genetic Algorithm using ELM) para seleo dos pesos de entrada e polarizaes.
Este trabalho apresenta uma verso estendida do algoritmo ELM para redes neurais SLFN (Single-hidden-Layer Feedforward Neural Networks) que implementa um simples critrio de parada na fase de treinamento. Alm disso, esse mtodo usa seis caractersticas espao-temporais de vdeos submetidos a diversas condies de distoro.
Este artigo est dividido da seguinte maneira: a Seo 2 descreve as mtricas para avaliao de qualidade de vdeo. A Seo 3 descreve o mtodo NR proposto para avalio de qualidade de vdeo digital. A Seo 4 apresenta os resultados experimentais, em que so comparados o mtodo NR proposto e duas mtricas FR. Finalmente, a Seo 5 apresenta a concluso do artigo.
2. AVALIAO DE QUALIDADE DE VDEO
O processo de avaliao de qualidade de vdeo
pode ser realizado com a aplicao de mtricas
subjetivas ou objetivas. As mtricas subjetivas
estimam a qualidade do vdeo por meio de avaliadores
humanos. Logo, exigem um alto custo, pois
necessitam de uma grande quantidade de recursos
humanos e apresentam problemas quanto aos
requisitos de imparcialidade e reprodutibilidade,
tornando-se inapropriadas em sistemas de
radiodifuso ou em provedores de contedo [10], [11].
Por outro lado, as mtricas objetivas so baseadas em
modelos matemticos, cujo objetivo produzir um
escore de qualidade que emule a percepo do SVH.
Alm disso, as mtricas objetivas requerem baixo
custo de implementao (quando comparadas com as
mtricas subjetivas) e no apresentam problemas
quanto reprodutibilidade e imparcialidade.
As mtricas objetivas para avaliao de qualidade
de vdeo podem ser classifcadas em trs categorias:
(i) mtricas de referncia completa (Full-Reference
FR); (ii) mtricas de referncia reduzida (Reduced-
Reference RR); (iii) mtricas sem referncia (NR).
2.1. Mtricas FR
As mtricas FR requerem o vdeo de referncia
(fonte) no clculo do escore de qualidade. Estas
mtricas so amplamente utilizadas no processo de
validao de mtricas RR ou NR, por meio da
comparao de desempenho defnida pelas
recomendaes do Grupo de Especialistas em
Qualidade de Vdeo (VQEG Video Quality Experts
Group) que um rgo de padronizao internacional
de mtricas subjetivas e objetivas de qualidade de
vdeo. Dentre as mtricas FR, destacam-se o PSNR
(Peak Signal-to-Noise Ratio), SSIM (Structural
SIMilarity index) [12] e MS-SSIM (Multi-Scale
Structural SIMilarity index) [13].
O PSNR uma mtrica FR baseada no erro pixel a
pixel de fcil implementao. Entretanto, apresenta
baixa correlao com o SVH [14]. A sua medida
processada sobre o erro quadro a quadro, i.e., entre o
quadro original x e o quadro y . A expresso a seguir
defne o PSNR para um conjunto de quadros F .
20
1
1
PSNR 20log ,
F
f
f f
v
F MSE



(1)
com

2
0 0
1
MSE , , , , ,
N M
f
i j
x f i j y f i j
NM

(2)
em que o termo f v igual a (2 1) k , cujo k o
nmero de bits por pixel, i.e., a componente de
luminncia do quadro f . Os termos x f ,i, j e
y f ,i, j so os valores de luminncia do quadro de
origem e degradado, respectivamente. As
componentes bidimensionais so representadas pelo
nmero de colunas N e pelo nmero de linhas M . O
termo f MSE defnido como erro quadrtico mdio
ou MSE (Mean Square Error).
A mtrica SSIM baseia-se no fato de que o SVH
fortemente adaptado para extrair informaes das
caractersticas estruturais de um quadro ou imagem.
Logo, uma medida de similaridade estrutural (ou
distoro) pode prover boa aproximao para a
qualidade perceptual de um vdeo [3, 79]. Sejam x e
y dois sinais no-negativos, em que y o sinal
degradado e x o sinal original (sem perda de
qualidade), a medida de similaridade utilizada como
um ndice quantitativo de qualidade do sinal distorcido,
ou seja, x tomado como a referncia para medir a
qualidade de y . A mtrica SSIM possui diversas
extenses, dentre as quais a verso MS-SSIM,
proposta por Wang et al. [13] que assume uma
abordagem multiescalar.
2.2. Mtricas RR
As mtricas de referncia reduzida retiram certa
quantidade de caractersticas do vdeo original (fonte),
baseadas em componentes espaciais, temporais, no
domnio da frequncia ou no fuxo de bits (bitstream).
Este tipo de mtrica amplamente utilizada no
monitoramento de transmisses em rede [17]. Neste
tipo de cenrio de aplicao, o vdeo transmitido
com uma sequncia de informao codifcada
(overhead) e no lado receptor ocorre a sua
decodifcao, seguido pelo clculo do ndice de
qualidade, o qual obtido por meio da comparao
entre a representao reduzida da informao nos
pares emissor e receptor [18]. Tipicamente, mtricas
RR so implementadas por meio de funes, divididas
em duas etapas [19]: (i) clculo do erro entre os
vdeos original e distorcido, constitudo pela diferena
de suas caractersticas, a fm de compor a
representao reduzida da informao; (ii) funo que
agrupa os erros ou diferenas para obter um ndice de
qualidade global. Algumas mtricas RR exploram
propriedades dos artefatos, por meio da extrao de
caractersticas e um modelo de parametrizao [20]
com foco em tipos especfcos de distores
(artefatos). Esta abordagem encontrada em Silva et
al. [17], cujo clculo do escore de qualidade
baseado na diferena de atividade dos coefcientes
DCT (Discrete Cosine Transform) em um macro bloco
com resoluo de 1616 pixels.
2.3. Mtricas NR
As mtricas NR extraem caractersticas
relacionadas ao SVH do vdeo distorcido, i.e., na
recepo do sinal de vdeo [14]. Tipicamente, h duas
abordagens no desenvolvimento destas mtricas: (i)
extrao dos parmetros sobre o fuxo de bits, tais
como a taxa de compresso, informaes
relacionadas ao GoP (Group of Pictures), estimao
de movimento, perfl e nvel de codifcao, bem como
o parmetro de quantizao ou QP (Quantization
Parameter) [2125]. Mtricas NR apresentam maior
complexidade quando so aplicadas em vdeo, devido
variao temporal dos quadros, contedos das
cenas e difculdade de compreenso das
caractersticas do SVH [26]. Assim, algumas mtricas
dessa categoria exploram caractersticas espaciais e
temporais na estimao de qualidade de vdeo [21].
3. MTODO PROPOSTO
O mtodo proposto, denominado NRVQA-ELMtc
(No-Reference Video Quality Assessment using
Extreme Learning Machine algorithm with termination
criteria) [27] combina caractersticas espaciais e
temporais, por meio de uma rede neural artifcial
SLFNs usando o algoritmo de treinamento ELM [28]
com a implementao de um simples critrio de
parada.
3.1. Caractersticas espao-temporais
As caractersticas espaciais incorporadas no
mtodo proposto so baseadas em medidas de
artefatos em vdeo digital, i.e., distores de blocagem
e borramento desenvolvidas por Wang et al. [20].
Assim, a componente de luminncia do quadro f
representada por y(f , i, j ) com i 1,M e j 1, N ,
em que M e N so os nmeros de linhas e colunas,
respectivamente, de um quadro. Logo, as diferenas
de luminncia ao longo das linhas e colunas so
representadas, respectivamente, pelas expresses a
seguir.


, , , , 1 , , , 1, 1 ,
, , , 1, , , , 1, 1 .
h
v
d f i j y f i j y f i j j N
d f i j y f i j y f i j i M


(3)
O efeito de blocagem pode ser estimado pela
mdia das diferenas entre as bordas dos blocos da
DCT (Discrete Cosine Transform) nas direes
horizontal e vertical para uma sequncia F de
quadros, conforme mostra a Equao (4), com um
macrobloco de dimenso , cujo tamanho tpico
de 8 [20].


1
1
1 1 1
1
1
1 1 1
1
, , 1 ,
1
1
1
, 1 , .
1
1
N
F M
h h
f i j
M
F N
v
i j
v
f
B d f i j
N
F M
B d f i j
M
F N












(4)
A medida de blocagem em uma sequncia de
vdeo com F quadros determinada pela mdia entre
h B e v B , caracterizando a medida B , conforme a
expresso a seguir.
.
2
h v B B
B

(5)
Os efeitos de borramento so estimados pelo
clculo da reduo de atividade entre os blocos ,
em que usada a medida de blocagem nas direes
horizontal e vertical, conforme as expresses




1
1 1 1
1
1 1 1
, , ,
1 1
, ,
1
.
1
F M N
h h h
f i j
F M N
v v
f
v
i j
A d f i j B
F M N
A d f i j B
F N M








(6)
A medida de borramento, representada por A ,
conforme a Equao (7), determinada pela mdia
entre h A e v A .
.
2
h v A A
A

(7)
O segundo fator que contribui para a deteco do
artefato de borramento baseado na taxa de
cruzamento por zero (Zero Crossing ZC) nas
direes horizontal e vertical, conforme as expresses
a seguir.




2
1 1 1
2
1 1 1
1
, , ,
2
1
, , ,
2
F M N
h h
f i j
F M N
v v
f i j
Z z f i j
F M N
Z z f i j
F N M




(8)
em que os termos h z e v z so determinados por


1, na direo horizontal
, , ,
0, caso contrrio
1, na direo vertical
, , .
0, caso contrrio
h
v
z f i j
z f i j



(9)
Assim, a medida de borramento Z determinada
pela mdia entre as componentes h Z e v Z .
.
2
h v Z Z
Z

(10)
O mtodo proposto tambm incorpora trs
caractersticas temporais no treinamento da rede
neural SLFN com o algoritmo ELM.
A primeira caracterstica temporal a diferena de
movimento entre quadros adjacentes, representada
pela varivel TI (Temporal perceptual Information) [31]
que considera os valores de luminncia de pixels
localizados em uma mesma regio de um quadro,
conforme a expresso a seguir.

2
1
, , ,
1
F
f
TI m f i j
F


(11)
em que o nmero total de quadros F e mf ,i, j

o desvio padro da diferena de movimento
(diferena de luminncia) entre o quadro atual
y f ,i, j e o quadro anterior y f 1,i, j .
A segunda caracterstica temporal a mdia da
diferena absoluta (Mean Absolute Diference MAD)
[31] entre quadros sucessivos, representada pela
Equao (12) que defne a medida global da MAD
para todos os quadros de um vdeo.


2 1 1
1
, , 1, , .
1
F M N
f i j
MAD y f i j y f i j
M N F



(12)
A terceira caracterstica temporal a mdia da
diferena absoluta ponderada (weighted Mean
Absolute Diference MADw) [32], a qual mede o grau
de variao das cenas de um vdeo que considera a
cena atual de um quadro f e do quadro anterior f 1,
conforme a expresso:
2 1
1
.
1
F
f
f f
MAD
MADw
F MAD


(13)
Assim, o mtodo proposto combina as
caractersticas espaciais e temporais em uma matriz
, , , , , f f f f f f f x A B Z TI MAD MADw , em que f o
nmero de amostras de vdeo. A Figura 1 apresenta
as caractersticas temporais espaciais de dezessete
bases de dados de vdeos (denominada superconjunto
S) usadas neste trabalho e reportadas em [27]. A
recomendao ITU-T P.910 [31] defne a medida SI
(Spatial perceptual Information) como informao
espacial perceptual. A inspeo visual dessa fgura
mostra que as amostras de vdeo usadas neste
trabalho apresentam uma grande variao espaotemporal.
Fig. 1. Caractersticas espaciais e temporais do superconjunto
S com 216 amostras de referncia
3.2. Mtrica NRVQA-ELMtc
O algoritmo ELM [28] desenvolvido para o
treinamento de uma rede SLFN atribui pesos e
polarizaes (biases) de maneira aleatria, segundo
uma distribuio uniforme. O treinamento compreende
N amostras distintas representadas pela varivel
, , , 1, , n m
f f f f x t x t f N , cujo clculo
conforme a expresso

1
, 1, , ,
K
K i j j f j f
f
f g b f N

x w x o (14)
em que f o a sada (escore objetivo), g(x) a
funo de ativao e j o peso que conecta o jsimo
neurnio da camada oculta ao neurnio de
sada. De acordo com [28], uma rede SLFN com K
ns na camada oculta e uma funo de ativao g(x)
pode apresentar um erro mdio prximo de zero, i.e.,
1
0
K
f f
f
o t . Logo, h parmetros j , j w e j b tal
que

1
, 1, , ,
K
j j f j f
f
g b f N

w x t (15)
em que f t o vetor alvo (escores subjetivos),
T
1, , j j jn w w w o vetor de peso que conecta o jsimo
neurnio da camada oculta ao neurnio da
camada de entrada, j b denota a polarizao (bias) do
j-simo neurnio da camada oculta, j f w x o
produto interno de j w e f x . A Figura 2 ilustra o
algoritmo ELM empregado em uma arquitetura de
rede neural SLFN.
xi
1
j
N
1
j
K
ti
bj
N input neuron K hidden neuron output neuron
1
K
wj
Fig. 2. Arquitetura de uma rede neural SLFN usando algoritmo
de treinamento ELM
O sistema linear da Equao (16) resume o mtodo
do algoritmo ELM.
H T, (16)
em que a matriz da camada oculta representada por
1, , and 1, , f H h f N j K com a primeira
linha da matriz de caractersticas f x igual a
T
1 2 , , , f f f fn x x x x , i.e., a primeira linha igual a
1 1 1 1 1 1 1 , , , , , f f f f f f f x A B Z TI MAD MADw . A matriz de
sada e o vetor alvo (target) so defnidos como
T
1 , K e
T
1, , N T t t , respectivamente. O
termo
T
1 , 1, , j jm j j K denota o vetor de
peso que conecta o j-simo neurnio da camada
oculta e os neurnios de sada. Hung et al. [28]
propuseram a atribuio aleatria de pesos aos
parmetros j w e j b , a fm de seja obtido um pequeno
erro no-nulo durante o treinamento. Considerando o
sistema linear da Equao (17), os pesos da camada
de sada podem ser aproximados por
H T (17)
em que H defnida como matriz inversa
generalizada de Moore-Penrose (MP) [33] da matriz
de sada da camada oculta H . Alm disso, o
conjunto de treinamento , n oculta K e uma
funo de ativao g x , e.g., funo de base radial
(Radial Basis Function RBF), hard-limiting (hardlim),
sigmoidal (sig) e seno (sin). Em resumo, o algoritmo
ELM compreende trs etapas [28]:
i) Atribuio aleatria dos pesos de entrada j w e
polarizaes j b ;
ii) Clculo da matriz da camada de sada H ;
iii) Clculo dos pesos de sada : H T .
O mtodo NRVQA-ELMtc [27] implementa um
simples critrio de parada no treinamento da rede
neural SLFN, quanto atribuio aleatria dos pesos
j w e j b . Embora este critrio no seja direcionado,
busca os pesos relacionados com o menor RMSE
(Root-Mean-Square Error) entre a sada desejada
(escore subjetivo) e o escore objetivo na fase de
treinamento com k iteraes (tipicamente, k 100 ) e
N neurnios na camada oculta. Alm disso, conforme
estudo realizado em [27], caso o RMSE seja menor do
que 0,5 o algoritmo cessa a busca pelos parmetros
j w e j b .
4. RESULTADOS EXPERIMENTAIS
Esta seo apresenta os resultados de acurcia,
i.e., os coefcientes de correlao linear de Pearson
(Pearson Linear Correlation Coefcient PLCC) [34],
[35], entre os escores objetivos e subjetivos de 2627
amostras de vdeo estudadas em [27].
A Figura 3 compara a acurcia (PLCC) entre as
mtricas de referncia completa (FR) PSNR e MSSSIM
com o mtodo proposto (NRVQA-ELMtc) para
as 2627 amostras de vdeo, pertencentes a 17 bases
de dados de vdeo disponibilizadas por diversas
instituies e laboratrios [27]. A funo de ativao
usada na rede neural SLFN foi o seno (sin) com o
nmero de amostras de teste igual ao nmero de
neurnios na camada oculta ( N ). O mtodo de
validao cruzada mltipla (K-fold) foi usado com o
objetivo de gerar uma distribuio de acurcia, a qual
foi analisada por meio do diagrama de caixa (box-plot)
[36], em que o trao, o crculo e o quadrado, ambos
em vermelho, representam a mediana, a mdia e o
desvio padro, respectivamente. Destaca-se que
neste trabalho foi empregada uma validao cruzada
com um grande nmero de amostras de treinamentoteste
com K 100 , i.e., cada caixa do box-plot
comporta 100 experimentos distintos. Tipicamente, a
literatura apresenta trabalhos no campo da avaliao
Fig. 3. Box-plot da predio da acurcia (PLCC) entre as mtricas PSNR, MS-SSIM e o mtodo proposto NRVQA-ELMtc
de qualidade de vdeo com K entre 5 e 10 [37], [38].
Pela inspeo visual da Figura 3 observa-se que o
desempenho do mtodo proposto superior s
mtricas FR, em quaisquer condies de teste, i.e.,
para qualquer quantidade de amostras de teste
(nmero de neurnios na camada oculta) entre 25 e
500. Em especial, para N 50 , o mtodo proposto
apresenta valores de PLCC, em termos da mdia e
mediana, acima de 0,8, denotando uma forte
associao entre os escores objetivos e subjetivos, na
tarefa de predio de qualidade de vdeo. Isto ocorre
devido grande quantidade de amostras de vdeo
usadas no treinamento, e.g., para N 300 foram
usadas 2327 amostras de treinamento, ou seja,
mesmo usando pares de treinamento-teste disjuntos,
o mtodo proposto mostra uma acurcia superior s
mtricas de referncia completa. A assimetria positiva,
i.e., a maior concentrao da acurcia entre o
segundo quartil (mediana) e o terceiro quartil, na
distribuio do box-plot nos testes com 300 e 500
neurnios na camada oculta, indica que o mtodo
proposto apresenta um desempenho expressivo em
comparao com as mtricas FR.
Entretanto, mesmo para N entre 25 e 50, o
mtodo proposto apresentou uma acurcia maior do
que as mtricas FR, cujo melhor resultado foi para
N 25 com o desvio-quartil (amplitude interquartlica)
confnado entre 0,65 e 0,8. Alm disso, este resultado
tambm apresentou assimetria positiva com a mdia
do PLCC em torno de 0,75.
5. CONCLUSO
Este trabalho apresentou uma mtrica NR baseada
em uma rede neural artifcial SLFN, cujo treinamento
determinado pelo algoritmo ELM, o qual considera
caractersticas espao-temporais e os escores
subjetivos (alvos) extrados de 2627 amostras
treinamento. Alm disso, este trabalho prope uma
extenso do algoritmo ELM por meio de um simples
critrio de parada, a fm de que sejam obtidos
parmetros da rede neural artifcial relacionados com
o menor RMSE. Tipicamente, a comparao entre
mtricas FR e NR injusta, devido ausncia do
vdeo de referncia na obteno do escore de
qualidade em mtricas NR. Entretanto, os resultados
experimentais mostram que o mtodo proposto
apresentou desempenho superior s mtricas de
referncia completa PSNR e MS-SSIM, sobretudo,
quando o nmero de amostras de teste e de neurnios
na camada oculta da rede SLFN maior do que 250.
Logo, a mtrica NRVQA-ELMtc pode ser empregada
no monitoramento de qualidade em sistemas de
transmisso e recepo de vdeo digital, tais como
IPTV (Internet Protocol Television), TV digital ou em
dispositivos mveis, tais como ultrabooks,
smartphones, tablets e em aparelhos WiDi (Wireless
Display).
REFERNCIAS
[1] S. Winkler, Issues in vision modeling for perceptual
video quality assessment, Signal Processing, vol. 78,
no. 2, pp. 231252, 1999.
[2] Z. Wang and A. C. Bovik, Modern image quality
assessment. San Rafael, CA: Morgan & Claypool,
2006.
[3] W. Lin and C.-C. Jay Kuo, Perceptual visual quality
metrics: A survey, Journal of Visual Communication
and Image Representation, vol. 22, no. 4, pp. 297312,
May 2011.
[4] S. S. Hemami and A. R. Reibman, No-reference image
and video quality estimation: Applications and humanmotivated
design, Signal Processing: Image
Communication, vol. 25, no. 7, pp. 469481, 2010.
[5] Z. Wang and A. Bovik, Reduced- and No-Reference
Image Quality Assessment, IEEE Signal Processing
Magazine, vol. 28, no. 6, pp. 2940, Nov. 2011.
[6] R. V. Babu, S. Suresh, and A. Perkis, No-reference
JPEG-image quality assessment using GAP-RBF,
Signal Processing, vol. 87, no. 6, pp. 14931503, 2007.
[7] X. Jiang, F. Meng, J. Xu, and W. Zhou, No-Reference
Perceptual Video Quality Measurement for High
Defnition Videos Based on an Artifcial Neural
Network, in Computer and Electrical Engineering,
2008. ICCEE 2008. International Conference on, 2008,
pp. 424427.
[8] J. Choe, K. Lee, C. Lee, and S. Korea, No-reference
video quality measurement using neural networks, in
2009 16th International Conference on Digital Signal
Processing, 2009, pp. 14.
[9] S. Suresh, R. Venkatesh Babu, and H. J. Kim, Noreference
image quality assessment using modifed
extreme learning machine classifer, Applied Soft
Computing, vol. 9, no. 2, pp. 541552, Mar. 2009.
[10] A. M. Eskicioglu and P. S. Fisher, Image quality
measures and their performance, IEEE Transactions
on Communications, vol. 43, no. 12, pp. 29592965,
1995.
[11] U. Engelke and H.-J. Zepernick, Perceptual-based
Quality Metrics for Image and Video Services: A
Survey, in Proceedings EuroNGI Conf. Next
Generation Internet Networks, 2007, pp. 190197.
[12] Z. Wang, A. C. Bovik, H. R. Sheikh, and E. P
Simoncelli, Image quality assessment: from error
visibility to structural similarity., IEEE Transactions on
Image Processing, vol. 13, no. 4, pp. 600612, 2004.
[13] Z. Wang, E. P. Simoncelli, and A. C. Bovik, Multiscale
structural similarity for image quality assessment, in
The Thrity-Seventh Asilomar Conference on Signals,
Systems & Computers, 2003, 2003, vol. 2, no. 1, pp.
13981402.
[14] H. R. Wu, K. R. Rao, and A. A. Kassim, Digital Video
Image Quality and Perceptual Coding, Journal of
Electronic Imaging, vol. 16, no. 3, 2007.
[15] Z. Wang and A. C. Bovik, A universal image quality
index, IEEE Signal Processing Letters, vol. 9, no. 3,
pp. 8184, Mar. 2002.
[16] Y. Shi, Y. Ding, R. Zhang, and J. Li, Structure and Hue
Similarity for Color Image Quality Assessment, in 2009
International Conference on Electronic Computer
Technology, 2009, pp. 329333.
[17] W. B. Silva, A. A. P. Pohl, and K. V. O. Fonseca, A
Reduced-Reference Video Quality Assessment Method
based on the Activity-Diference of DCT Coefcients,
IEICE Transactions on Information and Systems, vol. E96-D, no. 3, 2013.
[18] P. Le Callet, C. Viard-Gaudin, and D. Barba, A Convolutional Neural Network Approach for Objective Video Quality Assessment, IEEE Transactions on Neural Networks, vol. 17, no. 5, pp. 13161327, 2006.
[19] P. Le Callet and D. Barba, Image Quality Assessment: From Sites Errors to a Global Appreciation of Quality, in Proceedings of the Picture Coding Sympsium, 2001, pp. 105108.
[20] M. Miyahara, K. Kotani, and V. R. Algazi, Objective picture quality scale (PQS) for image coding, IEEE Transactions on Communications, vol. 46, no. 9, pp. 12151226, 1998.
[21] M. Slanina, V. Ricny, and R. Forchheimer, A Novel Metric for H.264/AVC No-Reference Quality Assessment, in 14th International Workshop on Systems, Signals and Image Processing and 6th EURASIP Conference focused on Speech and Image Processing, Multimedia Communications and Services, 2007, pp. 114117.
[22] O. Sugimoto, S. Naito, S. Sakazawa, and A. Koike, Objective perceptual video quality measurement method based on hybrid no reference framework, in 16th IEEE International Conference on Image Processing (ICIP09), 2009, pp. 22372240.
[23] T. Oelbaum, C. Keimel, and K. Diepold, Rule-Based No-Reference Video Quality Evaluation Using Additionally Coded Videos, IEEE Journal of Selected Topics in Signal Processing, vol. 3, no. 2, pp. 294303, 2009.
[24] N. Staelens, N. Vercammen, Y. Dhondt, B. Vermeulen, P. Lambert, R. de Walle, and P. Demeester, ViQID: A No-Reference bit stream-based visual quality impairment detector, in Proceedings of the Second Int Quality of Multimedia Experience (QoMEX) Workshop, 2010, pp. 206211.
[25] F. Yang, S. Wan, Q. Xie, and H. R. Wu, No-Reference Quality Assessment for Networked Video via Primary Analysis of Bit Stream, IEEE Transactions on Circuits and Systems for Video Technology, vol. 20, no. 11, pp. 15441554, Nov. 2010.
[26] Z. Wang, H. R. Sheikh, and A. C. Bovik, Objective Video Quality Assessment, in The Handbook of Video Databases: Design and Applications, B. Furht and O. Marques, Eds. Boca Raton, FL, USA: CRC Press, 2003, pp. 10411078.
[27] W. B. da Silva and A. de A. P. Pohl, Mtodos Sem Referncia Baseados em Caractersticas Espao-Temporais para Avaliao Objetiva de Qualidade de Vdeo Digital, Universidade Tecnolgica Federal do Paran (UTFPR), 2013.
[28] G.-B. Huang, Q.-Y. Zhu, and C.-K. Siew, Extreme learning machine: Theory and applications, Neurocomputing, vol. 70, no. 13, pp. 489501, Dec. 2006.
[29] Z. Wang, H. R. Sheikh, and A. C. Bovik, No-reference perceptual quality assessment of JPEG compressed images, in Image Processing. 2002. Proceedings. IEEE International Conference on Image Processing, 2002, vol. 1, pp. vol.1 I477 I480.
[30] W. B. Silva and A. A. P. Pohl, No-Reference Video Quality Assessment Method based on the Levenberg-Marquardt Minimization, in XXX Brazilian Symposium on Telecommunications (SBrT12), 2012.
[31] ITU-T P.910, Subjective video quality assessment methods for multimedia applications, Standardization Sector of ITU, 1999.
[32] W. Ding, Y. Tong, Q. Zhang, and D. Yang, Image and Video Quality Assessment Using Neural Network and SVM, Tsinghua Science & Technology, vol. 13, no. 1, pp. 112116, 2008.
[33] K. S. Banerjee, C. R. Rao, and S. K. Mitra, Generalized Inverse of Matrices and Its Applications, Technometrics, vol. 15, no. 1, p. 197, Feb. 1973.
[34] VQEG, Final report from the video quality experts group on the validation of reduced-reference and no-reference objective models for standard defnition television, Phase I, 2009.
[35] VQEG, Report on the validation of video quality models for high defnition video content, 2010.
[36] J. W. Tukey, Exploratory Data Analysis. New York: Addison-Wesley Publishing Company, 1977.
[37] P. Gastaldo and R. Zunino, Neural networks for the no-reference assessment of perceived quality, J. Electronic Imaging, vol. 14, no. 3, p. 033004, 2005.
[38] R. Herzog, M. adk, T. O. Aydn, K. I. Kim, K. Myszkowski, and H.-P. Seidel, NoRM: No-Reference Image Quality Metric for Realistic Image Synthesis, Comp. Graph. Forum, vol. 31, no. 2pt4, pp. 545554, 2012.
tambm localizar hospitais, delegacias e centros de
atendimento da prefeitura.
O aplicativo tambm podia ser conectado ao
Facebook e assim o usurio compartilhava os locais
favoritos e poderia saber por onde os amigos
passaram. Apesar de no ter relao direta com a
programao de TV, o app Globeleza tinha o
propsito de engajar o pblico no evento que est
fortemente associado TV Globo. E ao ter conexo
direta com a rede social mais usada no pas, a
ferramenta tambm ajudava, de alguma forma, a
pautar as conversas no Facebook, o que por sua
vez poderia influenciar os internautas na tomada de
deciso de passar a ver a transmisso do Carnaval
pela emissora. Aqui, cabe ressaltar que no Brasil
ainda no h nmeros que comprovem tacitamente
a influncia que postagens nas redes sociais podem
ter na audincia de um programa. Mas estudos
preliminares apontam, por exemplo, que a partir de
17 pontos de audincia, cada 5 mil tweets adicionais
sobre um determinado programa geram 1 novo
ponto de audincia no Ibope do canal.
5

Poucos meses depois do lanamento do
aplicativo Globeleza, a TV Globo criou um app
especfico de check-in de programao televisiva.
Batizada de Com_voc, a ferramenta tinha o
objetivo de aumentar a interatividade e se aproximar
cada vez mais do pblico, funcionando como ponto
de encontro de quem curte a programao da Globo
e gosta de falar sobre ela.
6

Entre os recursos disponibilizados aos
telespectadores esto o acompanhamento das
novidades dos programas favoritos; aviso sobre o

5
Clculo feito pela startup Qual Canal (empresa
especializada no monitoramento da repercusso de atraes
televisivas na internet) que este ano fez parceria com o Ibope
Media. Informaes disponveis na reportagem online Ibope
estuda o impacto da internet na audincia da TV Disponvel
em http://www.ibope.com.br/pt-br/noticias/Paginas/50-dos-
usuarios-do-Twitter-acessam-a-rede-enquanto -assistem-a-
TV.aspx. Acesso em 17/07/2013.

6
Informaes da divulgao oficial do aplicativo com_vc
comeo da atrao preferida e informaes sobre a
grade de programao; alm de ferramentas que
permitem convidar os amigos para ver a atrao.
A mais nova tentativa da Rede Globo no
universo dos aplicativos de check-in foi lanada em
setembro de 2013 para a novela teen Malhao. Por
conta do perfil jovem, o programa tem sido pioneiro
em usar recursos transmiditicos, tema que
trataremos adiante neste artigo.
Por meio do novo app, os fs da atrao
fazem o check-in para mostrar aos amigos que j
esto assistindo Malhao e com isso ganham
pontos quem somar mais, torna-se o Stalker
(perseguidor, em portugus) de Malhao. Alm
disso, os usurios que mais participam de quizzes
ganham contedos de gifs, cards e memes com
exclusividade. Uma outra forma de engajar o pblico
com a novo aplicativo possibilitar que o internauta
faa comentrio durante a exibio do captulo.
Funciona da seguinte maneira: para ver seu post na
tela da TV, o f precisa escrever uma mensagem
usando a hashtag (#) do dia (que divulgada no site
de Malhao, nos perfis oficiais da TV Globo e nas
prprias chamadas da TV). E para instigar a
participao, antes do incio da novela, no intervalo
da programao, um dos personagens da atrao
chama os fs para comentar o captulo do dia.
Pelo aplicativo, fica mais fcil comentar (a #
entra automaticamente) e acompanhar tudo o que
os outros fs de Malhao esto falando, tudo em
um s lugar, anunciava o texto de divulgao do
novo aplicativo.
O novo pacote pensado para a novela jovem
da TV Globo revela uma estratgia global no sentido
de engajar o pblico de segunda tela por meio do
aplicativo de check-in. Fica claro que no basta
lanar um app para que o f de determinado
programa na TV diga que est assistindo sua
42 Revista de Radiodifuso v. 07 n. 08 2013
Pesquisas em ambientes digitais - TV Internet Radio Cinema
atrao favorita. preciso criar contedo
relacionado ao aplicativo para oferecer um
diferencial s redes sociais j consolidadas no pas,
como Facebook e Twitter um desafio j que hoje o
compartilhamento de informaes sobre a
programao de televiso ainda est concentrada
nas prprias redes sociais.

TRANSMDIA E ENGAJAMENTO
A ideia de publicar na tela da TV as
mensagens geradas num aplicativo de check-in com
uma hashtag especfica, como fez Malhao, uma
ao transmdia.
Um projeto transmdia prope desenvolver,
escrever e produzir contedos iniciados em uma
plataforma de mdia e que tm seu desdobramento
estendido a outras plataformas. JENKINS (2009)
define transmdia como: processo onde os
elementos integrais da fico so sistematicamente
dispersos atravs de mltiplos canais de distribuio
para criar uma experincia unificada e coordenada
de entretenimento.
O produtor transmdia, portanto, baseia-se
numa estratgia em multiplataformas visando o
engajamento do pblico e a rentabilidade financeira.
Promover o engajamento transformar
o cliente (ou pblico) em parte da
histria que est sendo contada,
permitindo um real envolvimento das
pessoas, direcionando os veculos de
comunicao para a criao de um
ambiente transmiditico.
(ARNAUT,2011).

BERNARDO (2011), cujo livro aborda as
tcnicas para desenvolver histrias nas
multiplataformas, defende:
A razo prtica para seguir o caminho
da transmdia que o pblico no est
mais confinado a um meio de
comunicao. Os espectadores j
acessam contedo em plataformas
alternativas e como produtor, voc tem
que ir atrs deles. (...) Voc precisa
envolv-los onde eles estiverem.
(BERNARDO, 2011)

Esse panorama revela que o fluxo das
informaes transita de e para diversas localidades.
Sendo o consumidor contemporneo parte de um
processo vivo de comunicao e com pouco grau de
lealdade a um canal ou programao, promover
aes bem estruturadas de transmdia visa
amenizar as perdas de audincia, aumentar os
lucros e valorar a imagem dos produtos e marca.
Concomitantemente, as empresas de mdia tentam
acelerar a vazo de contedos pelos diferentes
canais de distribuio enquanto o telespectador
aprende a explorar diferentes tecnologias para ter
um controle mais completo sobre o fluxo livre de
ideias e contedos (JENKINS, 2009).

CONSIDERAES FINAIS
Pensar TV, atualmente, pens-la alm do
televisor. No mais possvel discutir os produtos
televisivos sem considerar que esses ultrapassam a
barreira da programao linear estipulada por uma
emissora.
O comportamento do telespectador tambm
outro: ele est conectado e, consequentemente,
tudo que exibido na televiso tambm est.
ativo, inquieto, participativo e em busca daquilo que
est alm. E para saciar sua curiosidade e
necessidade de sentir-se nico, o aplicativo de
check-in surge como o incio do caminho para ele
conquistar seus objetivos. O check-in
simplesmente o ponto de entrada para algo mais. E
a maneira como voc definir esse algo mais que vai
determinar o sucesso da sua marca nesse universo
transmdia (PROULX e SHEPATIN, 2012).
Neste cenrio, no se pode negar que o
contedo deve ser pensado amplamente. A
abordagem adotada pelos grupos miditicos deve
integrar os conceitos de produo e distribuio de
contedos envolvendo todos os tipos de mdia. Esse
processo transmdia se difere do que muito j foi
feito: utilizar outras plataformas, como a Internet, por
exemplo, para a criao de um site que se torna um
depositrio dos mesmos contedos exibidos pela
programao.
Considerando que grandes empresas de
comunicao j possuem vasto contedo de
produtos televisivos, adequ-los a essa realidade
uma necessidade latente. As outras plataformas e a
TV ensaiam um namoro ainda tmido, mas
promissor. J sabemos que no so mdias
excludentes. Pelo contrrio, pertencentes a um
universo transmdia de convergncia que devem
desenvolver ferramentas aglutinadoras, cada qual
com seus contedos exclusivos que se somam. A
hora agora e as oportunidades se moldam, em
busca desse tal algo mais.

REFERNCIAS BIBLIOGRFICAS

[1] ARNAUT, Rodrigo Dias et al. Era Transmdia.
Revista Geminis: Ano 2, n.2, 2011. Disponvel em:
<http://www.revistageminis.ufscar.br/index.php/gemi
nis/article/view/93/pdf >. Acesso em 28 Janeiro
2013.
[2] JENKINS, Henry. Cultura da Convergncia. 2
ed, So Paulo: Aleph, 2009.
[3] SHIRKY, CLAY. A cultura da participao:
criatividade e generosidade no mundo
conectado. Rio de Janeiro: Zahar, 2011.
[4] PROULX, Mike; SHEPATIN, Stacey. Social TV:
How Marketers Can Reach and Engage
Audiences by Connecting Television to the Web,
Social Media, and Mobile. New Jersey: John Wiley
and Sons, Inc., Hoboken, 2012.
[5] CESAR, Pablo e GREETZ, David.
Understanding Social TV: a survey. Disponvel em
http://homepages.cwi.nl/~garcia/material/nem-
summit2011.pdf. Acesso em 27/07/2013.
[6] CANNITO, Newton. A televiso na era digital:
interatividade, convergncia e novos modelos de
negcio. So Paulo: Summus, 2010.
[7] BECKER, Valdecir. Panorama da confuso
tecnolgica. In Revista da SET. Nmero 130.
Jan/Fev 2013, p. 54-56.
[8] BERNARDO, NUNO. The producers guide to
transmedia: how to develop, fund, produce and
distribute compelling stories across multiple
plataforms. Lisboa: beActive, 2011.


Pesquisas em ambientes digitais - TV Internet Radio Cinema
Revista de Radiodifuso v. 07 n. 08 2013 43
MTRICA SEM REFERNCIA BASEADA EM REDES NEURAIS
PARA AVALIAO OBJETIVA DE QUALIDADE DE VDEO DIGITAL
Wyllian Bezerra da Silva, Alexandre de Almeida Prado Pohl
Programa de Ps-Graduao em Engenharia Eltrica e Informtica Industrial (CPGEI) UTFPR, Curitiba, Brasil
wyllianbs@gmail.com, pohl@utfpr.edu.br
Resumo: Este trabalho apresenta uma mtrica sem referncia para avaliao de qualidade de vdeo digital baseada em uma rede neural artifcial que usa uma verso estendida do algoritmo de aprendizado ELM (Extreme Learning Machine). O mtodo proposto realiza o treinamento da rede neural a partir de seis caractersticas espao-temporais. Os resultados experimentais mostram que o mtodo proposto apresenta desempenho superior s mtricas de referncia completa PSNR e MS-SSIM na tarefa de predio de qualidade de vdeo. Logo, o mtodo proposto pode ser usado no monitoramento de qualidade em sistemas de transmisso e recepo de vdeo digital, tais como IPTV e TV digital.
Palavras chave: algoritmo ELM, avaliao objetiva de vdeo, mtrica sem referncia, rede neural artifcial.
1. INTRODUO
Durante os ltimos anos, a literatura tem apresentado um nmero crescente publicaes acerca de mtricas objetivas para avaliao de qualidade de vdeo para diversas aplicaes em radiodifuso ou no processamento de vdeo digital, seja na aquisio do sinal, codifcao e decodifcao, compresso, transmisso, restaurao, armazenamento, segmentao e exibio de sinais de vdeo digital [14]. A avaliao de qualidade de vdeo digital pode ser realizada por meio de mtricas subjetiva e objetiva. A primeira requer uma grande quantidade de recursos humanos e apresenta elevado custo em sua implementao [13]. Porm, as mtricas objetivas so vantajosas quando apresentam um determinado grau de correlao com as mtricas subjetivas. Logo, o desenvolvimento destas um desafo no campo de avaliao de qualidade de vdeo e imagem. Alm disso, as mtricas objetivas, devido natureza de seu critrio objetivo, independem de interao humana e so facilmente reprodutveis [3]. Dentre as mtricas objetivas destacam-se as mtricas sem referncia (No-Reference NR), pois no necessitam do vdeo de referncia no clculo de sua medida. Entretanto, estas requerem um conhecimento a priori sobre as distores em vdeo digital para que seja estabelecida uma correlao com os resultados subjetivos [3].
A maioria das mtricas NR encontradas na literatura so baseadas na avaliao de qualidade de imagens e em caractersticas relacionadas ao Sistema Visual Humano (SVH). Assim, o desenvolvimento de mtricas NR difcil, devido necessidade de emular a percepo do SVH que envolve aspectos cognitivos, emocionais e estticos relacionados ao contedo do vdeo e que so altamente dependentes do observador [4], [5].
A literatura reporta diversos esforos no desenvolvimento de mtricas para avaliao de qualidade de vdeo baseadas em redes neurais e em algoritmos de aprendizado. Babu et al. [6] apresentam uma mtrica para avaliar a qualidade de imagens comprimidas em JPEG (Joint Photographic Experts Group) por meio de um algoritmo de aprendizado de crescimento e propem o uso de uma rede neural GAP-RBF (Growing and Pruning Radial Basis Function) que usa caractersticas relacionadas ao SVH. Jiang et al. [7] desenvolveram uma mtrica NR para avaliao de qualidade de vdeo em HD (High Defnition) baseada em uma rede neural treinada pelo algoritmo BP (Back-Propagation) que usa seis caractersticas espao-temporais e a RoI (Region of Interest). Choe et al. [8] desenvolveram uma mtrica NR baseada no fuxo de bits para avaliao de qualidade de vdeo codifcado em H.264. Esta mtrica extrai caractersticas quadro a quadro e usa uma rede neural alimentada adiante (feedforward) com trs camadas. Suresh et al. [9] apresentaram uma extenso do algoritmo ELM na tarefa de avaliar a qualidade de imagens comprimidas em JPEG com base no esquema de seleo mltipla KS-ELM (K-fold selection Scheme using ELM) e no algoritmo RCGA-ELM (Real-Coded Genetic Algorithm using ELM) para seleo dos pesos de entrada e polarizaes.
Este trabalho apresenta uma verso estendida do algoritmo ELM para redes neurais SLFN (Single-hidden-Layer Feedforward Neural Networks) que implementa um simples critrio de parada na fase de treinamento. Alm disso, esse mtodo usa seis caractersticas espao-temporais de vdeos submetidos a diversas condies de distoro.
Este artigo est dividido da seguinte maneira: a Seo 2 descreve as mtricas para avaliao de qualidade de vdeo. A Seo 3 descreve o mtodo NR proposto para avalio de qualidade de vdeo digital. A Seo 4 apresenta os resultados experimentais, em que so comparados o mtodo NR proposto e duas mtricas FR. Finalmente, a Seo 5 apresenta a concluso do artigo.
2. AVALIAO DE QUALIDADE DE VDEO
O processo de avaliao de qualidade de vdeo
pode ser realizado com a aplicao de mtricas
subjetivas ou objetivas. As mtricas subjetivas
estimam a qualidade do vdeo por meio de avaliadores
humanos. Logo, exigem um alto custo, pois
necessitam de uma grande quantidade de recursos
humanos e apresentam problemas quanto aos
requisitos de imparcialidade e reprodutibilidade,
tornando-se inapropriadas em sistemas de
radiodifuso ou em provedores de contedo [10], [11].
Por outro lado, as mtricas objetivas so baseadas em
modelos matemticos, cujo objetivo produzir um
escore de qualidade que emule a percepo do SVH.
Alm disso, as mtricas objetivas requerem baixo
custo de implementao (quando comparadas com as
mtricas subjetivas) e no apresentam problemas
quanto reprodutibilidade e imparcialidade.
As mtricas objetivas para avaliao de qualidade
de vdeo podem ser classifcadas em trs categorias:
(i) mtricas de referncia completa (Full-Reference
FR); (ii) mtricas de referncia reduzida (Reduced-
Reference RR); (iii) mtricas sem referncia (NR).
2.1. Mtricas FR
As mtricas FR requerem o vdeo de referncia
(fonte) no clculo do escore de qualidade. Estas
mtricas so amplamente utilizadas no processo de
validao de mtricas RR ou NR, por meio da
comparao de desempenho defnida pelas
recomendaes do Grupo de Especialistas em
Qualidade de Vdeo (VQEG Video Quality Experts
Group) que um rgo de padronizao internacional
de mtricas subjetivas e objetivas de qualidade de
vdeo. Dentre as mtricas FR, destacam-se o PSNR
(Peak Signal-to-Noise Ratio), SSIM (Structural
SIMilarity index) [12] e MS-SSIM (Multi-Scale
Structural SIMilarity index) [13].
O PSNR uma mtrica FR baseada no erro pixel a
pixel de fcil implementao. Entretanto, apresenta
baixa correlao com o SVH [14]. A sua medida
processada sobre o erro quadro a quadro, i.e., entre o
quadro original x e o quadro y . A expresso a seguir
defne o PSNR para um conjunto de quadros F .
20
1
1
PSNR 20log ,
F
f
f f
v
F MSE



(1)
com

2
0 0
1
MSE , , , , ,
N M
f
i j
x f i j y f i j
NM

(2)
em que o termo f v igual a (2 1) k , cujo k o
nmero de bits por pixel, i.e., a componente de
luminncia do quadro f . Os termos x f ,i, j e
y f ,i, j so os valores de luminncia do quadro de
origem e degradado, respectivamente. As
componentes bidimensionais so representadas pelo
nmero de colunas N e pelo nmero de linhas M . O
termo f MSE defnido como erro quadrtico mdio
ou MSE (Mean Square Error).
A mtrica SSIM baseia-se no fato de que o SVH
fortemente adaptado para extrair informaes das
caractersticas estruturais de um quadro ou imagem.
Logo, uma medida de similaridade estrutural (ou
distoro) pode prover boa aproximao para a
qualidade perceptual de um vdeo [3, 79]. Sejam x e
y dois sinais no-negativos, em que y o sinal
degradado e x o sinal original (sem perda de
qualidade), a medida de similaridade utilizada como
um ndice quantitativo de qualidade do sinal distorcido,
ou seja, x tomado como a referncia para medir a
qualidade de y . A mtrica SSIM possui diversas
extenses, dentre as quais a verso MS-SSIM,
proposta por Wang et al. [13] que assume uma
abordagem multiescalar.
2.2. Mtricas RR
As mtricas de referncia reduzida retiram certa
quantidade de caractersticas do vdeo original (fonte),
baseadas em componentes espaciais, temporais, no
domnio da frequncia ou no fuxo de bits (bitstream).
Este tipo de mtrica amplamente utilizada no
monitoramento de transmisses em rede [17]. Neste
tipo de cenrio de aplicao, o vdeo transmitido
com uma sequncia de informao codifcada
(overhead) e no lado receptor ocorre a sua
decodifcao, seguido pelo clculo do ndice de
qualidade, o qual obtido por meio da comparao
entre a representao reduzida da informao nos
pares emissor e receptor [18]. Tipicamente, mtricas
RR so implementadas por meio de funes, divididas
em duas etapas [19]: (i) clculo do erro entre os
vdeos original e distorcido, constitudo pela diferena
de suas caractersticas, a fm de compor a
representao reduzida da informao; (ii) funo que
agrupa os erros ou diferenas para obter um ndice de
qualidade global. Algumas mtricas RR exploram
propriedades dos artefatos, por meio da extrao de
caractersticas e um modelo de parametrizao [20]
com foco em tipos especfcos de distores
(artefatos). Esta abordagem encontrada em Silva et
al. [17], cujo clculo do escore de qualidade
baseado na diferena de atividade dos coefcientes
DCT (Discrete Cosine Transform) em um macro bloco
com resoluo de 1616 pixels.
2.3. Mtricas NR
As mtricas NR extraem caractersticas
relacionadas ao SVH do vdeo distorcido, i.e., na
recepo do sinal de vdeo [14]. Tipicamente, h duas
abordagens no desenvolvimento destas mtricas: (i)
extrao dos parmetros sobre o fuxo de bits, tais
como a taxa de compresso, informaes
relacionadas ao GoP (Group of Pictures), estimao
de movimento, perfl e nvel de codifcao, bem como
o parmetro de quantizao ou QP (Quantization
Parameter) [2125]. Mtricas NR apresentam maior
complexidade quando so aplicadas em vdeo, devido
variao temporal dos quadros, contedos das
cenas e difculdade de compreenso das
caractersticas do SVH [26]. Assim, algumas mtricas
dessa categoria exploram caractersticas espaciais e
temporais na estimao de qualidade de vdeo [21].
3. MTODO PROPOSTO
O mtodo proposto, denominado NRVQA-ELMtc
(No-Reference Video Quality Assessment using
Extreme Learning Machine algorithm with termination
criteria) [27] combina caractersticas espaciais e
temporais, por meio de uma rede neural artifcial
SLFNs usando o algoritmo de treinamento ELM [28]
com a implementao de um simples critrio de
parada.
3.1. Caractersticas espao-temporais
As caractersticas espaciais incorporadas no
mtodo proposto so baseadas em medidas de
artefatos em vdeo digital, i.e., distores de blocagem
e borramento desenvolvidas por Wang et al. [20].
Assim, a componente de luminncia do quadro f
representada por y(f , i, j ) com i 1,M e j 1, N ,
em que M e N so os nmeros de linhas e colunas,
respectivamente, de um quadro. Logo, as diferenas
de luminncia ao longo das linhas e colunas so
representadas, respectivamente, pelas expresses a
seguir.


, , , , 1 , , , 1, 1 ,
, , , 1, , , , 1, 1 .
h
v
d f i j y f i j y f i j j N
d f i j y f i j y f i j i M


(3)
O efeito de blocagem pode ser estimado pela
mdia das diferenas entre as bordas dos blocos da
DCT (Discrete Cosine Transform) nas direes
horizontal e vertical para uma sequncia F de
quadros, conforme mostra a Equao (4), com um
macrobloco de dimenso , cujo tamanho tpico
de 8 [20].


1
1
1 1 1
1
1
1 1 1
1
, , 1 ,
1
1
1
, 1 , .
1
1
N
F M
h h
f i j
M
F N
v
i j
v
f
B d f i j
N
F M
B d f i j
M
F N












(4)
A medida de blocagem em uma sequncia de
vdeo com F quadros determinada pela mdia entre
h B e v B , caracterizando a medida B , conforme a
expresso a seguir.
.
2
h v B B
B

(5)
Os efeitos de borramento so estimados pelo
clculo da reduo de atividade entre os blocos ,
em que usada a medida de blocagem nas direes
horizontal e vertical, conforme as expresses




1
1 1 1
1
1 1 1
, , ,
1 1
, ,
1
.
1
F M N
h h h
f i j
F M N
v v
f
v
i j
A d f i j B
F M N
A d f i j B
F N M








(6)
A medida de borramento, representada por A ,
conforme a Equao (7), determinada pela mdia
entre h A e v A .
.
2
h v A A
A

(7)
O segundo fator que contribui para a deteco do
artefato de borramento baseado na taxa de
cruzamento por zero (Zero Crossing ZC) nas
direes horizontal e vertical, conforme as expresses
a seguir.




2
1 1 1
2
1 1 1
1
, , ,
2
1
, , ,
2
F M N
h h
f i j
F M N
v v
f i j
Z z f i j
F M N
Z z f i j
F N M




(8)
em que os termos h z e v z so determinados por


1, na direo horizontal
, , ,
0, caso contrrio
1, na direo vertical
, , .
0, caso contrrio
h
v
z f i j
z f i j



(9)
Assim, a medida de borramento Z determinada
pela mdia entre as componentes h Z e v Z .
.
2
h v Z Z
Z

(10)
O mtodo proposto tambm incorpora trs
caractersticas temporais no treinamento da rede
neural SLFN com o algoritmo ELM.
A primeira caracterstica temporal a diferena de
movimento entre quadros adjacentes, representada
pela varivel TI (Temporal perceptual Information) [31]
que considera os valores de luminncia de pixels
localizados em uma mesma regio de um quadro,
conforme a expresso a seguir.

2
1
, , ,
1
F
f
TI m f i j
F


(11)
em que o nmero total de quadros F e mf ,i, j

o desvio padro da diferena de movimento
(diferena de luminncia) entre o quadro atual
y f ,i, j e o quadro anterior y f 1,i, j .
A segunda caracterstica temporal a mdia da
diferena absoluta (Mean Absolute Diference MAD)
[31] entre quadros sucessivos, representada pela
Equao (12) que defne a medida global da MAD
para todos os quadros de um vdeo.


2 1 1
1
, , 1, , .
1
F M N
f i j
MAD y f i j y f i j
M N F



(12)
A terceira caracterstica temporal a mdia da
diferena absoluta ponderada (weighted Mean
Absolute Diference MADw) [32], a qual mede o grau
de variao das cenas de um vdeo que considera a
cena atual de um quadro f e do quadro anterior f 1,
conforme a expresso:
2 1
1
.
1
F
f
f f
MAD
MADw
F MAD


(13)
Assim, o mtodo proposto combina as
caractersticas espaciais e temporais em uma matriz
, , , , , f f f f f f f x A B Z TI MAD MADw , em que f o
nmero de amostras de vdeo. A Figura 1 apresenta
as caractersticas temporais espaciais de dezessete
bases de dados de vdeos (denominada superconjunto
S) usadas neste trabalho e reportadas em [27]. A
recomendao ITU-T P.910 [31] defne a medida SI
(Spatial perceptual Information) como informao
espacial perceptual. A inspeo visual dessa fgura
mostra que as amostras de vdeo usadas neste
trabalho apresentam uma grande variao espaotemporal.
Fig. 1. Caractersticas espaciais e temporais do superconjunto
S com 216 amostras de referncia
3.2. Mtrica NRVQA-ELMtc
O algoritmo ELM [28] desenvolvido para o
treinamento de uma rede SLFN atribui pesos e
polarizaes (biases) de maneira aleatria, segundo
uma distribuio uniforme. O treinamento compreende
N amostras distintas representadas pela varivel
, , , 1, , n m
f f f f x t x t f N , cujo clculo
conforme a expresso

1
, 1, , ,
K
K i j j f j f
f
f g b f N

x w x o (14)
em que f o a sada (escore objetivo), g(x) a
funo de ativao e j o peso que conecta o jsimo
neurnio da camada oculta ao neurnio de
sada. De acordo com [28], uma rede SLFN com K
ns na camada oculta e uma funo de ativao g(x)
pode apresentar um erro mdio prximo de zero, i.e.,
1
0
K
f f
f
o t . Logo, h parmetros j , j w e j b tal
que

1
, 1, , ,
K
j j f j f
f
g b f N

w x t (15)
em que f t o vetor alvo (escores subjetivos),
T
1, , j j jn w w w o vetor de peso que conecta o jsimo
neurnio da camada oculta ao neurnio da
camada de entrada, j b denota a polarizao (bias) do
j-simo neurnio da camada oculta, j f w x o
produto interno de j w e f x . A Figura 2 ilustra o
algoritmo ELM empregado em uma arquitetura de
rede neural SLFN.
xi
1
j
N
1
j
K
ti
bj
N input neuron K hidden neuron output neuron
1
K
wj
Fig. 2. Arquitetura de uma rede neural SLFN usando algoritmo
de treinamento ELM
O sistema linear da Equao (16) resume o mtodo
do algoritmo ELM.
H T, (16)
em que a matriz da camada oculta representada por
1, , and 1, , f H h f N j K com a primeira
linha da matriz de caractersticas f x igual a
T
1 2 , , , f f f fn x x x x , i.e., a primeira linha igual a
1 1 1 1 1 1 1 , , , , , f f f f f f f x A B Z TI MAD MADw . A matriz de
sada e o vetor alvo (target) so defnidos como
T
1 , K e
T
1, , N T t t , respectivamente. O
termo
T
1 , 1, , j jm j j K denota o vetor de
peso que conecta o j-simo neurnio da camada
oculta e os neurnios de sada. Hung et al. [28]
propuseram a atribuio aleatria de pesos aos
parmetros j w e j b , a fm de seja obtido um pequeno
erro no-nulo durante o treinamento. Considerando o
sistema linear da Equao (17), os pesos da camada
de sada podem ser aproximados por
H T (17)
em que H defnida como matriz inversa
generalizada de Moore-Penrose (MP) [33] da matriz
de sada da camada oculta H . Alm disso, o
conjunto de treinamento , n oculta K e uma
funo de ativao g x , e.g., funo de base radial
(Radial Basis Function RBF), hard-limiting (hardlim),
sigmoidal (sig) e seno (sin). Em resumo, o algoritmo
ELM compreende trs etapas [28]:
i) Atribuio aleatria dos pesos de entrada j w e
polarizaes j b ;
ii) Clculo da matriz da camada de sada H ;
iii) Clculo dos pesos de sada : H T .
O mtodo NRVQA-ELMtc [27] implementa um
simples critrio de parada no treinamento da rede
neural SLFN, quanto atribuio aleatria dos pesos
j w e j b . Embora este critrio no seja direcionado,
busca os pesos relacionados com o menor RMSE
(Root-Mean-Square Error) entre a sada desejada
(escore subjetivo) e o escore objetivo na fase de
treinamento com k iteraes (tipicamente, k 100 ) e
N neurnios na camada oculta. Alm disso, conforme
estudo realizado em [27], caso o RMSE seja menor do
que 0,5 o algoritmo cessa a busca pelos parmetros
j w e j b .
4. RESULTADOS EXPERIMENTAIS
Esta seo apresenta os resultados de acurcia,
i.e., os coefcientes de correlao linear de Pearson
(Pearson Linear Correlation Coefcient PLCC) [34],
[35], entre os escores objetivos e subjetivos de 2627
amostras de vdeo estudadas em [27].
A Figura 3 compara a acurcia (PLCC) entre as
mtricas de referncia completa (FR) PSNR e MSSSIM
com o mtodo proposto (NRVQA-ELMtc) para
as 2627 amostras de vdeo, pertencentes a 17 bases
de dados de vdeo disponibilizadas por diversas
instituies e laboratrios [27]. A funo de ativao
usada na rede neural SLFN foi o seno (sin) com o
nmero de amostras de teste igual ao nmero de
neurnios na camada oculta ( N ). O mtodo de
validao cruzada mltipla (K-fold) foi usado com o
objetivo de gerar uma distribuio de acurcia, a qual
foi analisada por meio do diagrama de caixa (box-plot)
[36], em que o trao, o crculo e o quadrado, ambos
em vermelho, representam a mediana, a mdia e o
desvio padro, respectivamente. Destaca-se que
neste trabalho foi empregada uma validao cruzada
com um grande nmero de amostras de treinamentoteste
com K 100 , i.e., cada caixa do box-plot
comporta 100 experimentos distintos. Tipicamente, a
literatura apresenta trabalhos no campo da avaliao
Fig. 3. Box-plot da predio da acurcia (PLCC) entre as mtricas PSNR, MS-SSIM e o mtodo proposto NRVQA-ELMtc
de qualidade de vdeo com K entre 5 e 10 [37], [38].
Pela inspeo visual da Figura 3 observa-se que o
desempenho do mtodo proposto superior s
mtricas FR, em quaisquer condies de teste, i.e.,
para qualquer quantidade de amostras de teste
(nmero de neurnios na camada oculta) entre 25 e
500. Em especial, para N 50 , o mtodo proposto
apresenta valores de PLCC, em termos da mdia e
mediana, acima de 0,8, denotando uma forte
associao entre os escores objetivos e subjetivos, na
tarefa de predio de qualidade de vdeo. Isto ocorre
devido grande quantidade de amostras de vdeo
usadas no treinamento, e.g., para N 300 foram
usadas 2327 amostras de treinamento, ou seja,
mesmo usando pares de treinamento-teste disjuntos,
o mtodo proposto mostra uma acurcia superior s
mtricas de referncia completa. A assimetria positiva,
i.e., a maior concentrao da acurcia entre o
segundo quartil (mediana) e o terceiro quartil, na
distribuio do box-plot nos testes com 300 e 500
neurnios na camada oculta, indica que o mtodo
proposto apresenta um desempenho expressivo em
comparao com as mtricas FR.
Entretanto, mesmo para N entre 25 e 50, o
mtodo proposto apresentou uma acurcia maior do
que as mtricas FR, cujo melhor resultado foi para
N 25 com o desvio-quartil (amplitude interquartlica)
confnado entre 0,65 e 0,8. Alm disso, este resultado
tambm apresentou assimetria positiva com a mdia
do PLCC em torno de 0,75.
5. CONCLUSO
Este trabalho apresentou uma mtrica NR baseada
em uma rede neural artifcial SLFN, cujo treinamento
determinado pelo algoritmo ELM, o qual considera
caractersticas espao-temporais e os escores
subjetivos (alvos) extrados de 2627 amostras
treinamento. Alm disso, este trabalho prope uma
extenso do algoritmo ELM por meio de um simples
critrio de parada, a fm de que sejam obtidos
parmetros da rede neural artifcial relacionados com
o menor RMSE. Tipicamente, a comparao entre
mtricas FR e NR injusta, devido ausncia do
vdeo de referncia na obteno do escore de
qualidade em mtricas NR. Entretanto, os resultados
experimentais mostram que o mtodo proposto
apresentou desempenho superior s mtricas de
referncia completa PSNR e MS-SSIM, sobretudo,
quando o nmero de amostras de teste e de neurnios
na camada oculta da rede SLFN maior do que 250.
Logo, a mtrica NRVQA-ELMtc pode ser empregada
no monitoramento de qualidade em sistemas de
transmisso e recepo de vdeo digital, tais como
IPTV (Internet Protocol Television), TV digital ou em
dispositivos mveis, tais como ultrabooks,
smartphones, tablets e em aparelhos WiDi (Wireless
Display).
REFERNCIAS
[1] S. Winkler, Issues in vision modeling for perceptual
video quality assessment, Signal Processing, vol. 78,
no. 2, pp. 231252, 1999.
[2] Z. Wang and A. C. Bovik, Modern image quality
assessment. San Rafael, CA: Morgan & Claypool,
2006.
[3] W. Lin and C.-C. Jay Kuo, Perceptual visual quality
metrics: A survey, Journal of Visual Communication
and Image Representation, vol. 22, no. 4, pp. 297312,
May 2011.
[4] S. S. Hemami and A. R. Reibman, No-reference image
and video quality estimation: Applications and humanmotivated
design, Signal Processing: Image
Communication, vol. 25, no. 7, pp. 469481, 2010.
[5] Z. Wang and A. Bovik, Reduced- and No-Reference
Image Quality Assessment, IEEE Signal Processing
Magazine, vol. 28, no. 6, pp. 2940, Nov. 2011.
[6] R. V. Babu, S. Suresh, and A. Perkis, No-reference
JPEG-image quality assessment using GAP-RBF,
Signal Processing, vol. 87, no. 6, pp. 14931503, 2007.
[7] X. Jiang, F. Meng, J. Xu, and W. Zhou, No-Reference
Perceptual Video Quality Measurement for High
Defnition Videos Based on an Artifcial Neural
Network, in Computer and Electrical Engineering,
2008. ICCEE 2008. International Conference on, 2008,
pp. 424427.
[8] J. Choe, K. Lee, C. Lee, and S. Korea, No-reference
video quality measurement using neural networks, in
2009 16th International Conference on Digital Signal
Processing, 2009, pp. 14.
[9] S. Suresh, R. Venkatesh Babu, and H. J. Kim, Noreference
image quality assessment using modifed
extreme learning machine classifer, Applied Soft
Computing, vol. 9, no. 2, pp. 541552, Mar. 2009.
[10] A. M. Eskicioglu and P. S. Fisher, Image quality
measures and their performance, IEEE Transactions
on Communications, vol. 43, no. 12, pp. 29592965,
1995.
[11] U. Engelke and H.-J. Zepernick, Perceptual-based
Quality Metrics for Image and Video Services: A
Survey, in Proceedings EuroNGI Conf. Next
Generation Internet Networks, 2007, pp. 190197.
[12] Z. Wang, A. C. Bovik, H. R. Sheikh, and E. P
Simoncelli, Image quality assessment: from error
visibility to structural similarity., IEEE Transactions on
Image Processing, vol. 13, no. 4, pp. 600612, 2004.
[13] Z. Wang, E. P. Simoncelli, and A. C. Bovik, Multiscale
structural similarity for image quality assessment, in
The Thrity-Seventh Asilomar Conference on Signals,
Systems & Computers, 2003, 2003, vol. 2, no. 1, pp.
13981402.
[14] H. R. Wu, K. R. Rao, and A. A. Kassim, Digital Video
Image Quality and Perceptual Coding, Journal of
Electronic Imaging, vol. 16, no. 3, 2007.
[15] Z. Wang and A. C. Bovik, A universal image quality
index, IEEE Signal Processing Letters, vol. 9, no. 3,
pp. 8184, Mar. 2002.
[16] Y. Shi, Y. Ding, R. Zhang, and J. Li, Structure and Hue
Similarity for Color Image Quality Assessment, in 2009
International Conference on Electronic Computer
Technology, 2009, pp. 329333.
[17] W. B. Silva, A. A. P. Pohl, and K. V. O. Fonseca, A
Reduced-Reference Video Quality Assessment Method
based on the Activity-Diference of DCT Coefcients,
IEICE Transactions on Information and Systems, vol. E96-D, no. 3, 2013.
[18] P. Le Callet, C. Viard-Gaudin, and D. Barba, A Convolutional Neural Network Approach for Objective Video Quality Assessment, IEEE Transactions on Neural Networks, vol. 17, no. 5, pp. 13161327, 2006.
[19] P. Le Callet and D. Barba, Image Quality Assessment: From Sites Errors to a Global Appreciation of Quality, in Proceedings of the Picture Coding Sympsium, 2001, pp. 105108.
[20] M. Miyahara, K. Kotani, and V. R. Algazi, Objective picture quality scale (PQS) for image coding, IEEE Transactions on Communications, vol. 46, no. 9, pp. 12151226, 1998.
[21] M. Slanina, V. Ricny, and R. Forchheimer, A Novel Metric for H.264/AVC No-Reference Quality Assessment, in 14th International Workshop on Systems, Signals and Image Processing and 6th EURASIP Conference focused on Speech and Image Processing, Multimedia Communications and Services, 2007, pp. 114117.
[22] O. Sugimoto, S. Naito, S. Sakazawa, and A. Koike, Objective perceptual video quality measurement method based on hybrid no reference framework, in 16th IEEE International Conference on Image Processing (ICIP09), 2009, pp. 22372240.
[23] T. Oelbaum, C. Keimel, and K. Diepold, Rule-Based No-Reference Video Quality Evaluation Using Additionally Coded Videos, IEEE Journal of Selected Topics in Signal Processing, vol. 3, no. 2, pp. 294303, 2009.
[24] N. Staelens, N. Vercammen, Y. Dhondt, B. Vermeulen, P. Lambert, R. de Walle, and P. Demeester, ViQID: A No-Reference bit stream-based visual quality impairment detector, in Proceedings of the Second Int Quality of Multimedia Experience (QoMEX) Workshop, 2010, pp. 206211.
[25] F. Yang, S. Wan, Q. Xie, and H. R. Wu, No-Reference Quality Assessment for Networked Video via Primary Analysis of Bit Stream, IEEE Transactions on Circuits and Systems for Video Technology, vol. 20, no. 11, pp. 15441554, Nov. 2010.
[26] Z. Wang, H. R. Sheikh, and A. C. Bovik, Objective Video Quality Assessment, in The Handbook of Video Databases: Design and Applications, B. Furht and O. Marques, Eds. Boca Raton, FL, USA: CRC Press, 2003, pp. 10411078.
[27] W. B. da Silva and A. de A. P. Pohl, Mtodos Sem Referncia Baseados em Caractersticas Espao-Temporais para Avaliao Objetiva de Qualidade de Vdeo Digital, Universidade Tecnolgica Federal do Paran (UTFPR), 2013.
[28] G.-B. Huang, Q.-Y. Zhu, and C.-K. Siew, Extreme learning machine: Theory and applications, Neurocomputing, vol. 70, no. 13, pp. 489501, Dec. 2006.
[29] Z. Wang, H. R. Sheikh, and A. C. Bovik, No-reference perceptual quality assessment of JPEG compressed images, in Image Processing. 2002. Proceedings. IEEE International Conference on Image Processing, 2002, vol. 1, pp. vol.1 I477 I480.
[30] W. B. Silva and A. A. P. Pohl, No-Reference Video Quality Assessment Method based on the Levenberg-Marquardt Minimization, in XXX Brazilian Symposium on Telecommunications (SBrT12), 2012.
[31] ITU-T P.910, Subjective video quality assessment methods for multimedia applications, Standardization Sector of ITU, 1999.
[32] W. Ding, Y. Tong, Q. Zhang, and D. Yang, Image and Video Quality Assessment Using Neural Network and SVM, Tsinghua Science &amp; Technology, vol. 13, no. 1, pp. 112116, 2008.
[33] K. S. Banerjee, C. R. Rao, and S. K. Mitra, Generalized Inverse of Matrices and Its Applications, Technometrics, vol. 15, no. 1, p. 197, Feb. 1973.
[34] VQEG, Final report from the video quality experts group on the validation of reduced-reference and no-reference objective models for standard defnition television, Phase I, 2009.
[35] VQEG, Report on the validation of video quality models for high defnition video content, 2010.
[36] J. W. Tukey, Exploratory Data Analysis. New York: Addison-Wesley Publishing Company, 1977.
[37] P. Gastaldo and R. Zunino, Neural networks for the no-reference assessment of perceived quality, J. Electronic Imaging, vol. 14, no. 3, p. 033004, 2005.
[38] R. Herzog, M. adk, T. O. Aydn, K. I. Kim, K. Myszkowski, and H.-P. Seidel, NoRM: No-Reference Image Quality Metric for Realistic Image Synthesis, Comp. Graph. Forum, vol. 31, no. 2pt4, pp. 545554, 2012.
A televiso a seu tempo: Netflix inova com produo
de contedo para o pblico assistir como e quando
achar melhor, mesmo que seja tudo de uma vez
Juliana Kulesza
juliana.kulesza@gmail.com
Ulysses de Santi Bibbo
ulysses375@gmail.com
44 Revista de Radiodifuso v. 07 n. 08 2013
Pesquisas em ambientes digitais - TV Internet Radio Cinema
Pesquisas em ambientes digitais - TV Internet Radio Cinema
Revista de Radiodifuso v. 07 n. 08 2013 45
MTRICA SEM REFERNCIA BASEADA EM REDES NEURAIS
PARA AVALIAO OBJETIVA DE QUALIDADE DE VDEO DIGITAL
Wyllian Bezerra da Silva, Alexandre de Almeida Prado Pohl
Programa de Ps-Graduao em Engenharia Eltrica e Informtica Industrial (CPGEI) UTFPR, Curitiba, Brasil
wyllianbs@gmail.com, pohl@utfpr.edu.br
Resumo: Este trabalho apresenta uma mtrica sem referncia para avaliao de qualidade de vdeo digital baseada em uma rede neural artifcial que usa uma verso estendida do algoritmo de aprendizado ELM (Extreme Learning Machine). O mtodo proposto realiza o treinamento da rede neural a partir de seis caractersticas espao-temporais. Os resultados experimentais mostram que o mtodo proposto apresenta desempenho superior s mtricas de referncia completa PSNR e MS-SSIM na tarefa de predio de qualidade de vdeo. Logo, o mtodo proposto pode ser usado no monitoramento de qualidade em sistemas de transmisso e recepo de vdeo digital, tais como IPTV e TV digital.
Palavras chave: algoritmo ELM, avaliao objetiva de vdeo, mtrica sem referncia, rede neural artifcial.
1. INTRODUO
Durante os ltimos anos, a literatura tem apresentado um nmero crescente publicaes acerca de mtricas objetivas para avaliao de qualidade de vdeo para diversas aplicaes em radiodifuso ou no processamento de vdeo digital, seja na aquisio do sinal, codifcao e decodifcao, compresso, transmisso, restaurao, armazenamento, segmentao e exibio de sinais de vdeo digital [14]. A avaliao de qualidade de vdeo digital pode ser realizada por meio de mtricas subjetiva e objetiva. A primeira requer uma grande quantidade de recursos humanos e apresenta elevado custo em sua implementao [13]. Porm, as mtricas objetivas so vantajosas quando apresentam um determinado grau de correlao com as mtricas subjetivas. Logo, o desenvolvimento destas um desafo no campo de avaliao de qualidade de vdeo e imagem. Alm disso, as mtricas objetivas, devido natureza de seu critrio objetivo, independem de interao humana e so facilmente reprodutveis [3]. Dentre as mtricas objetivas destacam-se as mtricas sem referncia (No-Reference NR), pois no necessitam do vdeo de referncia no clculo de sua medida. Entretanto, estas requerem um conhecimento a priori sobre as distores em vdeo digital para que seja estabelecida uma correlao com os resultados subjetivos [3].
A maioria das mtricas NR encontradas na literatura so baseadas na avaliao de qualidade de imagens e em caractersticas relacionadas ao Sistema Visual Humano (SVH). Assim, o desenvolvimento de mtricas NR difcil, devido necessidade de emular a percepo do SVH que envolve aspectos cognitivos, emocionais e estticos relacionados ao contedo do vdeo e que so altamente dependentes do observador [4], [5].
A literatura reporta diversos esforos no desenvolvimento de mtricas para avaliao de qualidade de vdeo baseadas em redes neurais e em algoritmos de aprendizado. Babu et al. [6] apresentam uma mtrica para avaliar a qualidade de imagens comprimidas em JPEG (Joint Photographic Experts Group) por meio de um algoritmo de aprendizado de crescimento e propem o uso de uma rede neural GAP-RBF (Growing and Pruning Radial Basis Function) que usa caractersticas relacionadas ao SVH. Jiang et al. [7] desenvolveram uma mtrica NR para avaliao de qualidade de vdeo em HD (High Defnition) baseada em uma rede neural treinada pelo algoritmo BP (Back-Propagation) que usa seis caractersticas espao-temporais e a RoI (Region of Interest). Choe et al. [8] desenvolveram uma mtrica NR baseada no fuxo de bits para avaliao de qualidade de vdeo codifcado em H.264. Esta mtrica extrai caractersticas quadro a quadro e usa uma rede neural alimentada adiante (feedforward) com trs camadas. Suresh et al. [9] apresentaram uma extenso do algoritmo ELM na tarefa de avaliar a qualidade de imagens comprimidas em JPEG com base no esquema de seleo mltipla KS-ELM (K-fold selection Scheme using ELM) e no algoritmo RCGA-ELM (Real-Coded Genetic Algorithm using ELM) para seleo dos pesos de entrada e polarizaes.
Este trabalho apresenta uma verso estendida do algoritmo ELM para redes neurais SLFN (Single-hidden-Layer Feedforward Neural Networks) que implementa um simples critrio de parada na fase de treinamento. Alm disso, esse mtodo usa seis caractersticas espao-temporais de vdeos submetidos a diversas condies de distoro.
Este artigo est dividido da seguinte maneira: a Seo 2 descreve as mtricas para avaliao de qualidade de vdeo. A Seo 3 descreve o mtodo NR proposto para avalio de qualidade de vdeo digital. A Seo 4 apresenta os resultados experimentais, em que so comparados o mtodo NR proposto e duas mtricas FR. Finalmente, a Seo 5 apresenta a concluso do artigo.
2. AVALIAO DE QUALIDADE DE VDEO
O processo de avaliao de qualidade de vdeo
pode ser realizado com a aplicao de mtricas
subjetivas ou objetivas. As mtricas subjetivas
estimam a qualidade do vdeo por meio de avaliadores
humanos. Logo, exigem um alto custo, pois
necessitam de uma grande quantidade de recursos
humanos e apresentam problemas quanto aos
requisitos de imparcialidade e reprodutibilidade,
tornando-se inapropriadas em sistemas de
radiodifuso ou em provedores de contedo [10], [11].
Por outro lado, as mtricas objetivas so baseadas em
modelos matemticos, cujo objetivo produzir um
escore de qualidade que emule a percepo do SVH.
Alm disso, as mtricas objetivas requerem baixo
custo de implementao (quando comparadas com as
mtricas subjetivas) e no apresentam problemas
quanto reprodutibilidade e imparcialidade.
As mtricas objetivas para avaliao de qualidade
de vdeo podem ser classifcadas em trs categorias:
(i) mtricas de referncia completa (Full-Reference
FR); (ii) mtricas de referncia reduzida (Reduced-
Reference RR); (iii) mtricas sem referncia (NR).
2.1. Mtricas FR
As mtricas FR requerem o vdeo de referncia
(fonte) no clculo do escore de qualidade. Estas
mtricas so amplamente utilizadas no processo de
validao de mtricas RR ou NR, por meio da
comparao de desempenho defnida pelas
recomendaes do Grupo de Especialistas em
Qualidade de Vdeo (VQEG Video Quality Experts
Group) que um rgo de padronizao internacional
de mtricas subjetivas e objetivas de qualidade de
vdeo. Dentre as mtricas FR, destacam-se o PSNR
(Peak Signal-to-Noise Ratio), SSIM (Structural
SIMilarity index) [12] e MS-SSIM (Multi-Scale
Structural SIMilarity index) [13].
O PSNR uma mtrica FR baseada no erro pixel a
pixel de fcil implementao. Entretanto, apresenta
baixa correlao com o SVH [14]. A sua medida
processada sobre o erro quadro a quadro, i.e., entre o
quadro original x e o quadro y . A expresso a seguir
defne o PSNR para um conjunto de quadros F .
20
1
1
PSNR 20log ,
F
f
f f
v
F MSE



(1)
com

2
0 0
1
MSE , , , , ,
N M
f
i j
x f i j y f i j
NM

(2)
em que o termo f v igual a (2 1) k , cujo k o
nmero de bits por pixel, i.e., a componente de
luminncia do quadro f . Os termos x f ,i, j e
y f ,i, j so os valores de luminncia do quadro de
origem e degradado, respectivamente. As
componentes bidimensionais so representadas pelo
nmero de colunas N e pelo nmero de linhas M . O
termo f MSE defnido como erro quadrtico mdio
ou MSE (Mean Square Error).
A mtrica SSIM baseia-se no fato de que o SVH
fortemente adaptado para extrair informaes das
caractersticas estruturais de um quadro ou imagem.
Logo, uma medida de similaridade estrutural (ou
distoro) pode prover boa aproximao para a
qualidade perceptual de um vdeo [3, 79]. Sejam x e
y dois sinais no-negativos, em que y o sinal
degradado e x o sinal original (sem perda de
qualidade), a medida de similaridade utilizada como
um ndice quantitativo de qualidade do sinal distorcido,
ou seja, x tomado como a referncia para medir a
qualidade de y . A mtrica SSIM possui diversas
extenses, dentre as quais a verso MS-SSIM,
proposta por Wang et al. [13] que assume uma
abordagem multiescalar.
2.2. Mtricas RR
As mtricas de referncia reduzida retiram certa
quantidade de caractersticas do vdeo original (fonte),
baseadas em componentes espaciais, temporais, no
domnio da frequncia ou no fuxo de bits (bitstream).
Este tipo de mtrica amplamente utilizada no
monitoramento de transmisses em rede [17]. Neste
tipo de cenrio de aplicao, o vdeo transmitido
com uma sequncia de informao codifcada
(overhead) e no lado receptor ocorre a sua
decodifcao, seguido pelo clculo do ndice de
qualidade, o qual obtido por meio da comparao
entre a representao reduzida da informao nos
pares emissor e receptor [18]. Tipicamente, mtricas
RR so implementadas por meio de funes, divididas
em duas etapas [19]: (i) clculo do erro entre os
vdeos original e distorcido, constitudo pela diferena
de suas caractersticas, a fm de compor a
representao reduzida da informao; (ii) funo que
agrupa os erros ou diferenas para obter um ndice de
qualidade global. Algumas mtricas RR exploram
propriedades dos artefatos, por meio da extrao de
caractersticas e um modelo de parametrizao [20]
com foco em tipos especfcos de distores
(artefatos). Esta abordagem encontrada em Silva et
al. [17], cujo clculo do escore de qualidade
baseado na diferena de atividade dos coefcientes
DCT (Discrete Cosine Transform) em um macro bloco
com resoluo de 1616 pixels.
2.3. Mtricas NR
As mtricas NR extraem caractersticas
relacionadas ao SVH do vdeo distorcido, i.e., na
recepo do sinal de vdeo [14]. Tipicamente, h duas
abordagens no desenvolvimento destas mtricas: (i)
extrao dos parmetros sobre o fuxo de bits, tais
como a taxa de compresso, informaes
relacionadas ao GoP (Group of Pictures), estimao
de movimento, perfl e nvel de codifcao, bem como
o parmetro de quantizao ou QP (Quantization
Parameter) [2125]. Mtricas NR apresentam maior
complexidade quando so aplicadas em vdeo, devido
variao temporal dos quadros, contedos das
cenas e difculdade de compreenso das
caractersticas do SVH [26]. Assim, algumas mtricas
dessa categoria exploram caractersticas espaciais e
temporais na estimao de qualidade de vdeo [21].
3. MTODO PROPOSTO
O mtodo proposto, denominado NRVQA-ELMtc
(No-Reference Video Quality Assessment using
Extreme Learning Machine algorithm with termination
criteria) [27] combina caractersticas espaciais e
temporais, por meio de uma rede neural artifcial
SLFNs usando o algoritmo de treinamento ELM [28]
com a implementao de um simples critrio de
parada.
3.1. Caractersticas espao-temporais
As caractersticas espaciais incorporadas no
mtodo proposto so baseadas em medidas de
artefatos em vdeo digital, i.e., distores de blocagem
e borramento desenvolvidas por Wang et al. [20].
Assim, a componente de luminncia do quadro f
representada por y(f , i, j ) com i 1,M e j 1, N ,
em que M e N so os nmeros de linhas e colunas,
respectivamente, de um quadro. Logo, as diferenas
de luminncia ao longo das linhas e colunas so
representadas, respectivamente, pelas expresses a
seguir.


, , , , 1 , , , 1, 1 ,
, , , 1, , , , 1, 1 .
h
v
d f i j y f i j y f i j j N
d f i j y f i j y f i j i M


(3)
O efeito de blocagem pode ser estimado pela
mdia das diferenas entre as bordas dos blocos da
DCT (Discrete Cosine Transform) nas direes
horizontal e vertical para uma sequncia F de
quadros, conforme mostra a Equao (4), com um
macrobloco de dimenso , cujo tamanho tpico
de 8 [20].


1
1
1 1 1
1
1
1 1 1
1
, , 1 ,
1
1
1
, 1 , .
1
1
N
F M
h h
f i j
M
F N
v
i j
v
f
B d f i j
N
F M
B d f i j
M
F N












(4)
A medida de blocagem em uma sequncia de
vdeo com F quadros determinada pela mdia entre
h B e v B , caracterizando a medida B , conforme a
expresso a seguir.
.
2
h v B B
B

(5)
Os efeitos de borramento so estimados pelo
clculo da reduo de atividade entre os blocos ,
em que usada a medida de blocagem nas direes
horizontal e vertical, conforme as expresses




1
1 1 1
1
1 1 1
, , ,
1 1
, ,
1
.
1
F M N
h h h
f i j
F M N
v v
f
v
i j
A d f i j B
F M N
A d f i j B
F N M








(6)
A medida de borramento, representada por A ,
conforme a Equao (7), determinada pela mdia
entre h A e v A .
.
2
h v A A
A

(7)
O segundo fator que contribui para a deteco do
artefato de borramento baseado na taxa de
cruzamento por zero (Zero Crossing ZC) nas
direes horizontal e vertical, conforme as expresses
a seguir.




2
1 1 1
2
1 1 1
1
, , ,
2
1
, , ,
2
F M N
h h
f i j
F M N
v v
f i j
Z z f i j
F M N
Z z f i j
F N M




(8)
em que os termos h z e v z so determinados por


1, na direo horizontal
, , ,
0, caso contrrio
1, na direo vertical
, , .
0, caso contrrio
h
v
z f i j
z f i j



(9)
Assim, a medida de borramento Z determinada
pela mdia entre as componentes h Z e v Z .
.
2
h v Z Z
Z

(10)
O mtodo proposto tambm incorpora trs
caractersticas temporais no treinamento da rede
neural SLFN com o algoritmo ELM.
A primeira caracterstica temporal a diferena de
movimento entre quadros adjacentes, representada
pela varivel TI (Temporal perceptual Information) [31]
que considera os valores de luminncia de pixels
localizados em uma mesma regio de um quadro,
conforme a expresso a seguir.

2
1
, , ,
1
F
f
TI m f i j
F


(11)
em que o nmero total de quadros F e mf ,i, j

o desvio padro da diferena de movimento
(diferena de luminncia) entre o quadro atual
y f ,i, j e o quadro anterior y f 1,i, j .
A segunda caracterstica temporal a mdia da
diferena absoluta (Mean Absolute Diference MAD)
[31] entre quadros sucessivos, representada pela
Equao (12) que defne a medida global da MAD
para todos os quadros de um vdeo.


2 1 1
1
, , 1, , .
1
F M N
f i j
MAD y f i j y f i j
M N F



(12)
A terceira caracterstica temporal a mdia da
diferena absoluta ponderada (weighted Mean
Absolute Diference MADw) [32], a qual mede o grau
de variao das cenas de um vdeo que considera a
cena atual de um quadro f e do quadro anterior f 1,
conforme a expresso:
2 1
1
.
1
F
f
f f
MAD
MADw
F MAD


(13)
Assim, o mtodo proposto combina as
caractersticas espaciais e temporais em uma matriz
, , , , , f f f f f f f x A B Z TI MAD MADw , em que f o
nmero de amostras de vdeo. A Figura 1 apresenta
as caractersticas temporais espaciais de dezessete
bases de dados de vdeos (denominada superconjunto
S) usadas neste trabalho e reportadas em [27]. A
recomendao ITU-T P.910 [31] defne a medida SI
(Spatial perceptual Information) como informao
espacial perceptual. A inspeo visual dessa fgura
mostra que as amostras de vdeo usadas neste
trabalho apresentam uma grande variao espaotemporal.
Fig. 1. Caractersticas espaciais e temporais do superconjunto
S com 216 amostras de referncia
3.2. Mtrica NRVQA-ELMtc
O algoritmo ELM [28] desenvolvido para o
treinamento de uma rede SLFN atribui pesos e
polarizaes (biases) de maneira aleatria, segundo
uma distribuio uniforme. O treinamento compreende
N amostras distintas representadas pela varivel
, , , 1, , n m
f f f f x t x t f N , cujo clculo
conforme a expresso

1
, 1, , ,
K
K i j j f j f
f
f g b f N

x w x o (14)
em que f o a sada (escore objetivo), g(x) a
funo de ativao e j o peso que conecta o jsimo
neurnio da camada oculta ao neurnio de
sada. De acordo com [28], uma rede SLFN com K
ns na camada oculta e uma funo de ativao g(x)
pode apresentar um erro mdio prximo de zero, i.e.,
1
0
K
f f
f
o t . Logo, h parmetros j , j w e j b tal
que

1
, 1, , ,
K
j j f j f
f
g b f N

w x t (15)
em que f t o vetor alvo (escores subjetivos),
T
1, , j j jn w w w o vetor de peso que conecta o jsimo
neurnio da camada oculta ao neurnio da
camada de entrada, j b denota a polarizao (bias) do
j-simo neurnio da camada oculta, j f w x o
produto interno de j w e f x . A Figura 2 ilustra o
algoritmo ELM empregado em uma arquitetura de
rede neural SLFN.
xi
1
j
N
1
j
K
ti
bj
N input neuron K hidden neuron output neuron
1
K
wj
Fig. 2. Arquitetura de uma rede neural SLFN usando algoritmo
de treinamento ELM
O sistema linear da Equao (16) resume o mtodo
do algoritmo ELM.
H T, (16)
em que a matriz da camada oculta representada por
1, , and 1, , f H h f N j K com a primeira
linha da matriz de caractersticas f x igual a
T
1 2 , , , f f f fn x x x x , i.e., a primeira linha igual a
1 1 1 1 1 1 1 , , , , , f f f f f f f x A B Z TI MAD MADw . A matriz de
sada e o vetor alvo (target) so defnidos como
T
1 , K e
T
1, , N T t t , respectivamente. O
termo
T
1 , 1, , j jm j j K denota o vetor de
peso que conecta o j-simo neurnio da camada
oculta e os neurnios de sada. Hung et al. [28]
propuseram a atribuio aleatria de pesos aos
parmetros j w e j b , a fm de seja obtido um pequeno
erro no-nulo durante o treinamento. Considerando o
sistema linear da Equao (17), os pesos da camada
de sada podem ser aproximados por
H T (17)
em que H defnida como matriz inversa
generalizada de Moore-Penrose (MP) [33] da matriz
de sada da camada oculta H . Alm disso, o
conjunto de treinamento , n oculta K e uma
funo de ativao g x , e.g., funo de base radial
(Radial Basis Function RBF), hard-limiting (hardlim),
sigmoidal (sig) e seno (sin). Em resumo, o algoritmo
ELM compreende trs etapas [28]:
i) Atribuio aleatria dos pesos de entrada j w e
polarizaes j b ;
ii) Clculo da matriz da camada de sada H ;
iii) Clculo dos pesos de sada : H T .
O mtodo NRVQA-ELMtc [27] implementa um
simples critrio de parada no treinamento da rede
neural SLFN, quanto atribuio aleatria dos pesos
j w e j b . Embora este critrio no seja direcionado,
busca os pesos relacionados com o menor RMSE
(Root-Mean-Square Error) entre a sada desejada
(escore subjetivo) e o escore objetivo na fase de
treinamento com k iteraes (tipicamente, k 100 ) e
N neurnios na camada oculta. Alm disso, conforme
estudo realizado em [27], caso o RMSE seja menor do
que 0,5 o algoritmo cessa a busca pelos parmetros
j w e j b .
4. RESULTADOS EXPERIMENTAIS
Esta seo apresenta os resultados de acurcia,
i.e., os coefcientes de correlao linear de Pearson
(Pearson Linear Correlation Coefcient PLCC) [34],
[35], entre os escores objetivos e subjetivos de 2627
amostras de vdeo estudadas em [27].
A Figura 3 compara a acurcia (PLCC) entre as
mtricas de referncia completa (FR) PSNR e MSSSIM
com o mtodo proposto (NRVQA-ELMtc) para
as 2627 amostras de vdeo, pertencentes a 17 bases
de dados de vdeo disponibilizadas por diversas
instituies e laboratrios [27]. A funo de ativao
usada na rede neural SLFN foi o seno (sin) com o
nmero de amostras de teste igual ao nmero de
neurnios na camada oculta ( N ). O mtodo de
validao cruzada mltipla (K-fold) foi usado com o
objetivo de gerar uma distribuio de acurcia, a qual
foi analisada por meio do diagrama de caixa (box-plot)
[36], em que o trao, o crculo e o quadrado, ambos
em vermelho, representam a mediana, a mdia e o
desvio padro, respectivamente. Destaca-se que
neste trabalho foi empregada uma validao cruzada
com um grande nmero de amostras de treinamentoteste
com K 100 , i.e., cada caixa do box-plot
comporta 100 experimentos distintos. Tipicamente, a
literatura apresenta trabalhos no campo da avaliao
Fig. 3. Box-plot da predio da acurcia (PLCC) entre as mtricas PSNR, MS-SSIM e o mtodo proposto NRVQA-ELMtc
de qualidade de vdeo com K entre 5 e 10 [37], [38].
Pela inspeo visual da Figura 3 observa-se que o
desempenho do mtodo proposto superior s
mtricas FR, em quaisquer condies de teste, i.e.,
para qualquer quantidade de amostras de teste
(nmero de neurnios na camada oculta) entre 25 e
500. Em especial, para N 50 , o mtodo proposto
apresenta valores de PLCC, em termos da mdia e
mediana, acima de 0,8, denotando uma forte
associao entre os escores objetivos e subjetivos, na
tarefa de predio de qualidade de vdeo. Isto ocorre
devido grande quantidade de amostras de vdeo
usadas no treinamento, e.g., para N 300 foram
usadas 2327 amostras de treinamento, ou seja,
mesmo usando pares de treinamento-teste disjuntos,
o mtodo proposto mostra uma acurcia superior s
mtricas de referncia completa. A assimetria positiva,
i.e., a maior concentrao da acurcia entre o
segundo quartil (mediana) e o terceiro quartil, na
distribuio do box-plot nos testes com 300 e 500
neurnios na camada oculta, indica que o mtodo
proposto apresenta um desempenho expressivo em
comparao com as mtricas FR.
Entretanto, mesmo para N entre 25 e 50, o
mtodo proposto apresentou uma acurcia maior do
que as mtricas FR, cujo melhor resultado foi para
N 25 com o desvio-quartil (amplitude interquartlica)
confnado entre 0,65 e 0,8. Alm disso, este resultado
tambm apresentou assimetria positiva com a mdia
do PLCC em torno de 0,75.
5. CONCLUSO
Este trabalho apresentou uma mtrica NR baseada
em uma rede neural artifcial SLFN, cujo treinamento
determinado pelo algoritmo ELM, o qual considera
caractersticas espao-temporais e os escores
subjetivos (alvos) extrados de 2627 amostras
treinamento. Alm disso, este trabalho prope uma
extenso do algoritmo ELM por meio de um simples
critrio de parada, a fm de que sejam obtidos
parmetros da rede neural artifcial relacionados com
o menor RMSE. Tipicamente, a comparao entre
mtricas FR e NR injusta, devido ausncia do
vdeo de referncia na obteno do escore de
qualidade em mtricas NR. Entretanto, os resultados
experimentais mostram que o mtodo proposto
apresentou desempenho superior s mtricas de
referncia completa PSNR e MS-SSIM, sobretudo,
quando o nmero de amostras de teste e de neurnios
na camada oculta da rede SLFN maior do que 250.
Logo, a mtrica NRVQA-ELMtc pode ser empregada
no monitoramento de qualidade em sistemas de
transmisso e recepo de vdeo digital, tais como
IPTV (Internet Protocol Television), TV digital ou em
dispositivos mveis, tais como ultrabooks,
smartphones, tablets e em aparelhos WiDi (Wireless
Display).
REFERNCIAS
[1] S. Winkler, Issues in vision modeling for perceptual
video quality assessment, Signal Processing, vol. 78,
no. 2, pp. 231252, 1999.
[2] Z. Wang and A. C. Bovik, Modern image quality
assessment. San Rafael, CA: Morgan & Claypool,
2006.
[3] W. Lin and C.-C. Jay Kuo, Perceptual visual quality
metrics: A survey, Journal of Visual Communication
and Image Representation, vol. 22, no. 4, pp. 297312,
May 2011.
[4] S. S. Hemami and A. R. Reibman, No-reference image
and video quality estimation: Applications and humanmotivated
design, Signal Processing: Image
Communication, vol. 25, no. 7, pp. 469481, 2010.
[5] Z. Wang and A. Bovik, Reduced- and No-Reference
Image Quality Assessment, IEEE Signal Processing
Magazine, vol. 28, no. 6, pp. 2940, Nov. 2011.
[6] R. V. Babu, S. Suresh, and A. Perkis, No-reference
JPEG-image quality assessment using GAP-RBF,
Signal Processing, vol. 87, no. 6, pp. 14931503, 2007.
[7] X. Jiang, F. Meng, J. Xu, and W. Zhou, No-Reference
Perceptual Video Quality Measurement for High
Defnition Videos Based on an Artifcial Neural
Network, in Computer and Electrical Engineering,
2008. ICCEE 2008. International Conference on, 2008,
pp. 424427.
[8] J. Choe, K. Lee, C. Lee, and S. Korea, No-reference
video quality measurement using neural networks, in
2009 16th International Conference on Digital Signal
Processing, 2009, pp. 14.
[9] S. Suresh, R. Venkatesh Babu, and H. J. Kim, Noreference
image quality assessment using modifed
extreme learning machine classifer, Applied Soft
Computing, vol. 9, no. 2, pp. 541552, Mar. 2009.
[10] A. M. Eskicioglu and P. S. Fisher, Image quality
measures and their performance, IEEE Transactions
on Communications, vol. 43, no. 12, pp. 29592965,
1995.
[11] U. Engelke and H.-J. Zepernick, Perceptual-based
Quality Metrics for Image and Video Services: A
Survey, in Proceedings EuroNGI Conf. Next
Generation Internet Networks, 2007, pp. 190197.
[12] Z. Wang, A. C. Bovik, H. R. Sheikh, and E. P
Simoncelli, Image quality assessment: from error
visibility to structural similarity., IEEE Transactions on
Image Processing, vol. 13, no. 4, pp. 600612, 2004.
[13] Z. Wang, E. P. Simoncelli, and A. C. Bovik, Multiscale
structural similarity for image quality assessment, in
The Thrity-Seventh Asilomar Conference on Signals,
Systems & Computers, 2003, 2003, vol. 2, no. 1, pp.
13981402.
[14] H. R. Wu, K. R. Rao, and A. A. Kassim, Digital Video
Image Quality and Perceptual Coding, Journal of
Electronic Imaging, vol. 16, no. 3, 2007.
[15] Z. Wang and A. C. Bovik, A universal image quality
index, IEEE Signal Processing Letters, vol. 9, no. 3,
pp. 8184, Mar. 2002.
[16] Y. Shi, Y. Ding, R. Zhang, and J. Li, Structure and Hue
Similarity for Color Image Quality Assessment, in 2009
International Conference on Electronic Computer
Technology, 2009, pp. 329333.
[17] W. B. Silva, A. A. P. Pohl, and K. V. O. Fonseca, A
Reduced-Reference Video Quality Assessment Method
based on the Activity-Diference of DCT Coefcients,
IEICE Transactions on Information and Systems, vol. E96-D, no. 3, 2013.
[18] P. Le Callet, C. Viard-Gaudin, and D. Barba, A Convolutional Neural Network Approach for Objective Video Quality Assessment, IEEE Transactions on Neural Networks, vol. 17, no. 5, pp. 13161327, 2006.
[19] P. Le Callet and D. Barba, Image Quality Assessment: From Sites Errors to a Global Appreciation of Quality, in Proceedings of the Picture Coding Sympsium, 2001, pp. 105108.
[20] M. Miyahara, K. Kotani, and V. R. Algazi, Objective picture quality scale (PQS) for image coding, IEEE Transactions on Communications, vol. 46, no. 9, pp. 12151226, 1998.
[21] M. Slanina, V. Ricny, and R. Forchheimer, A Novel Metric for H.264/AVC No-Reference Quality Assessment, in 14th International Workshop on Systems, Signals and Image Processing and 6th EURASIP Conference focused on Speech and Image Processing, Multimedia Communications and Services, 2007, pp. 114117.
[22] O. Sugimoto, S. Naito, S. Sakazawa, and A. Koike, Objective perceptual video quality measurement method based on hybrid no reference framework, in 16th IEEE International Conference on Image Processing (ICIP09), 2009, pp. 22372240.
[23] T. Oelbaum, C. Keimel, and K. Diepold, Rule-Based No-Reference Video Quality Evaluation Using Additionally Coded Videos, IEEE Journal of Selected Topics in Signal Processing, vol. 3, no. 2, pp. 294303, 2009.
[24] N. Staelens, N. Vercammen, Y. Dhondt, B. Vermeulen, P. Lambert, R. de Walle, and P. Demeester, ViQID: A No-Reference bit stream-based visual quality impairment detector, in Proceedings of the Second Int Quality of Multimedia Experience (QoMEX) Workshop, 2010, pp. 206211.
[25] F. Yang, S. Wan, Q. Xie, and H. R. Wu, No-Reference Quality Assessment for Networked Video via Primary Analysis of Bit Stream, IEEE Transactions on Circuits and Systems for Video Technology, vol. 20, no. 11, pp. 15441554, Nov. 2010.
[26] Z. Wang, H. R. Sheikh, and A. C. Bovik, Objective Video Quality Assessment, in The Handbook of Video Databases: Design and Applications, B. Furht and O. Marques, Eds. Boca Raton, FL, USA: CRC Press, 2003, pp. 10411078.
[27] W. B. da Silva and A. de A. P. Pohl, Mtodos Sem Referncia Baseados em Caractersticas Espao-Temporais para Avaliao Objetiva de Qualidade de Vdeo Digital, Universidade Tecnolgica Federal do Paran (UTFPR), 2013.
[28] G.-B. Huang, Q.-Y. Zhu, and C.-K. Siew, Extreme learning machine: Theory and applications, Neurocomputing, vol. 70, no. 13, pp. 489501, Dec. 2006.
[29] Z. Wang, H. R. Sheikh, and A. C. Bovik, No-reference perceptual quality assessment of JPEG compressed images, in Image Processing. 2002. Proceedings. IEEE International Conference on Image Processing, 2002, vol. 1, pp. vol.1 I477 I480.
[30] W. B. Silva and A. A. P. Pohl, No-Reference Video Quality Assessment Method based on the Levenberg-Marquardt Minimization, in XXX Brazilian Symposium on Telecommunications (SBrT12), 2012.
[31] ITU-T P.910, Subjective video quality assessment methods for multimedia applications, Standardization Sector of ITU, 1999.
[32] W. Ding, Y. Tong, Q. Zhang, and D. Yang, Image and Video Quality Assessment Using Neural Network and SVM, Tsinghua Science &amp; Technology, vol. 13, no. 1, pp. 112116, 2008.
[33] K. S. Banerjee, C. R. Rao, and S. K. Mitra, Generalized Inverse of Matrices and Its Applications, Technometrics, vol. 15, no. 1, p. 197, Feb. 1973.
[34] VQEG, Final report from the video quality experts group on the validation of reduced-reference and no-reference objective models for standard defnition television, Phase I, 2009.
[35] VQEG, Report on the validation of video quality models for high defnition video content, 2010.
[36] J. W. Tukey, Exploratory Data Analysis. New York: Addison-Wesley Publishing Company, 1977.
[37] P. Gastaldo and R. Zunino, Neural networks for the no-reference assessment of perceived quality, J. Electronic Imaging, vol. 14, no. 3, p. 033004, 2005.
[38] R. Herzog, M. adk, T. O. Aydn, K. I. Kim, K. Myszkowski, and H.-P. Seidel, NoRM: No-Reference Image Quality Metric for Realistic Image Synthesis, Comp. Graph. Forum, vol. 31, no. 2pt4, pp. 545554, 2012.

A TELEVISO A SEU TEMPO: NETFLIX INOVA COM PRODUO DE CONTEDO PARA
O PBLICO ASSISTIR COMO E QUANDO ACHAR MELHOR, MESMO QUE SEJA TUDO
DE UMA VEZ

Juliana Kulesza
1
, Ulysses de Santi Bibbo
2


1
Fundao Armando lvares Penteado, So Paulo, Brasil, juliana.kulesza@gmail.com
2
Fundao Armando lvares Penteado, So Paulo, Brasil, ulysses375@gmail.com


Resumo: Este artigo analisa a entrada do servio de
streaming online Netflix no mercado da produo de
contedo original, a partir do estudo de caso da srie
House of Cards. Tambm se predispe a demonstrar
uma mudana de paradigma no setor, introduzindo a
discusso sobre uma nova forma de consumo de
contedo, definida pelas possibilidades geradas por
novas tecnologias e pela voracidade de seu pblico.
Este novo cenrio palco do embate entre majors de
TV a cabo, at ento dominantes no mercado de
contedo pago, com a recm chegada Netflix, onde
quem ganha o consumidor que ter mais opes de
escolha.

Palavras chave: Netflix, binge watching, House of
Cards, consumo de contedo, TV a cabo, serializao.

1. INTRODUO
A indstria de produo e distribuio de contedo
online cresce em progresso geomtrica. Em 2012, a
Netflix, empresa de streaming de contedo online,
espantou o mercado ao ultrapassar a Comcast, -
maior operadora de cabo dos Estados Unidos -
chegando a atingir mais de 30 milhes de assinantes
em todo o mundo (VARIETY, 2013). Este nmero
trouxe tona a discusso sobre o consumo de
contedo no formato tradicional linear de grade de
programao oferecido pelos canais de televiso,
onde o programador escolhe o que ser exibido em
que horrio, versus o modelo no linear, onde o
assinante escolhe o que quer assistir, quando e onde.
Mais do que uma simples novidade, a Netflix e seu
modelo de negcios podem ser considerados uma
inovao diruptiva
1
, pois poderiam substituir os DVDs
e as empresas de TV a cabo. Como tal, tornam-se
responsveis pela movimentao do Ciclo
2
de Tim
Wu.
O Ciclo impulsionado por inovaes
diruptivas que destronam indstrias at
ento vicejantes, levam poderes
dominantes falncia e mudam o mundo.
Essas inovaes so extremamente raras,
mas so elas que fazem o ciclo se mover.
(WU, 2010, pg 29)

A Netflix surgiu em 1997 nos Estados Unidos como
um servio de aluguel de DVDs via correio. A princpio
o usurio pagava uma taxa pela locao e servio
postal, mas aproximadamente dois anos depois a
empresa introduziu o modelo de assinatura mensal,
oferecendo em troca a locao ilimitada de seus
ttulos. Com os avanos da Internet, em 2007 a Netflix
passou a disponibilizar todo o seu contedo atravs
de VOD (Video On Demand) em qualquer plataforma

1
Conceito criado por Clayton Christensen, que diz que a
tecnologia pode ser sofisticada, mas ser inovadora se
implementada com o objetivo de simplificar e baratear o
produto. Tambm chamado de inovao de ruptura.

2
Tiw Wu define O Ciclo como o fenmeno da oscilao das
indstrias da informao entre posturas abertas e fechadas, ou
seja, de canal de acesso livre a um meio controlado por um s
cartel ou corporao.

46 Revista de Radiodifuso v. 07 n. 08 2013
Pesquisas em ambientes digitais - TV Internet Radio Cinema
que possusse uma conexo com a Internet, ou seja,
mantiveram o conceito mas atualizaram a mdia. Reed
Hasting, um de seus fundadores e atual CEO, j
acompanhava o avano da tecnologia de streaming
online desde o seu surgimento e sabia que em algum
momento ela poderia ser responsvel pelo fim de seu
negcio.
Seu esprito visionrio assegurou, porm, a
modernizao da Netflix garantindo sua longevidade
alm dos DVDs. Atualmente, so cerca de 33 milhes
de assinantes em 40 pases assistindo a mais de um
bilho de horas de contedo ao ms a um valor fixo de
aproximadamente R$ 20,00 e em praticamente
qualquer tela.
Para Reed Hastings, dentro da prxima dcada todos
vivero em um mundo multiplataforma sob demanda,
no qual servios como o dele tero tanta oferta de
contedo que a ideia de pagar por televiso a cabo
ser inimaginvel (GQ, 2013).
Para tanto, a Netflix no tem poupado esforos,
anunciando recentemente o fechamento de um
contrato com a distribuidora The Weinstein Co. dos
irmos Weinstein, que a torna o servio por assinatura
exclusivo para a primeira janela de exibio ps-
cinemas dos filmes da TWC a partir de 2016. Alm
disso, a empresa j havia fechado contratos
semelhantes com a DreamWorks Animation em Junho
de 2013 e com a Walt Disney Co. em dezembro de
2012. Vale ressaltar que para assinar o contrato com a
TWC, a Netflix precisou desbancar a empresa de TV
a cabo Showtime Networks Co. propriedade do
conglomerado de mdia CBSCorp..

2. CONTEDO ORIGINAL
Foi pensando no conceito de insatisfao
administrvel, que Hastings, deu incio a um processo
que est mudando agressivamente o modelo
televisivo no que diz respeito produo, distribuio,
consumo e divulgao de contedo audiovisual. De
acordo com ele, esta insatisfao administrvel
baseada na espera.
Voc tem que esperar pela sua srie que
exibida as quartas-feiras s 20h,
esperar pela nova temporada, ver todos
os anncios espalhados em todo lugar
sobre a nova temporada, falar com seus
amigos no trabalho sobre o quo
empolgado voc est. (GQ, 2013)


Mas esta espera acabou. Em fevereiro de 2013, a
Netflix lanou de uma s vez todos os 13 episdios da
primeira temporada da srie House of Cards, um
drama poltico produzido por David Finch e Beau
Willimon. Estrelando Kevin Spacey, Robin Wright,
Kate Mara e Corey Stoll, entre outros, House of Cards
uma adaptao de uma minissrie da BBC de
mesmo nome.
Lanada recentemente, a srie j fez histria ao
receber 14 indicaes nos prmios Emmy da televiso
norte-americana e vencer em trs categorias: melhor
diretor, elenco e fotografia. Tornando-se a primeira
srie produzida exclusivamente para uma plataforma
online a alcanar este feito. As conquistas no Emmy,
quase quinze anos aps a srie The Sopranos ter se
tornado a primeira srie de TV a cabo a receber a
indicao de melhor srie dramtica, apontam uma
importante validao do modelo de streaming online e
da produo de contedo original da Netflix.

3. A SRIE
House of Cards um retrato cruel da poltica e, mais
amplamente, das relaes humanas. Na histria,
depois de perder a oportunidade de exercer o cargo
de Secretrio de Estado, o congressista republicano
Frank Underwood (Kevin Spacey) inicia uma
campanha para derrubar o Presidente. No seu plano
de vingana Underwood passa a manipular, mentir e
montar dossis para detonar o governo.
Pesquisas em ambientes digitais - TV Internet Radio Cinema
Revista de Radiodifuso v. 07 n. 08 2013 47
MTRICA SEM REFERNCIA BASEADA EM REDES NEURAIS
PARA AVALIAO OBJETIVA DE QUALIDADE DE VDEO DIGITAL
Wyllian Bezerra da Silva, Alexandre de Almeida Prado Pohl
Programa de Ps-Graduao em Engenharia Eltrica e Informtica Industrial (CPGEI) UTFPR, Curitiba, Brasil
wyllianbs@gmail.com, pohl@utfpr.edu.br
Resumo: Este trabalho apresenta uma mtrica sem referncia para avaliao de qualidade de vdeo digital baseada em uma rede neural artifcial que usa uma verso estendida do algoritmo de aprendizado ELM (Extreme Learning Machine). O mtodo proposto realiza o treinamento da rede neural a partir de seis caractersticas espao-temporais. Os resultados experimentais mostram que o mtodo proposto apresenta desempenho superior s mtricas de referncia completa PSNR e MS-SSIM na tarefa de predio de qualidade de vdeo. Logo, o mtodo proposto pode ser usado no monitoramento de qualidade em sistemas de transmisso e recepo de vdeo digital, tais como IPTV e TV digital.
Palavras chave: algoritmo ELM, avaliao objetiva de vdeo, mtrica sem referncia, rede neural artifcial.
1. INTRODUO
Durante os ltimos anos, a literatura tem apresentado um nmero crescente publicaes acerca de mtricas objetivas para avaliao de qualidade de vdeo para diversas aplicaes em radiodifuso ou no processamento de vdeo digital, seja na aquisio do sinal, codifcao e decodifcao, compresso, transmisso, restaurao, armazenamento, segmentao e exibio de sinais de vdeo digital [14]. A avaliao de qualidade de vdeo digital pode ser realizada por meio de mtricas subjetiva e objetiva. A primeira requer uma grande quantidade de recursos humanos e apresenta elevado custo em sua implementao [13]. Porm, as mtricas objetivas so vantajosas quando apresentam um determinado grau de correlao com as mtricas subjetivas. Logo, o desenvolvimento destas um desafo no campo de avaliao de qualidade de vdeo e imagem. Alm disso, as mtricas objetivas, devido natureza de seu critrio objetivo, independem de interao humana e so facilmente reprodutveis [3]. Dentre as mtricas objetivas destacam-se as mtricas sem referncia (No-Reference NR), pois no necessitam do vdeo de referncia no clculo de sua medida. Entretanto, estas requerem um conhecimento a priori sobre as distores em vdeo digital para que seja estabelecida uma correlao com os resultados subjetivos [3].
A maioria das mtricas NR encontradas na literatura so baseadas na avaliao de qualidade de imagens e em caractersticas relacionadas ao Sistema Visual Humano (SVH). Assim, o desenvolvimento de mtricas NR difcil, devido necessidade de emular a percepo do SVH que envolve aspectos cognitivos, emocionais e estticos relacionados ao contedo do vdeo e que so altamente dependentes do observador [4], [5].
A literatura reporta diversos esforos no desenvolvimento de mtricas para avaliao de qualidade de vdeo baseadas em redes neurais e em algoritmos de aprendizado. Babu et al. [6] apresentam uma mtrica para avaliar a qualidade de imagens comprimidas em JPEG (Joint Photographic Experts Group) por meio de um algoritmo de aprendizado de crescimento e propem o uso de uma rede neural GAP-RBF (Growing and Pruning Radial Basis Function) que usa caractersticas relacionadas ao SVH. Jiang et al. [7] desenvolveram uma mtrica NR para avaliao de qualidade de vdeo em HD (High Defnition) baseada em uma rede neural treinada pelo algoritmo BP (Back-Propagation) que usa seis caractersticas espao-temporais e a RoI (Region of Interest). Choe et al. [8] desenvolveram uma mtrica NR baseada no fuxo de bits para avaliao de qualidade de vdeo codifcado em H.264. Esta mtrica extrai caractersticas quadro a quadro e usa uma rede neural alimentada adiante (feedforward) com trs camadas. Suresh et al. [9] apresentaram uma extenso do algoritmo ELM na tarefa de avaliar a qualidade de imagens comprimidas em JPEG com base no esquema de seleo mltipla KS-ELM (K-fold selection Scheme using ELM) e no algoritmo RCGA-ELM (Real-Coded Genetic Algorithm using ELM) para seleo dos pesos de entrada e polarizaes.
Este trabalho apresenta uma verso estendida do algoritmo ELM para redes neurais SLFN (Single-hidden-Layer Feedforward Neural Networks) que implementa um simples critrio de parada na fase de treinamento. Alm disso, esse mtodo usa seis caractersticas espao-temporais de vdeos submetidos a diversas condies de distoro.
Este artigo est dividido da seguinte maneira: a Seo 2 descreve as mtricas para avaliao de qualidade de vdeo. A Seo 3 descreve o mtodo NR proposto para avalio de qualidade de vdeo digital. A Seo 4 apresenta os resultados experimentais, em que so comparados o mtodo NR proposto e duas mtricas FR. Finalmente, a Seo 5 apresenta a concluso do artigo.
2. AVALIAO DE QUALIDADE DE VDEO
O processo de avaliao de qualidade de vdeo
pode ser realizado com a aplicao de mtricas
subjetivas ou objetivas. As mtricas subjetivas
estimam a qualidade do vdeo por meio de avaliadores
humanos. Logo, exigem um alto custo, pois
necessitam de uma grande quantidade de recursos
humanos e apresentam problemas quanto aos
requisitos de imparcialidade e reprodutibilidade,
tornando-se inapropriadas em sistemas de
radiodifuso ou em provedores de contedo [10], [11].
Por outro lado, as mtricas objetivas so baseadas em
modelos matemticos, cujo objetivo produzir um
escore de qualidade que emule a percepo do SVH.
Alm disso, as mtricas objetivas requerem baixo
custo de implementao (quando comparadas com as
mtricas subjetivas) e no apresentam problemas
quanto reprodutibilidade e imparcialidade.
As mtricas objetivas para avaliao de qualidade
de vdeo podem ser classifcadas em trs categorias:
(i) mtricas de referncia completa (Full-Reference
FR); (ii) mtricas de referncia reduzida (Reduced-
Reference RR); (iii) mtricas sem referncia (NR).
2.1. Mtricas FR
As mtricas FR requerem o vdeo de referncia
(fonte) no clculo do escore de qualidade. Estas
mtricas so amplamente utilizadas no processo de
validao de mtricas RR ou NR, por meio da
comparao de desempenho defnida pelas
recomendaes do Grupo de Especialistas em
Qualidade de Vdeo (VQEG Video Quality Experts
Group) que um rgo de padronizao internacional
de mtricas subjetivas e objetivas de qualidade de
vdeo. Dentre as mtricas FR, destacam-se o PSNR
(Peak Signal-to-Noise Ratio), SSIM (Structural
SIMilarity index) [12] e MS-SSIM (Multi-Scale
Structural SIMilarity index) [13].
O PSNR uma mtrica FR baseada no erro pixel a
pixel de fcil implementao. Entretanto, apresenta
baixa correlao com o SVH [14]. A sua medida
processada sobre o erro quadro a quadro, i.e., entre o
quadro original x e o quadro y . A expresso a seguir
defne o PSNR para um conjunto de quadros F .
20
1
1
PSNR 20log ,
F
f
f f
v
F MSE



(1)
com

2
0 0
1
MSE , , , , ,
N M
f
i j
x f i j y f i j
NM

(2)
em que o termo f v igual a (2 1) k , cujo k o
nmero de bits por pixel, i.e., a componente de
luminncia do quadro f . Os termos x f ,i, j e
y f ,i, j so os valores de luminncia do quadro de
origem e degradado, respectivamente. As
componentes bidimensionais so representadas pelo
nmero de colunas N e pelo nmero de linhas M . O
termo f MSE defnido como erro quadrtico mdio
ou MSE (Mean Square Error).
A mtrica SSIM baseia-se no fato de que o SVH
fortemente adaptado para extrair informaes das
caractersticas estruturais de um quadro ou imagem.
Logo, uma medida de similaridade estrutural (ou
distoro) pode prover boa aproximao para a
qualidade perceptual de um vdeo [3, 79]. Sejam x e
y dois sinais no-negativos, em que y o sinal
degradado e x o sinal original (sem perda de
qualidade), a medida de similaridade utilizada como
um ndice quantitativo de qualidade do sinal distorcido,
ou seja, x tomado como a referncia para medir a
qualidade de y . A mtrica SSIM possui diversas
extenses, dentre as quais a verso MS-SSIM,
proposta por Wang et al. [13] que assume uma
abordagem multiescalar.
2.2. Mtricas RR
As mtricas de referncia reduzida retiram certa
quantidade de caractersticas do vdeo original (fonte),
baseadas em componentes espaciais, temporais, no
domnio da frequncia ou no fuxo de bits (bitstream).
Este tipo de mtrica amplamente utilizada no
monitoramento de transmisses em rede [17]. Neste
tipo de cenrio de aplicao, o vdeo transmitido
com uma sequncia de informao codifcada
(overhead) e no lado receptor ocorre a sua
decodifcao, seguido pelo clculo do ndice de
qualidade, o qual obtido por meio da comparao
entre a representao reduzida da informao nos
pares emissor e receptor [18]. Tipicamente, mtricas
RR so implementadas por meio de funes, divididas
em duas etapas [19]: (i) clculo do erro entre os
vdeos original e distorcido, constitudo pela diferena
de suas caractersticas, a fm de compor a
representao reduzida da informao; (ii) funo que
agrupa os erros ou diferenas para obter um ndice de
qualidade global. Algumas mtricas RR exploram
propriedades dos artefatos, por meio da extrao de
caractersticas e um modelo de parametrizao [20]
com foco em tipos especfcos de distores
(artefatos). Esta abordagem encontrada em Silva et
al. [17], cujo clculo do escore de qualidade
baseado na diferena de atividade dos coefcientes
DCT (Discrete Cosine Transform) em um macro bloco
com resoluo de 1616 pixels.
2.3. Mtricas NR
As mtricas NR extraem caractersticas
relacionadas ao SVH do vdeo distorcido, i.e., na
recepo do sinal de vdeo [14]. Tipicamente, h duas
abordagens no desenvolvimento destas mtricas: (i)
extrao dos parmetros sobre o fuxo de bits, tais
como a taxa de compresso, informaes
relacionadas ao GoP (Group of Pictures), estimao
de movimento, perfl e nvel de codifcao, bem como
o parmetro de quantizao ou QP (Quantization
Parameter) [2125]. Mtricas NR apresentam maior
complexidade quando so aplicadas em vdeo, devido
variao temporal dos quadros, contedos das
cenas e difculdade de compreenso das
caractersticas do SVH [26]. Assim, algumas mtricas
dessa categoria exploram caractersticas espaciais e
temporais na estimao de qualidade de vdeo [21].
3. MTODO PROPOSTO
O mtodo proposto, denominado NRVQA-ELMtc
(No-Reference Video Quality Assessment using
Extreme Learning Machine algorithm with termination
criteria) [27] combina caractersticas espaciais e
temporais, por meio de uma rede neural artifcial
SLFNs usando o algoritmo de treinamento ELM [28]
com a implementao de um simples critrio de
parada.
3.1. Caractersticas espao-temporais
As caractersticas espaciais incorporadas no
mtodo proposto so baseadas em medidas de
artefatos em vdeo digital, i.e., distores de blocagem
e borramento desenvolvidas por Wang et al. [20].
Assim, a componente de luminncia do quadro f
representada por y(f , i, j ) com i 1,M e j 1, N ,
em que M e N so os nmeros de linhas e colunas,
respectivamente, de um quadro. Logo, as diferenas
de luminncia ao longo das linhas e colunas so
representadas, respectivamente, pelas expresses a
seguir.


, , , , 1 , , , 1, 1 ,
, , , 1, , , , 1, 1 .
h
v
d f i j y f i j y f i j j N
d f i j y f i j y f i j i M


(3)
O efeito de blocagem pode ser estimado pela
mdia das diferenas entre as bordas dos blocos da
DCT (Discrete Cosine Transform) nas direes
horizontal e vertical para uma sequncia F de
quadros, conforme mostra a Equao (4), com um
macrobloco de dimenso , cujo tamanho tpico
de 8 [20].


1
1
1 1 1
1
1
1 1 1
1
, , 1 ,
1
1
1
, 1 , .
1
1
N
F M
h h
f i j
M
F N
v
i j
v
f
B d f i j
N
F M
B d f i j
M
F N












(4)
A medida de blocagem em uma sequncia de
vdeo com F quadros determinada pela mdia entre
h B e v B , caracterizando a medida B , conforme a
expresso a seguir.
.
2
h v B B
B

(5)
Os efeitos de borramento so estimados pelo
clculo da reduo de atividade entre os blocos ,
em que usada a medida de blocagem nas direes
horizontal e vertical, conforme as expresses




1
1 1 1
1
1 1 1
, , ,
1 1
, ,
1
.
1
F M N
h h h
f i j
F M N
v v
f
v
i j
A d f i j B
F M N
A d f i j B
F N M








(6)
A medida de borramento, representada por A ,
conforme a Equao (7), determinada pela mdia
entre h A e v A .
.
2
h v A A
A

(7)
O segundo fator que contribui para a deteco do
artefato de borramento baseado na taxa de
cruzamento por zero (Zero Crossing ZC) nas
direes horizontal e vertical, conforme as expresses
a seguir.




2
1 1 1
2
1 1 1
1
, , ,
2
1
, , ,
2
F M N
h h
f i j
F M N
v v
f i j
Z z f i j
F M N
Z z f i j
F N M




(8)
em que os termos h z e v z so determinados por


1, na direo horizontal
, , ,
0, caso contrrio
1, na direo vertical
, , .
0, caso contrrio
h
v
z f i j
z f i j



(9)
Assim, a medida de borramento Z determinada
pela mdia entre as componentes h Z e v Z .
.
2
h v Z Z
Z

(10)
O mtodo proposto tambm incorpora trs
caractersticas temporais no treinamento da rede
neural SLFN com o algoritmo ELM.
A primeira caracterstica temporal a diferena de
movimento entre quadros adjacentes, representada
pela varivel TI (Temporal perceptual Information) [31]
que considera os valores de luminncia de pixels
localizados em uma mesma regio de um quadro,
conforme a expresso a seguir.

2
1
, , ,
1
F
f
TI m f i j
F


(11)
em que o nmero total de quadros F e mf ,i, j

o desvio padro da diferena de movimento
(diferena de luminncia) entre o quadro atual
y f ,i, j e o quadro anterior y f 1,i, j .
A segunda caracterstica temporal a mdia da
diferena absoluta (Mean Absolute Diference MAD)
[31] entre quadros sucessivos, representada pela
Equao (12) que defne a medida global da MAD
para todos os quadros de um vdeo.


2 1 1
1
, , 1, , .
1
F M N
f i j
MAD y f i j y f i j
M N F



(12)
A terceira caracterstica temporal a mdia da
diferena absoluta ponderada (weighted Mean
Absolute Diference MADw) [32], a qual mede o grau
de variao das cenas de um vdeo que considera a
cena atual de um quadro f e do quadro anterior f 1,
conforme a expresso:
2 1
1
.
1
F
f
f f
MAD
MADw
F MAD


(13)
Assim, o mtodo proposto combina as
caractersticas espaciais e temporais em uma matriz
, , , , , f f f f f f f x A B Z TI MAD MADw , em que f o
nmero de amostras de vdeo. A Figura 1 apresenta
as caractersticas temporais espaciais de dezessete
bases de dados de vdeos (denominada superconjunto
S) usadas neste trabalho e reportadas em [27]. A
recomendao ITU-T P.910 [31] defne a medida SI
(Spatial perceptual Information) como informao
espacial perceptual. A inspeo visual dessa fgura
mostra que as amostras de vdeo usadas neste
trabalho apresentam uma grande variao espaotemporal.
Fig. 1. Caractersticas espaciais e temporais do superconjunto
S com 216 amostras de referncia
3.2. Mtrica NRVQA-ELMtc
O algoritmo ELM [28] desenvolvido para o
treinamento de uma rede SLFN atribui pesos e
polarizaes (biases) de maneira aleatria, segundo
uma distribuio uniforme. O treinamento compreende
N amostras distintas representadas pela varivel
, , , 1, , n m
f f f f x t x t f N , cujo clculo
conforme a expresso

1
, 1, , ,
K
K i j j f j f
f
f g b f N

x w x o (14)
em que f o a sada (escore objetivo), g(x) a
funo de ativao e j o peso que conecta o jsimo
neurnio da camada oculta ao neurnio de
sada. De acordo com [28], uma rede SLFN com K
ns na camada oculta e uma funo de ativao g(x)
pode apresentar um erro mdio prximo de zero, i.e.,
1
0
K
f f
f
o t . Logo, h parmetros j , j w e j b tal
que

1
, 1, , ,
K
j j f j f
f
g b f N

w x t (15)
em que f t o vetor alvo (escores subjetivos),
T
1, , j j jn w w w o vetor de peso que conecta o jsimo
neurnio da camada oculta ao neurnio da
camada de entrada, j b denota a polarizao (bias) do
j-simo neurnio da camada oculta, j f w x o
produto interno de j w e f x . A Figura 2 ilustra o
algoritmo ELM empregado em uma arquitetura de
rede neural SLFN.
xi
1
j
N
1
j
K
ti
bj
N input neuron K hidden neuron output neuron
1
K
wj
Fig. 2. Arquitetura de uma rede neural SLFN usando algoritmo
de treinamento ELM
O sistema linear da Equao (16) resume o mtodo
do algoritmo ELM.
H T, (16)
em que a matriz da camada oculta representada por
1, , and 1, , f H h f N j K com a primeira
linha da matriz de caractersticas f x igual a
T
1 2 , , , f f f fn x x x x , i.e., a primeira linha igual a
1 1 1 1 1 1 1 , , , , , f f f f f f f x A B Z TI MAD MADw . A matriz de
sada e o vetor alvo (target) so defnidos como
T
1 , K e
T
1, , N T t t , respectivamente. O
termo
T
1 , 1, , j jm j j K denota o vetor de
peso que conecta o j-simo neurnio da camada
oculta e os neurnios de sada. Hung et al. [28]
propuseram a atribuio aleatria de pesos aos
parmetros j w e j b , a fm de seja obtido um pequeno
erro no-nulo durante o treinamento. Considerando o
sistema linear da Equao (17), os pesos da camada
de sada podem ser aproximados por
H T (17)
em que H defnida como matriz inversa
generalizada de Moore-Penrose (MP) [33] da matriz
de sada da camada oculta H . Alm disso, o
conjunto de treinamento , n oculta K e uma
funo de ativao g x , e.g., funo de base radial
(Radial Basis Function RBF), hard-limiting (hardlim),
sigmoidal (sig) e seno (sin). Em resumo, o algoritmo
ELM compreende trs etapas [28]:
i) Atribuio aleatria dos pesos de entrada j w e
polarizaes j b ;
ii) Clculo da matriz da camada de sada H ;
iii) Clculo dos pesos de sada : H T .
O mtodo NRVQA-ELMtc [27] implementa um
simples critrio de parada no treinamento da rede
neural SLFN, quanto atribuio aleatria dos pesos
j w e j b . Embora este critrio no seja direcionado,
busca os pesos relacionados com o menor RMSE
(Root-Mean-Square Error) entre a sada desejada
(escore subjetivo) e o escore objetivo na fase de
treinamento com k iteraes (tipicamente, k 100 ) e
N neurnios na camada oculta. Alm disso, conforme
estudo realizado em [27], caso o RMSE seja menor do
que 0,5 o algoritmo cessa a busca pelos parmetros
j w e j b .
4. RESULTADOS EXPERIMENTAIS
Esta seo apresenta os resultados de acurcia,
i.e., os coefcientes de correlao linear de Pearson
(Pearson Linear Correlation Coefcient PLCC) [34],
[35], entre os escores objetivos e subjetivos de 2627
amostras de vdeo estudadas em [27].
A Figura 3 compara a acurcia (PLCC) entre as
mtricas de referncia completa (FR) PSNR e MSSSIM
com o mtodo proposto (NRVQA-ELMtc) para
as 2627 amostras de vdeo, pertencentes a 17 bases
de dados de vdeo disponibilizadas por diversas
instituies e laboratrios [27]. A funo de ativao
usada na rede neural SLFN foi o seno (sin) com o
nmero de amostras de teste igual ao nmero de
neurnios na camada oculta ( N ). O mtodo de
validao cruzada mltipla (K-fold) foi usado com o
objetivo de gerar uma distribuio de acurcia, a qual
foi analisada por meio do diagrama de caixa (box-plot)
[36], em que o trao, o crculo e o quadrado, ambos
em vermelho, representam a mediana, a mdia e o
desvio padro, respectivamente. Destaca-se que
neste trabalho foi empregada uma validao cruzada
com um grande nmero de amostras de treinamentoteste
com K 100 , i.e., cada caixa do box-plot
comporta 100 experimentos distintos. Tipicamente, a
literatura apresenta trabalhos no campo da avaliao
Fig. 3. Box-plot da predio da acurcia (PLCC) entre as mtricas PSNR, MS-SSIM e o mtodo proposto NRVQA-ELMtc
de qualidade de vdeo com K entre 5 e 10 [37], [38].
Pela inspeo visual da Figura 3 observa-se que o
desempenho do mtodo proposto superior s
mtricas FR, em quaisquer condies de teste, i.e.,
para qualquer quantidade de amostras de teste
(nmero de neurnios na camada oculta) entre 25 e
500. Em especial, para N 50 , o mtodo proposto
apresenta valores de PLCC, em termos da mdia e
mediana, acima de 0,8, denotando uma forte
associao entre os escores objetivos e subjetivos, na
tarefa de predio de qualidade de vdeo. Isto ocorre
devido grande quantidade de amostras de vdeo
usadas no treinamento, e.g., para N 300 foram
usadas 2327 amostras de treinamento, ou seja,
mesmo usando pares de treinamento-teste disjuntos,
o mtodo proposto mostra uma acurcia superior s
mtricas de referncia completa. A assimetria positiva,
i.e., a maior concentrao da acurcia entre o
segundo quartil (mediana) e o terceiro quartil, na
distribuio do box-plot nos testes com 300 e 500
neurnios na camada oculta, indica que o mtodo
proposto apresenta um desempenho expressivo em
comparao com as mtricas FR.
Entretanto, mesmo para N entre 25 e 50, o
mtodo proposto apresentou uma acurcia maior do
que as mtricas FR, cujo melhor resultado foi para
N 25 com o desvio-quartil (amplitude interquartlica)
confnado entre 0,65 e 0,8. Alm disso, este resultado
tambm apresentou assimetria positiva com a mdia
do PLCC em torno de 0,75.
5. CONCLUSO
Este trabalho apresentou uma mtrica NR baseada
em uma rede neural artifcial SLFN, cujo treinamento
determinado pelo algoritmo ELM, o qual considera
caractersticas espao-temporais e os escores
subjetivos (alvos) extrados de 2627 amostras
treinamento. Alm disso, este trabalho prope uma
extenso do algoritmo ELM por meio de um simples
critrio de parada, a fm de que sejam obtidos
parmetros da rede neural artifcial relacionados com
o menor RMSE. Tipicamente, a comparao entre
mtricas FR e NR injusta, devido ausncia do
vdeo de referncia na obteno do escore de
qualidade em mtricas NR. Entretanto, os resultados
experimentais mostram que o mtodo proposto
apresentou desempenho superior s mtricas de
referncia completa PSNR e MS-SSIM, sobretudo,
quando o nmero de amostras de teste e de neurnios
na camada oculta da rede SLFN maior do que 250.
Logo, a mtrica NRVQA-ELMtc pode ser empregada
no monitoramento de qualidade em sistemas de
transmisso e recepo de vdeo digital, tais como
IPTV (Internet Protocol Television), TV digital ou em
dispositivos mveis, tais como ultrabooks,
smartphones, tablets e em aparelhos WiDi (Wireless
Display).
REFERNCIAS
[1] S. Winkler, Issues in vision modeling for perceptual
video quality assessment, Signal Processing, vol. 78,
no. 2, pp. 231252, 1999.
[2] Z. Wang and A. C. Bovik, Modern image quality
assessment. San Rafael, CA: Morgan & Claypool,
2006.
[3] W. Lin and C.-C. Jay Kuo, Perceptual visual quality
metrics: A survey, Journal of Visual Communication
and Image Representation, vol. 22, no. 4, pp. 297312,
May 2011.
[4] S. S. Hemami and A. R. Reibman, No-reference image
and video quality estimation: Applications and humanmotivated
design, Signal Processing: Image
Communication, vol. 25, no. 7, pp. 469481, 2010.
[5] Z. Wang and A. Bovik, Reduced- and No-Reference
Image Quality Assessment, IEEE Signal Processing
Magazine, vol. 28, no. 6, pp. 2940, Nov. 2011.
[6] R. V. Babu, S. Suresh, and A. Perkis, No-reference
JPEG-image quality assessment using GAP-RBF,
Signal Processing, vol. 87, no. 6, pp. 14931503, 2007.
[7] X. Jiang, F. Meng, J. Xu, and W. Zhou, No-Reference
Perceptual Video Quality Measurement for High
Defnition Videos Based on an Artifcial Neural
Network, in Computer and Electrical Engineering,
2008. ICCEE 2008. International Conference on, 2008,
pp. 424427.
[8] J. Choe, K. Lee, C. Lee, and S. Korea, No-reference
video quality measurement using neural networks, in
2009 16th International Conference on Digital Signal
Processing, 2009, pp. 14.
[9] S. Suresh, R. Venkatesh Babu, and H. J. Kim, Noreference
image quality assessment using modifed
extreme learning machine classifer, Applied Soft
Computing, vol. 9, no. 2, pp. 541552, Mar. 2009.
[10] A. M. Eskicioglu and P. S. Fisher, Image quality
measures and their performance, IEEE Transactions
on Communications, vol. 43, no. 12, pp. 29592965,
1995.
[11] U. Engelke and H.-J. Zepernick, Perceptual-based
Quality Metrics for Image and Video Services: A
Survey, in Proceedings EuroNGI Conf. Next
Generation Internet Networks, 2007, pp. 190197.
[12] Z. Wang, A. C. Bovik, H. R. Sheikh, and E. P
Simoncelli, Image quality assessment: from error
visibility to structural similarity., IEEE Transactions on
Image Processing, vol. 13, no. 4, pp. 600612, 2004.
[13] Z. Wang, E. P. Simoncelli, and A. C. Bovik, Multiscale
structural similarity for image quality assessment, in
The Thrity-Seventh Asilomar Conference on Signals,
Systems & Computers, 2003, 2003, vol. 2, no. 1, pp.
13981402.
[14] H. R. Wu, K. R. Rao, and A. A. Kassim, Digital Video
Image Quality and Perceptual Coding, Journal of
Electronic Imaging, vol. 16, no. 3, 2007.
[15] Z. Wang and A. C. Bovik, A universal image quality
index, IEEE Signal Processing Letters, vol. 9, no. 3,
pp. 8184, Mar. 2002.
[16] Y. Shi, Y. Ding, R. Zhang, and J. Li, Structure and Hue
Similarity for Color Image Quality Assessment, in 2009
International Conference on Electronic Computer
Technology, 2009, pp. 329333.
[17] W. B. Silva, A. A. P. Pohl, and K. V. O. Fonseca, A
Reduced-Reference Video Quality Assessment Method
based on the Activity-Diference of DCT Coefcients,
IEICE Transactions on Information and Systems, vol. E96-D, no. 3, 2013.
[18] P. Le Callet, C. Viard-Gaudin, and D. Barba, A Convolutional Neural Network Approach for Objective Video Quality Assessment, IEEE Transactions on Neural Networks, vol. 17, no. 5, pp. 13161327, 2006.
[19] P. Le Callet and D. Barba, Image Quality Assessment: From Sites Errors to a Global Appreciation of Quality, in Proceedings of the Picture Coding Sympsium, 2001, pp. 105108.
[20] M. Miyahara, K. Kotani, and V. R. Algazi, Objective picture quality scale (PQS) for image coding, IEEE Transactions on Communications, vol. 46, no. 9, pp. 12151226, 1998.
[21] M. Slanina, V. Ricny, and R. Forchheimer, A Novel Metric for H.264/AVC No-Reference Quality Assessment, in 14th International Workshop on Systems, Signals and Image Processing and 6th EURASIP Conference focused on Speech and Image Processing, Multimedia Communications and Services, 2007, pp. 114117.
[22] O. Sugimoto, S. Naito, S. Sakazawa, and A. Koike, Objective perceptual video quality measurement method based on hybrid no reference framework, in 16th IEEE International Conference on Image Processing (ICIP09), 2009, pp. 22372240.
[23] T. Oelbaum, C. Keimel, and K. Diepold, Rule-Based No-Reference Video Quality Evaluation Using Additionally Coded Videos, IEEE Journal of Selected Topics in Signal Processing, vol. 3, no. 2, pp. 294303, 2009.
[24] N. Staelens, N. Vercammen, Y. Dhondt, B. Vermeulen, P. Lambert, R. de Walle, and P. Demeester, ViQID: A No-Reference bit stream-based visual quality impairment detector, in Proceedings of the Second Int Quality of Multimedia Experience (QoMEX) Workshop, 2010, pp. 206211.
[25] F. Yang, S. Wan, Q. Xie, and H. R. Wu, No-Reference Quality Assessment for Networked Video via Primary Analysis of Bit Stream, IEEE Transactions on Circuits and Systems for Video Technology, vol. 20, no. 11, pp. 15441554, Nov. 2010.
[26] Z. Wang, H. R. Sheikh, and A. C. Bovik, Objective Video Quality Assessment, in The Handbook of Video Databases: Design and Applications, B. Furht and O. Marques, Eds. Boca Raton, FL, USA: CRC Press, 2003, pp. 10411078.
[27] W. B. da Silva and A. de A. P. Pohl, Mtodos Sem Referncia Baseados em Caractersticas Espao-Temporais para Avaliao Objetiva de Qualidade de Vdeo Digital, Universidade Tecnolgica Federal do Paran (UTFPR), 2013.
[28] G.-B. Huang, Q.-Y. Zhu, and C.-K. Siew, Extreme learning machine: Theory and applications, Neurocomputing, vol. 70, no. 13, pp. 489501, Dec. 2006.
[29] Z. Wang, H. R. Sheikh, and A. C. Bovik, No-reference perceptual quality assessment of JPEG compressed images, in Image Processing. 2002. Proceedings. IEEE International Conference on Image Processing, 2002, vol. 1, pp. vol.1 I477 I480.
[30] W. B. Silva and A. A. P. Pohl, No-Reference Video Quality Assessment Method based on the Levenberg-Marquardt Minimization, in XXX Brazilian Symposium on Telecommunications (SBrT12), 2012.
[31] ITU-T P.910, Subjective video quality assessment methods for multimedia applications, Standardization Sector of ITU, 1999.
[32] W. Ding, Y. Tong, Q. Zhang, and D. Yang, Image and Video Quality Assessment Using Neural Network and SVM, Tsinghua Science &amp; Technology, vol. 13, no. 1, pp. 112116, 2008.
[33] K. S. Banerjee, C. R. Rao, and S. K. Mitra, Generalized Inverse of Matrices and Its Applications, Technometrics, vol. 15, no. 1, p. 197, Feb. 1973.
[34] VQEG, Final report from the video quality experts group on the validation of reduced-reference and no-reference objective models for standard defnition television, Phase I, 2009.
[35] VQEG, Report on the validation of video quality models for high defnition video content, 2010.
[36] J. W. Tukey, Exploratory Data Analysis. New York: Addison-Wesley Publishing Company, 1977.
[37] P. Gastaldo and R. Zunino, Neural networks for the no-reference assessment of perceived quality, J. Electronic Imaging, vol. 14, no. 3, p. 033004, 2005.
[38] R. Herzog, M. adk, T. O. Aydn, K. I. Kim, K. Myszkowski, and H.-P. Seidel, NoRM: No-Reference Image Quality Metric for Realistic Image Synthesis, Comp. Graph. Forum, vol. 31, no. 2pt4, pp. 545554, 2012.
As peas mais importantes neste jogo so a jornalista
Zoe Barnes (Kate Mara) e o congressista Peter Russo
(Corey Stoll). Zoe uma reprter ambiciosa e
subutilizada no jornal (fictcio) Washington Herald.
Russo luta contra seus demnios pessoais
alcoolismo e drogas e graas s suas fraquezas
acaba se tornando leal a Underwood. E dele o arco
dramtico da temporada: ao longo dos episdios ele
desce ao fundo do poo por conta de seus vcios, e
acaba sendo resgatado por Underwood, que vai usar
este trunfo em troca de favores e influncia.
O grande diferencial da srie a quebra da quarta
parede
3
pelo personagem principal. Entre um plano
diablico e outro, ele no se incomoda em conversar
com a audincia sobre as hipocrisias, as injustias e a
realidade que o cerca. Essa fuga de regras apenas
enriquece o arco dramtico proposto que, vale notar,
no se encerra com a temporada.
Lanar todos os episdios de uma nica vez foi a
ttica utilizada pela Netflix para alimentar um
fenmeno que ajudou a criar: o binge watching, ou em
traduo livre, assistir at se entupir. Tambm pode
ser definido como qualquer instncia na qual mais de
trs episdios de uma srie dramtica de uma hora de
durao ou seis episdios de uma srie cmica de
meia hora de durao so consumidos de uma nica
vez, atravs de DVDs ou servios de streaming online
(THE LOS ANGELES TIMES, 2013).
Dando continuidade a esta estratgia, a Netflix
principal facilitadora do binge watching e que de
acordo com o The Wall Street Journal observou um
aumento de 38% na quantidade de srie assistidas
por semana pelos seus assinantes desde 2009 (THE
HARVARD CRIMSON, 2013) - lanou em seguida
Orange is the New Black, a quarta temporada de
Arrested Development e planeja produzir pelo menos
cinco sries originais por ano A meta nos

3
Quarta parede o termo utilizado para se referir parede
imaginria situada onde est a cmera, atravs da qual a
platia assiste passiva ao do mundo encenado.
transformarmos na HBO mais rpido do que a HBO
consiga se transformar em ns., diz Ted Sarandos

(GQ, 2013), o diretor de contedo da empresa e
responsvel por aliciar os melhores profissionais do
mercado para trabalhar em suas produes.
E a proposta de Sarandos bem atraente. Com um
oramento para os prximos trs anos de U$300
milhes para a produo de contedo original, ele
oferece completa liberdade criativa em sua explorao
dos limites do storytelling. Para ele, o binge watching
elimina a necessidade de algumas ferramentas como
a recapitulao, a uniformidade de durao dos
episdios e oferece a chance de uma mudana
significativa na narrativa afastando ainda mais a
barreira entre televiso e cinema.
No caso especfico de House of Cards, a srie
claramente estruturada para o consumo por binge
watching. Cada episdio intitulado como captulo.
No existem flashbacks introdutrios, comuns nas
sries tradicionais e ao final de quase todo episdio, o
cliffhanger (exposio do personagem a uma situao
limite, precria, tal como um dilema ou o confronto
com uma revelao surpreendente) to
desconcertante que cria a necessidade do testemunho
de algum tipo de resoluo. Ou seja, o telespectador
precisa continuar assistindo.
A produo e distribuio de contedo original no
para com a Netflix, a Amazon tambm anunciou que
sua recm-criada diviso, AmazonStudios, iria lanar
um nmero de pilotos de sries em potencial e que o
pblico poderia ajudar a decidir quais entrariam em
produo. Solicitou tambm, roteiros e ideias de
criadores que quisessem ser inclusos na iniciativa.
Essa forma de consumo de contedo parece ser uma
tendncia que veio para ficar, mas ser ela capaz de
tomar o lugar da TV convencional? A produo deste
contedo ter que se adequar a ela?

4. BINGE WATCHING QUANDO O FINAL DE UM
EPISDIO NO SIGNIFICA MAIS DESLIGAR
A revista Forbes publicou em maio de 2013 uma
recente pesquisa realizada pela empresa de relaes
pblicas Edelman, de acordo com a qual 88% das
pessoas entrevistadas em um estudo global disseram
querer assistir a mais de um episdio de sua srie
favorita por vez e que desejam discuti-la com os
amigos instantaneamente (FORBES, 2013). E, mais,
as pessoas que praticam o binge watching uma vez, o
praticam novamente.
4

O professor Robert Thompson, especialista em TV e
cultura pop da Universidade de Syracuse, por
exemplo, confessa ter assistido a todos os 13
episdios de House of Cards nas primeiras 24 horas
aps seu lanamento na Netflix.
Eu acho que a melhor forma de assistir a
esses novos programas serializados de
alta qualidade por binge watching. A
forma ideal de assistir BreakingBad, The
Wire, Homeland ou Dexter da mesma
forma que voc leria um romance e
voc no leria um nico captulo de Moby
Dick por semana. Se voc tem o tempo
livre e consegue fazer isso e se agora
voc tem essa opo, uma excelente
forma de assistir a esses programas.
(THE POST STANDART, 2013)
Os efeitos do binge watching sobre seus praticantes
em longo prazo ainda no podem ser avaliados mas
alguns profissionais de psicologia j expressam suas
opinies sobre o que pode levar a esse tipo de
consumo (FOLHA DE S. PAULO, 2013). Para o
professor Jos Leon Crochk, do Instituto de
Psicologia da USP, o sentimento de ansiedade a
chave para entender este comportamento.

4
Outro estudo conduzido pela consultoria de mdia Frank N.
Magid Associates Inc., mostra que a maioria dos norte-
americanos entre as idades de 8 e 66 anos admitiram se
engajar nessa forma de consumo de contedo.

Estamos mais ansiosos para concluir o
que comeamos. O prazer, a ateno e a
compreenso do que fazemos ou
assistimos diminui. Isso se aproxima de
compulso: uma atividade que se repete
infindavelmente e cujo sentido a prpria
repetio.
Em contrapartida a professora da PUC Rosa Maria
Farah, defende a pro atividade embutida no ato de
consumir por binge watching proveniente de um
aumento de escolha do espectador e acredita que
quem tem propenso ansiedade vai expressar isso,
mas formas de lidar com a tecnologia variam como os
tipos humanos."
J em 2004, Betsy Frank, vice-presidente executiva de
pesquisa e planejamento da MTV Networks, antevia
uma mudana no perfil do consumidor, moldada a
partir das novas possibilidades tecnolgicas que
tinham ao seu alcance.
O grupo de pessoas nascidas a partir de
meados da dcada de 1970, que nunca
conheceram um mundo sem tv a cabo,
videocassete ou Internet, que nunca
tiveram de se conformar com escolhas
foradas ou com o programa menos
objetvel, que cresceram com uma
atitude 'o que eu quero, quando eu quero'
diante das mdias e, assim,
desempenham um papel muito mais ativo
em suas escolhas. (FRANK, 2004)
Disponibilizar sries inteiras online de uma s vez no
mudou apenas o comportamento do pblico com
relao ao seu consumo, abriu tambm novas
possibilidades para os produtores de TV. No caso de
Arrested Development cada novo episdio focado
em um personagem diferente, uma abordagem que
talvez frustrasse os telespectadores que estivessem
assistindo a um novo episdio a cada semana.
Esse novo formato oferece aos roteiristas um maior
leque de oportunidades narrativas. O consumo por
binge watching se adequa melhor a tramas altamente
serializadas, que possuem muitos enredos,
48 Revista de Radiodifuso v. 07 n. 08 2013
Pesquisas em ambientes digitais - TV Internet Radio Cinema
Pesquisas em ambientes digitais - TV Internet Radio Cinema
Revista de Radiodifuso v. 07 n. 08 2013 49
MTRICA SEM REFERNCIA BASEADA EM REDES NEURAIS
PARA AVALIAO OBJETIVA DE QUALIDADE DE VDEO DIGITAL
Wyllian Bezerra da Silva, Alexandre de Almeida Prado Pohl
Programa de Ps-Graduao em Engenharia Eltrica e Informtica Industrial (CPGEI) UTFPR, Curitiba, Brasil
wyllianbs@gmail.com, pohl@utfpr.edu.br
Resumo: Este trabalho apresenta uma mtrica sem referncia para avaliao de qualidade de vdeo digital baseada em uma rede neural artifcial que usa uma verso estendida do algoritmo de aprendizado ELM (Extreme Learning Machine). O mtodo proposto realiza o treinamento da rede neural a partir de seis caractersticas espao-temporais. Os resultados experimentais mostram que o mtodo proposto apresenta desempenho superior s mtricas de referncia completa PSNR e MS-SSIM na tarefa de predio de qualidade de vdeo. Logo, o mtodo proposto pode ser usado no monitoramento de qualidade em sistemas de transmisso e recepo de vdeo digital, tais como IPTV e TV digital.
Palavras chave: algoritmo ELM, avaliao objetiva de vdeo, mtrica sem referncia, rede neural artifcial.
1. INTRODUO
Durante os ltimos anos, a literatura tem apresentado um nmero crescente publicaes acerca de mtricas objetivas para avaliao de qualidade de vdeo para diversas aplicaes em radiodifuso ou no processamento de vdeo digital, seja na aquisio do sinal, codifcao e decodifcao, compresso, transmisso, restaurao, armazenamento, segmentao e exibio de sinais de vdeo digital [14]. A avaliao de qualidade de vdeo digital pode ser realizada por meio de mtricas subjetiva e objetiva. A primeira requer uma grande quantidade de recursos humanos e apresenta elevado custo em sua implementao [13]. Porm, as mtricas objetivas so vantajosas quando apresentam um determinado grau de correlao com as mtricas subjetivas. Logo, o desenvolvimento destas um desafo no campo de avaliao de qualidade de vdeo e imagem. Alm disso, as mtricas objetivas, devido natureza de seu critrio objetivo, independem de interao humana e so facilmente reprodutveis [3]. Dentre as mtricas objetivas destacam-se as mtricas sem referncia (No-Reference NR), pois no necessitam do vdeo de referncia no clculo de sua medida. Entretanto, estas requerem um conhecimento a priori sobre as distores em vdeo digital para que seja estabelecida uma correlao com os resultados subjetivos [3].
A maioria das mtricas NR encontradas na literatura so baseadas na avaliao de qualidade de imagens e em caractersticas relacionadas ao Sistema Visual Humano (SVH). Assim, o desenvolvimento de mtricas NR difcil, devido necessidade de emular a percepo do SVH que envolve aspectos cognitivos, emocionais e estticos relacionados ao contedo do vdeo e que so altamente dependentes do observador [4], [5].
A literatura reporta diversos esforos no desenvolvimento de mtricas para avaliao de qualidade de vdeo baseadas em redes neurais e em algoritmos de aprendizado. Babu et al. [6] apresentam uma mtrica para avaliar a qualidade de imagens comprimidas em JPEG (Joint Photographic Experts Group) por meio de um algoritmo de aprendizado de crescimento e propem o uso de uma rede neural GAP-RBF (Growing and Pruning Radial Basis Function) que usa caractersticas relacionadas ao SVH. Jiang et al. [7] desenvolveram uma mtrica NR para avaliao de qualidade de vdeo em HD (High Defnition) baseada em uma rede neural treinada pelo algoritmo BP (Back-Propagation) que usa seis caractersticas espao-temporais e a RoI (Region of Interest). Choe et al. [8] desenvolveram uma mtrica NR baseada no fuxo de bits para avaliao de qualidade de vdeo codifcado em H.264. Esta mtrica extrai caractersticas quadro a quadro e usa uma rede neural alimentada adiante (feedforward) com trs camadas. Suresh et al. [9] apresentaram uma extenso do algoritmo ELM na tarefa de avaliar a qualidade de imagens comprimidas em JPEG com base no esquema de seleo mltipla KS-ELM (K-fold selection Scheme using ELM) e no algoritmo RCGA-ELM (Real-Coded Genetic Algorithm using ELM) para seleo dos pesos de entrada e polarizaes.
Este trabalho apresenta uma verso estendida do algoritmo ELM para redes neurais SLFN (Single-hidden-Layer Feedforward Neural Networks) que implementa um simples critrio de parada na fase de treinamento. Alm disso, esse mtodo usa seis caractersticas espao-temporais de vdeos submetidos a diversas condies de distoro.
Este artigo est dividido da seguinte maneira: a Seo 2 descreve as mtricas para avaliao de qualidade de vdeo. A Seo 3 descreve o mtodo NR proposto para avalio de qualidade de vdeo digital. A Seo 4 apresenta os resultados experimentais, em que so comparados o mtodo NR proposto e duas mtricas FR. Finalmente, a Seo 5 apresenta a concluso do artigo.
2. AVALIAO DE QUALIDADE DE VDEO
O processo de avaliao de qualidade de vdeo
pode ser realizado com a aplicao de mtricas
subjetivas ou objetivas. As mtricas subjetivas
estimam a qualidade do vdeo por meio de avaliadores
humanos. Logo, exigem um alto custo, pois
necessitam de uma grande quantidade de recursos
humanos e apresentam problemas quanto aos
requisitos de imparcialidade e reprodutibilidade,
tornando-se inapropriadas em sistemas de
radiodifuso ou em provedores de contedo [10], [11].
Por outro lado, as mtricas objetivas so baseadas em
modelos matemticos, cujo objetivo produzir um
escore de qualidade que emule a percepo do SVH.
Alm disso, as mtricas objetivas requerem baixo
custo de implementao (quando comparadas com as
mtricas subjetivas) e no apresentam problemas
quanto reprodutibilidade e imparcialidade.
As mtricas objetivas para avaliao de qualidade
de vdeo podem ser classifcadas em trs categorias:
(i) mtricas de referncia completa (Full-Reference
FR); (ii) mtricas de referncia reduzida (Reduced-
Reference RR); (iii) mtricas sem referncia (NR).
2.1. Mtricas FR
As mtricas FR requerem o vdeo de referncia
(fonte) no clculo do escore de qualidade. Estas
mtricas so amplamente utilizadas no processo de
validao de mtricas RR ou NR, por meio da
comparao de desempenho defnida pelas
recomendaes do Grupo de Especialistas em
Qualidade de Vdeo (VQEG Video Quality Experts
Group) que um rgo de padronizao internacional
de mtricas subjetivas e objetivas de qualidade de
vdeo. Dentre as mtricas FR, destacam-se o PSNR
(Peak Signal-to-Noise Ratio), SSIM (Structural
SIMilarity index) [12] e MS-SSIM (Multi-Scale
Structural SIMilarity index) [13].
O PSNR uma mtrica FR baseada no erro pixel a
pixel de fcil implementao. Entretanto, apresenta
baixa correlao com o SVH [14]. A sua medida
processada sobre o erro quadro a quadro, i.e., entre o
quadro original x e o quadro y . A expresso a seguir
defne o PSNR para um conjunto de quadros F .
20
1
1
PSNR 20log ,
F
f
f f
v
F MSE



(1)
com

2
0 0
1
MSE , , , , ,
N M
f
i j
x f i j y f i j
NM

(2)
em que o termo f v igual a (2 1) k , cujo k o
nmero de bits por pixel, i.e., a componente de
luminncia do quadro f . Os termos x f ,i, j e
y f ,i, j so os valores de luminncia do quadro de
origem e degradado, respectivamente. As
componentes bidimensionais so representadas pelo
nmero de colunas N e pelo nmero de linhas M . O
termo f MSE defnido como erro quadrtico mdio
ou MSE (Mean Square Error).
A mtrica SSIM baseia-se no fato de que o SVH
fortemente adaptado para extrair informaes das
caractersticas estruturais de um quadro ou imagem.
Logo, uma medida de similaridade estrutural (ou
distoro) pode prover boa aproximao para a
qualidade perceptual de um vdeo [3, 79]. Sejam x e
y dois sinais no-negativos, em que y o sinal
degradado e x o sinal original (sem perda de
qualidade), a medida de similaridade utilizada como
um ndice quantitativo de qualidade do sinal distorcido,
ou seja, x tomado como a referncia para medir a
qualidade de y . A mtrica SSIM possui diversas
extenses, dentre as quais a verso MS-SSIM,
proposta por Wang et al. [13] que assume uma
abordagem multiescalar.
2.2. Mtricas RR
As mtricas de referncia reduzida retiram certa
quantidade de caractersticas do vdeo original (fonte),
baseadas em componentes espaciais, temporais, no
domnio da frequncia ou no fuxo de bits (bitstream).
Este tipo de mtrica amplamente utilizada no
monitoramento de transmisses em rede [17]. Neste
tipo de cenrio de aplicao, o vdeo transmitido
com uma sequncia de informao codifcada
(overhead) e no lado receptor ocorre a sua
decodifcao, seguido pelo clculo do ndice de
qualidade, o qual obtido por meio da comparao
entre a representao reduzida da informao nos
pares emissor e receptor [18]. Tipicamente, mtricas
RR so implementadas por meio de funes, divididas
em duas etapas [19]: (i) clculo do erro entre os
vdeos original e distorcido, constitudo pela diferena
de suas caractersticas, a fm de compor a
representao reduzida da informao; (ii) funo que
agrupa os erros ou diferenas para obter um ndice de
qualidade global. Algumas mtricas RR exploram
propriedades dos artefatos, por meio da extrao de
caractersticas e um modelo de parametrizao [20]
com foco em tipos especfcos de distores
(artefatos). Esta abordagem encontrada em Silva et
al. [17], cujo clculo do escore de qualidade
baseado na diferena de atividade dos coefcientes
DCT (Discrete Cosine Transform) em um macro bloco
com resoluo de 1616 pixels.
2.3. Mtricas NR
As mtricas NR extraem caractersticas
relacionadas ao SVH do vdeo distorcido, i.e., na
recepo do sinal de vdeo [14]. Tipicamente, h duas
abordagens no desenvolvimento destas mtricas: (i)
extrao dos parmetros sobre o fuxo de bits, tais
como a taxa de compresso, informaes
relacionadas ao GoP (Group of Pictures), estimao
de movimento, perfl e nvel de codifcao, bem como
o parmetro de quantizao ou QP (Quantization
Parameter) [2125]. Mtricas NR apresentam maior
complexidade quando so aplicadas em vdeo, devido
variao temporal dos quadros, contedos das
cenas e difculdade de compreenso das
caractersticas do SVH [26]. Assim, algumas mtricas
dessa categoria exploram caractersticas espaciais e
temporais na estimao de qualidade de vdeo [21].
3. MTODO PROPOSTO
O mtodo proposto, denominado NRVQA-ELMtc
(No-Reference Video Quality Assessment using
Extreme Learning Machine algorithm with termination
criteria) [27] combina caractersticas espaciais e
temporais, por meio de uma rede neural artifcial
SLFNs usando o algoritmo de treinamento ELM [28]
com a implementao de um simples critrio de
parada.
3.1. Caractersticas espao-temporais
As caractersticas espaciais incorporadas no
mtodo proposto so baseadas em medidas de
artefatos em vdeo digital, i.e., distores de blocagem
e borramento desenvolvidas por Wang et al. [20].
Assim, a componente de luminncia do quadro f
representada por y(f , i, j ) com i 1,M e j 1, N ,
em que M e N so os nmeros de linhas e colunas,
respectivamente, de um quadro. Logo, as diferenas
de luminncia ao longo das linhas e colunas so
representadas, respectivamente, pelas expresses a
seguir.


, , , , 1 , , , 1, 1 ,
, , , 1, , , , 1, 1 .
h
v
d f i j y f i j y f i j j N
d f i j y f i j y f i j i M


(3)
O efeito de blocagem pode ser estimado pela
mdia das diferenas entre as bordas dos blocos da
DCT (Discrete Cosine Transform) nas direes
horizontal e vertical para uma sequncia F de
quadros, conforme mostra a Equao (4), com um
macrobloco de dimenso , cujo tamanho tpico
de 8 [20].


1
1
1 1 1
1
1
1 1 1
1
, , 1 ,
1
1
1
, 1 , .
1
1
N
F M
h h
f i j
M
F N
v
i j
v
f
B d f i j
N
F M
B d f i j
M
F N












(4)
A medida de blocagem em uma sequncia de
vdeo com F quadros determinada pela mdia entre
h B e v B , caracterizando a medida B , conforme a
expresso a seguir.
.
2
h v B B
B

(5)
Os efeitos de borramento so estimados pelo
clculo da reduo de atividade entre os blocos ,
em que usada a medida de blocagem nas direes
horizontal e vertical, conforme as expresses




1
1 1 1
1
1 1 1
, , ,
1 1
, ,
1
.
1
F M N
h h h
f i j
F M N
v v
f
v
i j
A d f i j B
F M N
A d f i j B
F N M








(6)
A medida de borramento, representada por A ,
conforme a Equao (7), determinada pela mdia
entre h A e v A .
.
2
h v A A
A

(7)
O segundo fator que contribui para a deteco do
artefato de borramento baseado na taxa de
cruzamento por zero (Zero Crossing ZC) nas
direes horizontal e vertical, conforme as expresses
a seguir.




2
1 1 1
2
1 1 1
1
, , ,
2
1
, , ,
2
F M N
h h
f i j
F M N
v v
f i j
Z z f i j
F M N
Z z f i j
F N M




(8)
em que os termos h z e v z so determinados por


1, na direo horizontal
, , ,
0, caso contrrio
1, na direo vertical
, , .
0, caso contrrio
h
v
z f i j
z f i j



(9)
Assim, a medida de borramento Z determinada
pela mdia entre as componentes h Z e v Z .
.
2
h v Z Z
Z

(10)
O mtodo proposto tambm incorpora trs
caractersticas temporais no treinamento da rede
neural SLFN com o algoritmo ELM.
A primeira caracterstica temporal a diferena de
movimento entre quadros adjacentes, representada
pela varivel TI (Temporal perceptual Information) [31]
que considera os valores de luminncia de pixels
localizados em uma mesma regio de um quadro,
conforme a expresso a seguir.

2
1
, , ,
1
F
f
TI m f i j
F


(11)
em que o nmero total de quadros F e mf ,i, j

o desvio padro da diferena de movimento
(diferena de luminncia) entre o quadro atual
y f ,i, j e o quadro anterior y f 1,i, j .
A segunda caracterstica temporal a mdia da
diferena absoluta (Mean Absolute Diference MAD)
[31] entre quadros sucessivos, representada pela
Equao (12) que defne a medida global da MAD
para todos os quadros de um vdeo.


2 1 1
1
, , 1, , .
1
F M N
f i j
MAD y f i j y f i j
M N F



(12)
A terceira caracterstica temporal a mdia da
diferena absoluta ponderada (weighted Mean
Absolute Diference MADw) [32], a qual mede o grau
de variao das cenas de um vdeo que considera a
cena atual de um quadro f e do quadro anterior f 1,
conforme a expresso:
2 1
1
.
1
F
f
f f
MAD
MADw
F MAD


(13)
Assim, o mtodo proposto combina as
caractersticas espaciais e temporais em uma matriz
, , , , , f f f f f f f x A B Z TI MAD MADw , em que f o
nmero de amostras de vdeo. A Figura 1 apresenta
as caractersticas temporais espaciais de dezessete
bases de dados de vdeos (denominada superconjunto
S) usadas neste trabalho e reportadas em [27]. A
recomendao ITU-T P.910 [31] defne a medida SI
(Spatial perceptual Information) como informao
espacial perceptual. A inspeo visual dessa fgura
mostra que as amostras de vdeo usadas neste
trabalho apresentam uma grande variao espaotemporal.
Fig. 1. Caractersticas espaciais e temporais do superconjunto
S com 216 amostras de referncia
3.2. Mtrica NRVQA-ELMtc
O algoritmo ELM [28] desenvolvido para o
treinamento de uma rede SLFN atribui pesos e
polarizaes (biases) de maneira aleatria, segundo
uma distribuio uniforme. O treinamento compreende
N amostras distintas representadas pela varivel
, , , 1, , n m
f f f f x t x t f N , cujo clculo
conforme a expresso

1
, 1, , ,
K
K i j j f j f
f
f g b f N

x w x o (14)
em que f o a sada (escore objetivo), g(x) a
funo de ativao e j o peso que conecta o jsimo
neurnio da camada oculta ao neurnio de
sada. De acordo com [28], uma rede SLFN com K
ns na camada oculta e uma funo de ativao g(x)
pode apresentar um erro mdio prximo de zero, i.e.,
1
0
K
f f
f
o t . Logo, h parmetros j , j w e j b tal
que

1
, 1, , ,
K
j j f j f
f
g b f N

w x t (15)
em que f t o vetor alvo (escores subjetivos),
T
1, , j j jn w w w o vetor de peso que conecta o jsimo
neurnio da camada oculta ao neurnio da
camada de entrada, j b denota a polarizao (bias) do
j-simo neurnio da camada oculta, j f w x o
produto interno de j w e f x . A Figura 2 ilustra o
algoritmo ELM empregado em uma arquitetura de
rede neural SLFN.
xi
1
j
N
1
j
K
ti
bj
N input neuron K hidden neuron output neuron
1
K
wj
Fig. 2. Arquitetura de uma rede neural SLFN usando algoritmo
de treinamento ELM
O sistema linear da Equao (16) resume o mtodo
do algoritmo ELM.
H T, (16)
em que a matriz da camada oculta representada por
1, , and 1, , f H h f N j K com a primeira
linha da matriz de caractersticas f x igual a
T
1 2 , , , f f f fn x x x x , i.e., a primeira linha igual a
1 1 1 1 1 1 1 , , , , , f f f f f f f x A B Z TI MAD MADw . A matriz de
sada e o vetor alvo (target) so defnidos como
T
1 , K e
T
1, , N T t t , respectivamente. O
termo
T
1 , 1, , j jm j j K denota o vetor de
peso que conecta o j-simo neurnio da camada
oculta e os neurnios de sada. Hung et al. [28]
propuseram a atribuio aleatria de pesos aos
parmetros j w e j b , a fm de seja obtido um pequeno
erro no-nulo durante o treinamento. Considerando o
sistema linear da Equao (17), os pesos da camada
de sada podem ser aproximados por
H T (17)
em que H defnida como matriz inversa
generalizada de Moore-Penrose (MP) [33] da matriz
de sada da camada oculta H . Alm disso, o
conjunto de treinamento , n oculta K e uma
funo de ativao g x , e.g., funo de base radial
(Radial Basis Function RBF), hard-limiting (hardlim),
sigmoidal (sig) e seno (sin). Em resumo, o algoritmo
ELM compreende trs etapas [28]:
i) Atribuio aleatria dos pesos de entrada j w e
polarizaes j b ;
ii) Clculo da matriz da camada de sada H ;
iii) Clculo dos pesos de sada : H T .
O mtodo NRVQA-ELMtc [27] implementa um
simples critrio de parada no treinamento da rede
neural SLFN, quanto atribuio aleatria dos pesos
j w e j b . Embora este critrio no seja direcionado,
busca os pesos relacionados com o menor RMSE
(Root-Mean-Square Error) entre a sada desejada
(escore subjetivo) e o escore objetivo na fase de
treinamento com k iteraes (tipicamente, k 100 ) e
N neurnios na camada oculta. Alm disso, conforme
estudo realizado em [27], caso o RMSE seja menor do
que 0,5 o algoritmo cessa a busca pelos parmetros
j w e j b .
4. RESULTADOS EXPERIMENTAIS
Esta seo apresenta os resultados de acurcia,
i.e., os coefcientes de correlao linear de Pearson
(Pearson Linear Correlation Coefcient PLCC) [34],
[35], entre os escores objetivos e subjetivos de 2627
amostras de vdeo estudadas em [27].
A Figura 3 compara a acurcia (PLCC) entre as
mtricas de referncia completa (FR) PSNR e MSSSIM
com o mtodo proposto (NRVQA-ELMtc) para
as 2627 amostras de vdeo, pertencentes a 17 bases
de dados de vdeo disponibilizadas por diversas
instituies e laboratrios [27]. A funo de ativao
usada na rede neural SLFN foi o seno (sin) com o
nmero de amostras de teste igual ao nmero de
neurnios na camada oculta ( N ). O mtodo de
validao cruzada mltipla (K-fold) foi usado com o
objetivo de gerar uma distribuio de acurcia, a qual
foi analisada por meio do diagrama de caixa (box-plot)
[36], em que o trao, o crculo e o quadrado, ambos
em vermelho, representam a mediana, a mdia e o
desvio padro, respectivamente. Destaca-se que
neste trabalho foi empregada uma validao cruzada
com um grande nmero de amostras de treinamentoteste
com K 100 , i.e., cada caixa do box-plot
comporta 100 experimentos distintos. Tipicamente, a
literatura apresenta trabalhos no campo da avaliao
Fig. 3. Box-plot da predio da acurcia (PLCC) entre as mtricas PSNR, MS-SSIM e o mtodo proposto NRVQA-ELMtc
de qualidade de vdeo com K entre 5 e 10 [37], [38].
Pela inspeo visual da Figura 3 observa-se que o
desempenho do mtodo proposto superior s
mtricas FR, em quaisquer condies de teste, i.e.,
para qualquer quantidade de amostras de teste
(nmero de neurnios na camada oculta) entre 25 e
500. Em especial, para N 50 , o mtodo proposto
apresenta valores de PLCC, em termos da mdia e
mediana, acima de 0,8, denotando uma forte
associao entre os escores objetivos e subjetivos, na
tarefa de predio de qualidade de vdeo. Isto ocorre
devido grande quantidade de amostras de vdeo
usadas no treinamento, e.g., para N 300 foram
usadas 2327 amostras de treinamento, ou seja,
mesmo usando pares de treinamento-teste disjuntos,
o mtodo proposto mostra uma acurcia superior s
mtricas de referncia completa. A assimetria positiva,
i.e., a maior concentrao da acurcia entre o
segundo quartil (mediana) e o terceiro quartil, na
distribuio do box-plot nos testes com 300 e 500
neurnios na camada oculta, indica que o mtodo
proposto apresenta um desempenho expressivo em
comparao com as mtricas FR.
Entretanto, mesmo para N entre 25 e 50, o
mtodo proposto apresentou uma acurcia maior do
que as mtricas FR, cujo melhor resultado foi para
N 25 com o desvio-quartil (amplitude interquartlica)
confnado entre 0,65 e 0,8. Alm disso, este resultado
tambm apresentou assimetria positiva com a mdia
do PLCC em torno de 0,75.
5. CONCLUSO
Este trabalho apresentou uma mtrica NR baseada
em uma rede neural artifcial SLFN, cujo treinamento
determinado pelo algoritmo ELM, o qual considera
caractersticas espao-temporais e os escores
subjetivos (alvos) extrados de 2627 amostras
treinamento. Alm disso, este trabalho prope uma
extenso do algoritmo ELM por meio de um simples
critrio de parada, a fm de que sejam obtidos
parmetros da rede neural artifcial relacionados com
o menor RMSE. Tipicamente, a comparao entre
mtricas FR e NR injusta, devido ausncia do
vdeo de referncia na obteno do escore de
qualidade em mtricas NR. Entretanto, os resultados
experimentais mostram que o mtodo proposto
apresentou desempenho superior s mtricas de
referncia completa PSNR e MS-SSIM, sobretudo,
quando o nmero de amostras de teste e de neurnios
na camada oculta da rede SLFN maior do que 250.
Logo, a mtrica NRVQA-ELMtc pode ser empregada
no monitoramento de qualidade em sistemas de
transmisso e recepo de vdeo digital, tais como
IPTV (Internet Protocol Television), TV digital ou em
dispositivos mveis, tais como ultrabooks,
smartphones, tablets e em aparelhos WiDi (Wireless
Display).
REFERNCIAS
[1] S. Winkler, Issues in vision modeling for perceptual
video quality assessment, Signal Processing, vol. 78,
no. 2, pp. 231252, 1999.
[2] Z. Wang and A. C. Bovik, Modern image quality
assessment. San Rafael, CA: Morgan & Claypool,
2006.
[3] W. Lin and C.-C. Jay Kuo, Perceptual visual quality
metrics: A survey, Journal of Visual Communication
and Image Representation, vol. 22, no. 4, pp. 297312,
May 2011.
[4] S. S. Hemami and A. R. Reibman, No-reference image
and video quality estimation: Applications and humanmotivated
design, Signal Processing: Image
Communication, vol. 25, no. 7, pp. 469481, 2010.
[5] Z. Wang and A. Bovik, Reduced- and No-Reference
Image Quality Assessment, IEEE Signal Processing
Magazine, vol. 28, no. 6, pp. 2940, Nov. 2011.
[6] R. V. Babu, S. Suresh, and A. Perkis, No-reference
JPEG-image quality assessment using GAP-RBF,
Signal Processing, vol. 87, no. 6, pp. 14931503, 2007.
[7] X. Jiang, F. Meng, J. Xu, and W. Zhou, No-Reference
Perceptual Video Quality Measurement for High
Defnition Videos Based on an Artifcial Neural
Network, in Computer and Electrical Engineering,
2008. ICCEE 2008. International Conference on, 2008,
pp. 424427.
[8] J. Choe, K. Lee, C. Lee, and S. Korea, No-reference
video quality measurement using neural networks, in
2009 16th International Conference on Digital Signal
Processing, 2009, pp. 14.
[9] S. Suresh, R. Venkatesh Babu, and H. J. Kim, Noreference
image quality assessment using modifed
extreme learning machine classifer, Applied Soft
Computing, vol. 9, no. 2, pp. 541552, Mar. 2009.
[10] A. M. Eskicioglu and P. S. Fisher, Image quality
measures and their performance, IEEE Transactions
on Communications, vol. 43, no. 12, pp. 29592965,
1995.
[11] U. Engelke and H.-J. Zepernick, Perceptual-based
Quality Metrics for Image and Video Services: A
Survey, in Proceedings EuroNGI Conf. Next
Generation Internet Networks, 2007, pp. 190197.
[12] Z. Wang, A. C. Bovik, H. R. Sheikh, and E. P
Simoncelli, Image quality assessment: from error
visibility to structural similarity., IEEE Transactions on
Image Processing, vol. 13, no. 4, pp. 600612, 2004.
[13] Z. Wang, E. P. Simoncelli, and A. C. Bovik, Multiscale
structural similarity for image quality assessment, in
The Thrity-Seventh Asilomar Conference on Signals,
Systems & Computers, 2003, 2003, vol. 2, no. 1, pp.
13981402.
[14] H. R. Wu, K. R. Rao, and A. A. Kassim, Digital Video
Image Quality and Perceptual Coding, Journal of
Electronic Imaging, vol. 16, no. 3, 2007.
[15] Z. Wang and A. C. Bovik, A universal image quality
index, IEEE Signal Processing Letters, vol. 9, no. 3,
pp. 8184, Mar. 2002.
[16] Y. Shi, Y. Ding, R. Zhang, and J. Li, Structure and Hue
Similarity for Color Image Quality Assessment, in 2009
International Conference on Electronic Computer
Technology, 2009, pp. 329333.
[17] W. B. Silva, A. A. P. Pohl, and K. V. O. Fonseca, A
Reduced-Reference Video Quality Assessment Method
based on the Activity-Diference of DCT Coefcients,
IEICE Transactions on Information and Systems, vol. E96-D, no. 3, 2013.
[18] P. Le Callet, C. Viard-Gaudin, and D. Barba, A Convolutional Neural Network Approach for Objective Video Quality Assessment, IEEE Transactions on Neural Networks, vol. 17, no. 5, pp. 13161327, 2006.
[19] P. Le Callet and D. Barba, Image Quality Assessment: From Sites Errors to a Global Appreciation of Quality, in Proceedings of the Picture Coding Sympsium, 2001, pp. 105108.
[20] M. Miyahara, K. Kotani, and V. R. Algazi, Objective picture quality scale (PQS) for image coding, IEEE Transactions on Communications, vol. 46, no. 9, pp. 12151226, 1998.
[21] M. Slanina, V. Ricny, and R. Forchheimer, A Novel Metric for H.264/AVC No-Reference Quality Assessment, in 14th International Workshop on Systems, Signals and Image Processing and 6th EURASIP Conference focused on Speech and Image Processing, Multimedia Communications and Services, 2007, pp. 114117.
[22] O. Sugimoto, S. Naito, S. Sakazawa, and A. Koike, Objective perceptual video quality measurement method based on hybrid no reference framework, in 16th IEEE International Conference on Image Processing (ICIP09), 2009, pp. 22372240.
[23] T. Oelbaum, C. Keimel, and K. Diepold, Rule-Based No-Reference Video Quality Evaluation Using Additionally Coded Videos, IEEE Journal of Selected Topics in Signal Processing, vol. 3, no. 2, pp. 294303, 2009.
[24] N. Staelens, N. Vercammen, Y. Dhondt, B. Vermeulen, P. Lambert, R. de Walle, and P. Demeester, ViQID: A No-Reference bit stream-based visual quality impairment detector, in Proceedings of the Second Int Quality of Multimedia Experience (QoMEX) Workshop, 2010, pp. 206211.
[25] F. Yang, S. Wan, Q. Xie, and H. R. Wu, No-Reference Quality Assessment for Networked Video via Primary Analysis of Bit Stream, IEEE Transactions on Circuits and Systems for Video Technology, vol. 20, no. 11, pp. 15441554, Nov. 2010.
[26] Z. Wang, H. R. Sheikh, and A. C. Bovik, Objective Video Quality Assessment, in The Handbook of Video Databases: Design and Applications, B. Furht and O. Marques, Eds. Boca Raton, FL, USA: CRC Press, 2003, pp. 10411078.
[27] W. B. da Silva and A. de A. P. Pohl, Mtodos Sem Referncia Baseados em Caractersticas Espao-Temporais para Avaliao Objetiva de Qualidade de Vdeo Digital, Universidade Tecnolgica Federal do Paran (UTFPR), 2013.
[28] G.-B. Huang, Q.-Y. Zhu, and C.-K. Siew, Extreme learning machine: Theory and applications, Neurocomputing, vol. 70, no. 13, pp. 489501, Dec. 2006.
[29] Z. Wang, H. R. Sheikh, and A. C. Bovik, No-reference perceptual quality assessment of JPEG compressed images, in Image Processing. 2002. Proceedings. IEEE International Conference on Image Processing, 2002, vol. 1, pp. vol.1 I477 I480.
[30] W. B. Silva and A. A. P. Pohl, No-Reference Video Quality Assessment Method based on the Levenberg-Marquardt Minimization, in XXX Brazilian Symposium on Telecommunications (SBrT12), 2012.
[31] ITU-T P.910, Subjective video quality assessment methods for multimedia applications, Standardization Sector of ITU, 1999.
[32] W. Ding, Y. Tong, Q. Zhang, and D. Yang, Image and Video Quality Assessment Using Neural Network and SVM, Tsinghua Science &amp; Technology, vol. 13, no. 1, pp. 112116, 2008.
[33] K. S. Banerjee, C. R. Rao, and S. K. Mitra, Generalized Inverse of Matrices and Its Applications, Technometrics, vol. 15, no. 1, p. 197, Feb. 1973.
[34] VQEG, Final report from the video quality experts group on the validation of reduced-reference and no-reference objective models for standard defnition television, Phase I, 2009.
[35] VQEG, Report on the validation of video quality models for high defnition video content, 2010.
[36] J. W. Tukey, Exploratory Data Analysis. New York: Addison-Wesley Publishing Company, 1977.
[37] P. Gastaldo and R. Zunino, Neural networks for the no-reference assessment of perceived quality, J. Electronic Imaging, vol. 14, no. 3, p. 033004, 2005.
[38] R. Herzog, M. adk, T. O. Aydn, K. I. Kim, K. Myszkowski, and H.-P. Seidel, NoRM: No-Reference Image Quality Metric for Realistic Image Synthesis, Comp. Graph. Forum, vol. 31, no. 2pt4, pp. 545554, 2012.
personagens e reviravoltas que prendam a ateno da
audincia, potencializando o vcio. Essas tramas
adotam uma narrativa contnua de longo formato que
entrelaa histrias atravs das temporadas ou atravs
da srie inteira, como foi feito em Lost. Elas remetem
a captulos de um romance devido s formas como os
temas, os episdios e as temporadas se desdobram
continuamente, construindo em cima das teias das
tramas e dos arcos dos personagens com o passar do
tempo. Diferentemente do padro das tramas no
serializadas, tudo o que acontece com os
personagens, impacta os episdios subsequentes e
pode recontextualizar aes e acontecimentos de
episdios passados.
Para Thompson, muitas sries hoje em dia tm sido
pensadas e produzidas para serem assistidas de uma
s vez. A continuidade e a habilidade de ver sutilezas
e conexes entre os episdios tem tornado mais
importantes nas sries. Antes da serializao no
havia porque assistir a vrias horas do mesmo
programa j que cada episdio se resolvia sozinho.

5. NETFLIX VS. CABO
A Netflix se tornou o que a HBO era em 1999, quando
estava se tornando a lder na produo de contedo
original de alta qualidade. diz Thompson. House of
Cards parece algo que poderia ter sido visto na HBO.
Tem um grande astro Kevin Spacey, uma temporada
completa de 13 episdios e um alto oramento.
A deciso de produzir uma srie dramtica com um
custo de U$100 milhes com Kevin Spacey e David
Fincher , de fato, um passo em direo aos canais a
cabo premium como a HBO e o Showtime e o
prximo passo lgico para os servios de streaming
de contedo online, oferecer aos consumidores mais
uma razo e uma razo mais forte para visit-los. Se a
Netflix tivesse lanado House of Cards no formato
tradicional semanal, ela no s estaria abandonando o
modelo especfico do seu prprio servio como
pareceria querer copiar aqueles canais. Dessa forma,
ela demonstra que no necessrio ter um pacote
caro de tv a cabo premium para ter acesso a um
contedo de alta qualidade, s so necessrias uma
conexo de internet e uma mensalidade de baixo
custo.
Por enquanto, porm, a Netflix ainda no consegue
competir com as redes de televiso que produzem
dezenas de shows por ano e oferecem programao
original quase o dia todo. A HBO, por exemplo, produz
contedo h mais de 25 anos e possui 114 milhes de
assinantes, quase quatro vezes mais que sua mais
nova concorrente digital. E, por isso, no estaria muito
preocupada com ela. Segundo Jeff Bewkes, CEO da
Time Warner, a Netflix ainda teria um longo caminho
pela frente para atingir os grandes canais de TV a
cabo em escala. Ainda que atrs das redes rivais em
quantidade, a Netflix se garante na qualidade e
mesmo que a HBO no se mostre muito preocupada
no momento, o cenrio tende a mudar em poucos
anos, com mais alguns lanamentos.
Ainda assim, j existe uma movimentao de algumas
empresas do setor para tentar frear o aparente
despontamento da Netflix na corrida pela liderana do
mercado.
Mesmo no tendo sido a percursora na ideia de
contedo sob demanda a Comcast diz ter lanado
este servio h uma dcada quando a Netflix ainda
apenas enviava DVDs pelo correio a grande
diferena est na qualidade do contedo
disponibilizado pelas operadoras de cabo (Comcast
nos EUA, NET NOW no Brasil) e alguns canais
especficos (HBO GO, Telecine On Demand) e pelos
servios estritamente online como a Netflix, Hulu,
NetMovies, YouTube, Google Play e iTunes.
As operadoras e os canais oferecem, sem custo
adicional ao j pago pelo pacote, apenas uma seleo
restrita de filmes exibidos recentemente e no mais
que cinco episdios de algumas sries, sendo que
50 Revista de Radiodifuso v. 07 n. 08 2013
Pesquisas em ambientes digitais - TV Internet Radio Cinema
todo esse contedo tem prazo de validade e logo so
excludos e substitudos por outros. J os servios
online, a Netflix especialmente, oferecem uma
infinidade de contedos entre filme e temporadas
completas de seriados, seja por assinatura mensal ou
compra de filmes e episdios individuais.
Isso est para mudar. De acordo com uma matria do
Wall Street Journal, a Comcast teria fechado um
acordo com a 21st Century Fox Inc. para disponibilizar
em seu servio on demand, temporadas completas de
algumas de suas sries (WALL STREET JOURNAL,
2013). Essa jogada elucida muito bem o efeito
Cronos: as medidas tomadas por uma empresa
dominante para destruir seus potenciais sucessores
ainda na infncia (WU, 2010).
Dessa forma, a indstria do cabo garante uma maior
explorao dos contedos antes que cheguem nos
servios online e inflaciona os valores de compra de
suas primeiras janelas ps-cinema.
Fica a dvida se a Netflix conseguir bancar
financeiramente a sua presena neste mercado ou se
isso no ser necessrio caso consiga oferecer um
volume maior de produes originais de qualidade.

6. CONCLUSO
O que se pode enxergar no futuro do mercado de
contedo pago que ele parece ser cada vez mais
fragmentado. Com a quantidade de servios
disputando a ateno dos consumidores e criando
contedos exclusivos para atra-los, provvel que
nunca haja um nico servio que oferea todas as
opes em um nico lugar. Sempre existir a
demanda pela grade de programao convencional
quando o que se quer apenas a companhia da
televiso. E para os servios que atendem os
devoradores de contedo, como a maioria no tem um
contrato de longo prazo e o contedo oferecido no
no formato de uma grade de programao
convencional, possvel assistir a uma srie em
qualquer espao de tempo. Dessa forma, os
consumidores podem se tornar itinerantes, sempre
procurando pelos melhores contedos e mudando de
servios mensalmente.

REFERNCIAS

VARIETY, 2013. Netflix surpasses HBO in U.S.
subscribers. Disponvel em <http://variety.com/2013/
digital/news/netflix-surpasses-hbo-in-u-s-subscribers-
1200406437/>. Acesso em 05/08/2013.
WU, T. Imprios da Comunicao. Do telefone
Internet, da AT&T ao Google. Editora Zahar, 2010.
GQ, 2013. And the Award for the Next HBO Goes to...
Disponvel em <http://www.gq.com/entertainment/
movies-and-tv/201302/netflix-founder-reed-hastings-
house-of-cards-arrested-
development?currentPage=1>. Acesso em
15/08/2013.
VARIETY, 2013. Netflix Inks Pact with The Weinstein
Co. for Pay TV Window. Disponvel em
<http://variety.com/2013/digital/news/netflix-inks-pact-
with-the-weinstein-co-for-pay-tv-window-
1200582278/>. Acesso em 25/08/2013.
THE LOS ANGELES TIMES, 2013. Binge-viewing is
transforming the television experience. Disponvel em
<http://articles.latimes.com/2013/feb/01/entertain-
ment/la-et-ct-binge-viewing-20130201>. Acesso em
20/06/2013.
THE HARVARD CRIMSON, 2013. The new binge.
Disponvel em <http://www.thecrimson.com/article/
2013/1/30/Harvard-binge-Netflix/>. Acesso em
20/06/2013.
FORBES, 2013. Binge watching is our future.
Disponvel em <http://www.forbes.com/sites/
Pesquisas em ambientes digitais - TV Internet Radio Cinema
Revista de Radiodifuso v. 07 n. 08 2013 51
MTRICA SEM REFERNCIA BASEADA EM REDES NEURAIS
PARA AVALIAO OBJETIVA DE QUALIDADE DE VDEO DIGITAL
Wyllian Bezerra da Silva, Alexandre de Almeida Prado Pohl
Programa de Ps-Graduao em Engenharia Eltrica e Informtica Industrial (CPGEI) UTFPR, Curitiba, Brasil
wyllianbs@gmail.com, pohl@utfpr.edu.br
Resumo: Este trabalho apresenta uma mtrica sem referncia para avaliao de qualidade de vdeo digital baseada em uma rede neural artifcial que usa uma verso estendida do algoritmo de aprendizado ELM (Extreme Learning Machine). O mtodo proposto realiza o treinamento da rede neural a partir de seis caractersticas espao-temporais. Os resultados experimentais mostram que o mtodo proposto apresenta desempenho superior s mtricas de referncia completa PSNR e MS-SSIM na tarefa de predio de qualidade de vdeo. Logo, o mtodo proposto pode ser usado no monitoramento de qualidade em sistemas de transmisso e recepo de vdeo digital, tais como IPTV e TV digital.
Palavras chave: algoritmo ELM, avaliao objetiva de vdeo, mtrica sem referncia, rede neural artifcial.
1. INTRODUO
Durante os ltimos anos, a literatura tem apresentado um nmero crescente publicaes acerca de mtricas objetivas para avaliao de qualidade de vdeo para diversas aplicaes em radiodifuso ou no processamento de vdeo digital, seja na aquisio do sinal, codifcao e decodifcao, compresso, transmisso, restaurao, armazenamento, segmentao e exibio de sinais de vdeo digital [14]. A avaliao de qualidade de vdeo digital pode ser realizada por meio de mtricas subjetiva e objetiva. A primeira requer uma grande quantidade de recursos humanos e apresenta elevado custo em sua implementao [13]. Porm, as mtricas objetivas so vantajosas quando apresentam um determinado grau de correlao com as mtricas subjetivas. Logo, o desenvolvimento destas um desafo no campo de avaliao de qualidade de vdeo e imagem. Alm disso, as mtricas objetivas, devido natureza de seu critrio objetivo, independem de interao humana e so facilmente reprodutveis [3]. Dentre as mtricas objetivas destacam-se as mtricas sem referncia (No-Reference NR), pois no necessitam do vdeo de referncia no clculo de sua medida. Entretanto, estas requerem um conhecimento a priori sobre as distores em vdeo digital para que seja estabelecida uma correlao com os resultados subjetivos [3].
A maioria das mtricas NR encontradas na literatura so baseadas na avaliao de qualidade de imagens e em caractersticas relacionadas ao Sistema Visual Humano (SVH). Assim, o desenvolvimento de mtricas NR difcil, devido necessidade de emular a percepo do SVH que envolve aspectos cognitivos, emocionais e estticos relacionados ao contedo do vdeo e que so altamente dependentes do observador [4], [5].
A literatura reporta diversos esforos no desenvolvimento de mtricas para avaliao de qualidade de vdeo baseadas em redes neurais e em algoritmos de aprendizado. Babu et al. [6] apresentam uma mtrica para avaliar a qualidade de imagens comprimidas em JPEG (Joint Photographic Experts Group) por meio de um algoritmo de aprendizado de crescimento e propem o uso de uma rede neural GAP-RBF (Growing and Pruning Radial Basis Function) que usa caractersticas relacionadas ao SVH. Jiang et al. [7] desenvolveram uma mtrica NR para avaliao de qualidade de vdeo em HD (High Defnition) baseada em uma rede neural treinada pelo algoritmo BP (Back-Propagation) que usa seis caractersticas espao-temporais e a RoI (Region of Interest). Choe et al. [8] desenvolveram uma mtrica NR baseada no fuxo de bits para avaliao de qualidade de vdeo codifcado em H.264. Esta mtrica extrai caractersticas quadro a quadro e usa uma rede neural alimentada adiante (feedforward) com trs camadas. Suresh et al. [9] apresentaram uma extenso do algoritmo ELM na tarefa de avaliar a qualidade de imagens comprimidas em JPEG com base no esquema de seleo mltipla KS-ELM (K-fold selection Scheme using ELM) e no algoritmo RCGA-ELM (Real-Coded Genetic Algorithm using ELM) para seleo dos pesos de entrada e polarizaes.
Este trabalho apresenta uma verso estendida do algoritmo ELM para redes neurais SLFN (Single-hidden-Layer Feedforward Neural Networks) que implementa um simples critrio de parada na fase de treinamento. Alm disso, esse mtodo usa seis caractersticas espao-temporais de vdeos submetidos a diversas condies de distoro.
Este artigo est dividido da seguinte maneira: a Seo 2 descreve as mtricas para avaliao de qualidade de vdeo. A Seo 3 descreve o mtodo NR proposto para avalio de qualidade de vdeo digital. A Seo 4 apresenta os resultados experimentais, em que so comparados o mtodo NR proposto e duas mtricas FR. Finalmente, a Seo 5 apresenta a concluso do artigo.
2. AVALIAO DE QUALIDADE DE VDEO
O processo de avaliao de qualidade de vdeo
pode ser realizado com a aplicao de mtricas
subjetivas ou objetivas. As mtricas subjetivas
estimam a qualidade do vdeo por meio de avaliadores
humanos. Logo, exigem um alto custo, pois
necessitam de uma grande quantidade de recursos
humanos e apresentam problemas quanto aos
requisitos de imparcialidade e reprodutibilidade,
tornando-se inapropriadas em sistemas de
radiodifuso ou em provedores de contedo [10], [11].
Por outro lado, as mtricas objetivas so baseadas em
modelos matemticos, cujo objetivo produzir um
escore de qualidade que emule a percepo do SVH.
Alm disso, as mtricas objetivas requerem baixo
custo de implementao (quando comparadas com as
mtricas subjetivas) e no apresentam problemas
quanto reprodutibilidade e imparcialidade.
As mtricas objetivas para avaliao de qualidade
de vdeo podem ser classifcadas em trs categorias:
(i) mtricas de referncia completa (Full-Reference
FR); (ii) mtricas de referncia reduzida (Reduced-
Reference RR); (iii) mtricas sem referncia (NR).
2.1. Mtricas FR
As mtricas FR requerem o vdeo de referncia
(fonte) no clculo do escore de qualidade. Estas
mtricas so amplamente utilizadas no processo de
validao de mtricas RR ou NR, por meio da
comparao de desempenho defnida pelas
recomendaes do Grupo de Especialistas em
Qualidade de Vdeo (VQEG Video Quality Experts
Group) que um rgo de padronizao internacional
de mtricas subjetivas e objetivas de qualidade de
vdeo. Dentre as mtricas FR, destacam-se o PSNR
(Peak Signal-to-Noise Ratio), SSIM (Structural
SIMilarity index) [12] e MS-SSIM (Multi-Scale
Structural SIMilarity index) [13].
O PSNR uma mtrica FR baseada no erro pixel a
pixel de fcil implementao. Entretanto, apresenta
baixa correlao com o SVH [14]. A sua medida
processada sobre o erro quadro a quadro, i.e., entre o
quadro original x e o quadro y . A expresso a seguir
defne o PSNR para um conjunto de quadros F .
20
1
1
PSNR 20log ,
F
f
f f
v
F MSE



(1)
com

2
0 0
1
MSE , , , , ,
N M
f
i j
x f i j y f i j
NM

(2)
em que o termo f v igual a (2 1) k , cujo k o
nmero de bits por pixel, i.e., a componente de
luminncia do quadro f . Os termos x f ,i, j e
y f ,i, j so os valores de luminncia do quadro de
origem e degradado, respectivamente. As
componentes bidimensionais so representadas pelo
nmero de colunas N e pelo nmero de linhas M . O
termo f MSE defnido como erro quadrtico mdio
ou MSE (Mean Square Error).
A mtrica SSIM baseia-se no fato de que o SVH
fortemente adaptado para extrair informaes das
caractersticas estruturais de um quadro ou imagem.
Logo, uma medida de similaridade estrutural (ou
distoro) pode prover boa aproximao para a
qualidade perceptual de um vdeo [3, 79]. Sejam x e
y dois sinais no-negativos, em que y o sinal
degradado e x o sinal original (sem perda de
qualidade), a medida de similaridade utilizada como
um ndice quantitativo de qualidade do sinal distorcido,
ou seja, x tomado como a referncia para medir a
qualidade de y . A mtrica SSIM possui diversas
extenses, dentre as quais a verso MS-SSIM,
proposta por Wang et al. [13] que assume uma
abordagem multiescalar.
2.2. Mtricas RR
As mtricas de referncia reduzida retiram certa
quantidade de caractersticas do vdeo original (fonte),
baseadas em componentes espaciais, temporais, no
domnio da frequncia ou no fuxo de bits (bitstream).
Este tipo de mtrica amplamente utilizada no
monitoramento de transmisses em rede [17]. Neste
tipo de cenrio de aplicao, o vdeo transmitido
com uma sequncia de informao codifcada
(overhead) e no lado receptor ocorre a sua
decodifcao, seguido pelo clculo do ndice de
qualidade, o qual obtido por meio da comparao
entre a representao reduzida da informao nos
pares emissor e receptor [18]. Tipicamente, mtricas
RR so implementadas por meio de funes, divididas
em duas etapas [19]: (i) clculo do erro entre os
vdeos original e distorcido, constitudo pela diferena
de suas caractersticas, a fm de compor a
representao reduzida da informao; (ii) funo que
agrupa os erros ou diferenas para obter um ndice de
qualidade global. Algumas mtricas RR exploram
propriedades dos artefatos, por meio da extrao de
caractersticas e um modelo de parametrizao [20]
com foco em tipos especfcos de distores
(artefatos). Esta abordagem encontrada em Silva et
al. [17], cujo clculo do escore de qualidade
baseado na diferena de atividade dos coefcientes
DCT (Discrete Cosine Transform) em um macro bloco
com resoluo de 1616 pixels.
2.3. Mtricas NR
As mtricas NR extraem caractersticas
relacionadas ao SVH do vdeo distorcido, i.e., na
recepo do sinal de vdeo [14]. Tipicamente, h duas
abordagens no desenvolvimento destas mtricas: (i)
extrao dos parmetros sobre o fuxo de bits, tais
como a taxa de compresso, informaes
relacionadas ao GoP (Group of Pictures), estimao
de movimento, perfl e nvel de codifcao, bem como
o parmetro de quantizao ou QP (Quantization
Parameter) [2125]. Mtricas NR apresentam maior
complexidade quando so aplicadas em vdeo, devido
variao temporal dos quadros, contedos das
cenas e difculdade de compreenso das
caractersticas do SVH [26]. Assim, algumas mtricas
dessa categoria exploram caractersticas espaciais e
temporais na estimao de qualidade de vdeo [21].
3. MTODO PROPOSTO
O mtodo proposto, denominado NRVQA-ELMtc
(No-Reference Video Quality Assessment using
Extreme Learning Machine algorithm with termination
criteria) [27] combina caractersticas espaciais e
temporais, por meio de uma rede neural artifcial
SLFNs usando o algoritmo de treinamento ELM [28]
com a implementao de um simples critrio de
parada.
3.1. Caractersticas espao-temporais
As caractersticas espaciais incorporadas no
mtodo proposto so baseadas em medidas de
artefatos em vdeo digital, i.e., distores de blocagem
e borramento desenvolvidas por Wang et al. [20].
Assim, a componente de luminncia do quadro f
representada por y(f , i, j ) com i 1,M e j 1, N ,
em que M e N so os nmeros de linhas e colunas,
respectivamente, de um quadro. Logo, as diferenas
de luminncia ao longo das linhas e colunas so
representadas, respectivamente, pelas expresses a
seguir.


, , , , 1 , , , 1, 1 ,
, , , 1, , , , 1, 1 .
h
v
d f i j y f i j y f i j j N
d f i j y f i j y f i j i M


(3)
O efeito de blocagem pode ser estimado pela
mdia das diferenas entre as bordas dos blocos da
DCT (Discrete Cosine Transform) nas direes
horizontal e vertical para uma sequncia F de
quadros, conforme mostra a Equao (4), com um
macrobloco de dimenso , cujo tamanho tpico
de 8 [20].


1
1
1 1 1
1
1
1 1 1
1
, , 1 ,
1
1
1
, 1 , .
1
1
N
F M
h h
f i j
M
F N
v
i j
v
f
B d f i j
N
F M
B d f i j
M
F N












(4)
A medida de blocagem em uma sequncia de
vdeo com F quadros determinada pela mdia entre
h B e v B , caracterizando a medida B , conforme a
expresso a seguir.
.
2
h v B B
B

(5)
Os efeitos de borramento so estimados pelo
clculo da reduo de atividade entre os blocos ,
em que usada a medida de blocagem nas direes
horizontal e vertical, conforme as expresses




1
1 1 1
1
1 1 1
, , ,
1 1
, ,
1
.
1
F M N
h h h
f i j
F M N
v v
f
v
i j
A d f i j B
F M N
A d f i j B
F N M








(6)
A medida de borramento, representada por A ,
conforme a Equao (7), determinada pela mdia
entre h A e v A .
.
2
h v A A
A

(7)
O segundo fator que contribui para a deteco do
artefato de borramento baseado na taxa de
cruzamento por zero (Zero Crossing ZC) nas
direes horizontal e vertical, conforme as expresses
a seguir.




2
1 1 1
2
1 1 1
1
, , ,
2
1
, , ,
2
F M N
h h
f i j
F M N
v v
f i j
Z z f i j
F M N
Z z f i j
F N M




(8)
em que os termos h z e v z so determinados por


1, na direo horizontal
, , ,
0, caso contrrio
1, na direo vertical
, , .
0, caso contrrio
h
v
z f i j
z f i j



(9)
Assim, a medida de borramento Z determinada
pela mdia entre as componentes h Z e v Z .
.
2
h v Z Z
Z

(10)
O mtodo proposto tambm incorpora trs
caractersticas temporais no treinamento da rede
neural SLFN com o algoritmo ELM.
A primeira caracterstica temporal a diferena de
movimento entre quadros adjacentes, representada
pela varivel TI (Temporal perceptual Information) [31]
que considera os valores de luminncia de pixels
localizados em uma mesma regio de um quadro,
conforme a expresso a seguir.

2
1
, , ,
1
F
f
TI m f i j
F


(11)
em que o nmero total de quadros F e mf ,i, j

o desvio padro da diferena de movimento
(diferena de luminncia) entre o quadro atual
y f ,i, j e o quadro anterior y f 1,i, j .
A segunda caracterstica temporal a mdia da
diferena absoluta (Mean Absolute Diference MAD)
[31] entre quadros sucessivos, representada pela
Equao (12) que defne a medida global da MAD
para todos os quadros de um vdeo.


2 1 1
1
, , 1, , .
1
F M N
f i j
MAD y f i j y f i j
M N F



(12)
A terceira caracterstica temporal a mdia da
diferena absoluta ponderada (weighted Mean
Absolute Diference MADw) [32], a qual mede o grau
de variao das cenas de um vdeo que considera a
cena atual de um quadro f e do quadro anterior f 1,
conforme a expresso:
2 1
1
.
1
F
f
f f
MAD
MADw
F MAD


(13)
Assim, o mtodo proposto combina as
caractersticas espaciais e temporais em uma matriz
, , , , , f f f f f f f x A B Z TI MAD MADw , em que f o
nmero de amostras de vdeo. A Figura 1 apresenta
as caractersticas temporais espaciais de dezessete
bases de dados de vdeos (denominada superconjunto
S) usadas neste trabalho e reportadas em [27]. A
recomendao ITU-T P.910 [31] defne a medida SI
(Spatial perceptual Information) como informao
espacial perceptual. A inspeo visual dessa fgura
mostra que as amostras de vdeo usadas neste
trabalho apresentam uma grande variao espaotemporal.
Fig. 1. Caractersticas espaciais e temporais do superconjunto
S com 216 amostras de referncia
3.2. Mtrica NRVQA-ELMtc
O algoritmo ELM [28] desenvolvido para o
treinamento de uma rede SLFN atribui pesos e
polarizaes (biases) de maneira aleatria, segundo
uma distribuio uniforme. O treinamento compreende
N amostras distintas representadas pela varivel
, , , 1, , n m
f f f f x t x t f N , cujo clculo
conforme a expresso

1
, 1, , ,
K
K i j j f j f
f
f g b f N

x w x o (14)
em que f o a sada (escore objetivo), g(x) a
funo de ativao e j o peso que conecta o jsimo
neurnio da camada oculta ao neurnio de
sada. De acordo com [28], uma rede SLFN com K
ns na camada oculta e uma funo de ativao g(x)
pode apresentar um erro mdio prximo de zero, i.e.,
1
0
K
f f
f
o t . Logo, h parmetros j , j w e j b tal
que

1
, 1, , ,
K
j j f j f
f
g b f N

w x t (15)
em que f t o vetor alvo (escores subjetivos),
T
1, , j j jn w w w o vetor de peso que conecta o jsimo
neurnio da camada oculta ao neurnio da
camada de entrada, j b denota a polarizao (bias) do
j-simo neurnio da camada oculta, j f w x o
produto interno de j w e f x . A Figura 2 ilustra o
algoritmo ELM empregado em uma arquitetura de
rede neural SLFN.
xi
1
j
N
1
j
K
ti
bj
N input neuron K hidden neuron output neuron
1
K
wj
Fig. 2. Arquitetura de uma rede neural SLFN usando algoritmo
de treinamento ELM
O sistema linear da Equao (16) resume o mtodo
do algoritmo ELM.
H T, (16)
em que a matriz da camada oculta representada por
1, , and 1, , f H h f N j K com a primeira
linha da matriz de caractersticas f x igual a
T
1 2 , , , f f f fn x x x x , i.e., a primeira linha igual a
1 1 1 1 1 1 1 , , , , , f f f f f f f x A B Z TI MAD MADw . A matriz de
sada e o vetor alvo (target) so defnidos como
T
1 , K e
T
1, , N T t t , respectivamente. O
termo
T
1 , 1, , j jm j j K denota o vetor de
peso que conecta o j-simo neurnio da camada
oculta e os neurnios de sada. Hung et al. [28]
propuseram a atribuio aleatria de pesos aos
parmetros j w e j b , a fm de seja obtido um pequeno
erro no-nulo durante o treinamento. Considerando o
sistema linear da Equao (17), os pesos da camada
de sada podem ser aproximados por
H T (17)
em que H defnida como matriz inversa
generalizada de Moore-Penrose (MP) [33] da matriz
de sada da camada oculta H . Alm disso, o
conjunto de treinamento , n oculta K e uma
funo de ativao g x , e.g., funo de base radial
(Radial Basis Function RBF), hard-limiting (hardlim),
sigmoidal (sig) e seno (sin). Em resumo, o algoritmo
ELM compreende trs etapas [28]:
i) Atribuio aleatria dos pesos de entrada j w e
polarizaes j b ;
ii) Clculo da matriz da camada de sada H ;
iii) Clculo dos pesos de sada : H T .
O mtodo NRVQA-ELMtc [27] implementa um
simples critrio de parada no treinamento da rede
neural SLFN, quanto atribuio aleatria dos pesos
j w e j b . Embora este critrio no seja direcionado,
busca os pesos relacionados com o menor RMSE
(Root-Mean-Square Error) entre a sada desejada
(escore subjetivo) e o escore objetivo na fase de
treinamento com k iteraes (tipicamente, k 100 ) e
N neurnios na camada oculta. Alm disso, conforme
estudo realizado em [27], caso o RMSE seja menor do
que 0,5 o algoritmo cessa a busca pelos parmetros
j w e j b .
4. RESULTADOS EXPERIMENTAIS
Esta seo apresenta os resultados de acurcia,
i.e., os coefcientes de correlao linear de Pearson
(Pearson Linear Correlation Coefcient PLCC) [34],
[35], entre os escores objetivos e subjetivos de 2627
amostras de vdeo estudadas em [27].
A Figura 3 compara a acurcia (PLCC) entre as
mtricas de referncia completa (FR) PSNR e MSSSIM
com o mtodo proposto (NRVQA-ELMtc) para
as 2627 amostras de vdeo, pertencentes a 17 bases
de dados de vdeo disponibilizadas por diversas
instituies e laboratrios [27]. A funo de ativao
usada na rede neural SLFN foi o seno (sin) com o
nmero de amostras de teste igual ao nmero de
neurnios na camada oculta ( N ). O mtodo de
validao cruzada mltipla (K-fold) foi usado com o
objetivo de gerar uma distribuio de acurcia, a qual
foi analisada por meio do diagrama de caixa (box-plot)
[36], em que o trao, o crculo e o quadrado, ambos
em vermelho, representam a mediana, a mdia e o
desvio padro, respectivamente. Destaca-se que
neste trabalho foi empregada uma validao cruzada
com um grande nmero de amostras de treinamentoteste
com K 100 , i.e., cada caixa do box-plot
comporta 100 experimentos distintos. Tipicamente, a
literatura apresenta trabalhos no campo da avaliao
Fig. 3. Box-plot da predio da acurcia (PLCC) entre as mtricas PSNR, MS-SSIM e o mtodo proposto NRVQA-ELMtc
de qualidade de vdeo com K entre 5 e 10 [37], [38].
Pela inspeo visual da Figura 3 observa-se que o
desempenho do mtodo proposto superior s
mtricas FR, em quaisquer condies de teste, i.e.,
para qualquer quantidade de amostras de teste
(nmero de neurnios na camada oculta) entre 25 e
500. Em especial, para N 50 , o mtodo proposto
apresenta valores de PLCC, em termos da mdia e
mediana, acima de 0,8, denotando uma forte
associao entre os escores objetivos e subjetivos, na
tarefa de predio de qualidade de vdeo. Isto ocorre
devido grande quantidade de amostras de vdeo
usadas no treinamento, e.g., para N 300 foram
usadas 2327 amostras de treinamento, ou seja,
mesmo usando pares de treinamento-teste disjuntos,
o mtodo proposto mostra uma acurcia superior s
mtricas de referncia completa. A assimetria positiva,
i.e., a maior concentrao da acurcia entre o
segundo quartil (mediana) e o terceiro quartil, na
distribuio do box-plot nos testes com 300 e 500
neurnios na camada oculta, indica que o mtodo
proposto apresenta um desempenho expressivo em
comparao com as mtricas FR.
Entretanto, mesmo para N entre 25 e 50, o
mtodo proposto apresentou uma acurcia maior do
que as mtricas FR, cujo melhor resultado foi para
N 25 com o desvio-quartil (amplitude interquartlica)
confnado entre 0,65 e 0,8. Alm disso, este resultado
tambm apresentou assimetria positiva com a mdia
do PLCC em torno de 0,75.
5. CONCLUSO
Este trabalho apresentou uma mtrica NR baseada
em uma rede neural artifcial SLFN, cujo treinamento
determinado pelo algoritmo ELM, o qual considera
caractersticas espao-temporais e os escores
subjetivos (alvos) extrados de 2627 amostras
treinamento. Alm disso, este trabalho prope uma
extenso do algoritmo ELM por meio de um simples
critrio de parada, a fm de que sejam obtidos
parmetros da rede neural artifcial relacionados com
o menor RMSE. Tipicamente, a comparao entre
mtricas FR e NR injusta, devido ausncia do
vdeo de referncia na obteno do escore de
qualidade em mtricas NR. Entretanto, os resultados
experimentais mostram que o mtodo proposto
apresentou desempenho superior s mtricas de
referncia completa PSNR e MS-SSIM, sobretudo,
quando o nmero de amostras de teste e de neurnios
na camada oculta da rede SLFN maior do que 250.
Logo, a mtrica NRVQA-ELMtc pode ser empregada
no monitoramento de qualidade em sistemas de
transmisso e recepo de vdeo digital, tais como
IPTV (Internet Protocol Television), TV digital ou em
dispositivos mveis, tais como ultrabooks,
smartphones, tablets e em aparelhos WiDi (Wireless
Display).
REFERNCIAS
[1] S. Winkler, Issues in vision modeling for perceptual
video quality assessment, Signal Processing, vol. 78,
no. 2, pp. 231252, 1999.
[2] Z. Wang and A. C. Bovik, Modern image quality
assessment. San Rafael, CA: Morgan & Claypool,
2006.
[3] W. Lin and C.-C. Jay Kuo, Perceptual visual quality
metrics: A survey, Journal of Visual Communication
and Image Representation, vol. 22, no. 4, pp. 297312,
May 2011.
[4] S. S. Hemami and A. R. Reibman, No-reference image
and video quality estimation: Applications and humanmotivated
design, Signal Processing: Image
Communication, vol. 25, no. 7, pp. 469481, 2010.
[5] Z. Wang and A. Bovik, Reduced- and No-Reference
Image Quality Assessment, IEEE Signal Processing
Magazine, vol. 28, no. 6, pp. 2940, Nov. 2011.
[6] R. V. Babu, S. Suresh, and A. Perkis, No-reference
JPEG-image quality assessment using GAP-RBF,
Signal Processing, vol. 87, no. 6, pp. 14931503, 2007.
[7] X. Jiang, F. Meng, J. Xu, and W. Zhou, No-Reference
Perceptual Video Quality Measurement for High
Defnition Videos Based on an Artifcial Neural
Network, in Computer and Electrical Engineering,
2008. ICCEE 2008. International Conference on, 2008,
pp. 424427.
[8] J. Choe, K. Lee, C. Lee, and S. Korea, No-reference
video quality measurement using neural networks, in
2009 16th International Conference on Digital Signal
Processing, 2009, pp. 14.
[9] S. Suresh, R. Venkatesh Babu, and H. J. Kim, Noreference
image quality assessment using modifed
extreme learning machine classifer, Applied Soft
Computing, vol. 9, no. 2, pp. 541552, Mar. 2009.
[10] A. M. Eskicioglu and P. S. Fisher, Image quality
measures and their performance, IEEE Transactions
on Communications, vol. 43, no. 12, pp. 29592965,
1995.
[11] U. Engelke and H.-J. Zepernick, Perceptual-based
Quality Metrics for Image and Video Services: A
Survey, in Proceedings EuroNGI Conf. Next
Generation Internet Networks, 2007, pp. 190197.
[12] Z. Wang, A. C. Bovik, H. R. Sheikh, and E. P
Simoncelli, Image quality assessment: from error
visibility to structural similarity., IEEE Transactions on
Image Processing, vol. 13, no. 4, pp. 600612, 2004.
[13] Z. Wang, E. P. Simoncelli, and A. C. Bovik, Multiscale
structural similarity for image quality assessment, in
The Thrity-Seventh Asilomar Conference on Signals,
Systems & Computers, 2003, 2003, vol. 2, no. 1, pp.
13981402.
[14] H. R. Wu, K. R. Rao, and A. A. Kassim, Digital Video
Image Quality and Perceptual Coding, Journal of
Electronic Imaging, vol. 16, no. 3, 2007.
[15] Z. Wang and A. C. Bovik, A universal image quality
index, IEEE Signal Processing Letters, vol. 9, no. 3,
pp. 8184, Mar. 2002.
[16] Y. Shi, Y. Ding, R. Zhang, and J. Li, Structure and Hue
Similarity for Color Image Quality Assessment, in 2009
International Conference on Electronic Computer
Technology, 2009, pp. 329333.
[17] W. B. Silva, A. A. P. Pohl, and K. V. O. Fonseca, A
Reduced-Reference Video Quality Assessment Method
based on the Activity-Diference of DCT Coefcients,
IEICE Transactions on Information and Systems, vol. E96-D, no. 3, 2013.
[18] P. Le Callet, C. Viard-Gaudin, and D. Barba, A Convolutional Neural Network Approach for Objective Video Quality Assessment, IEEE Transactions on Neural Networks, vol. 17, no. 5, pp. 13161327, 2006.
[19] P. Le Callet and D. Barba, Image Quality Assessment: From Sites Errors to a Global Appreciation of Quality, in Proceedings of the Picture Coding Sympsium, 2001, pp. 105108.
[20] M. Miyahara, K. Kotani, and V. R. Algazi, Objective picture quality scale (PQS) for image coding, IEEE Transactions on Communications, vol. 46, no. 9, pp. 12151226, 1998.
[21] M. Slanina, V. Ricny, and R. Forchheimer, A Novel Metric for H.264/AVC No-Reference Quality Assessment, in 14th International Workshop on Systems, Signals and Image Processing and 6th EURASIP Conference focused on Speech and Image Processing, Multimedia Communications and Services, 2007, pp. 114117.
[22] O. Sugimoto, S. Naito, S. Sakazawa, and A. Koike, Objective perceptual video quality measurement method based on hybrid no reference framework, in 16th IEEE International Conference on Image Processing (ICIP09), 2009, pp. 22372240.
[23] T. Oelbaum, C. Keimel, and K. Diepold, Rule-Based No-Reference Video Quality Evaluation Using Additionally Coded Videos, IEEE Journal of Selected Topics in Signal Processing, vol. 3, no. 2, pp. 294303, 2009.
[24] N. Staelens, N. Vercammen, Y. Dhondt, B. Vermeulen, P. Lambert, R. de Walle, and P. Demeester, ViQID: A No-Reference bit stream-based visual quality impairment detector, in Proceedings of the Second Int Quality of Multimedia Experience (QoMEX) Workshop, 2010, pp. 206211.
[25] F. Yang, S. Wan, Q. Xie, and H. R. Wu, No-Reference Quality Assessment for Networked Video via Primary Analysis of Bit Stream, IEEE Transactions on Circuits and Systems for Video Technology, vol. 20, no. 11, pp. 15441554, Nov. 2010.
[26] Z. Wang, H. R. Sheikh, and A. C. Bovik, Objective Video Quality Assessment, in The Handbook of Video Databases: Design and Applications, B. Furht and O. Marques, Eds. Boca Raton, FL, USA: CRC Press, 2003, pp. 10411078.
[27] W. B. da Silva and A. de A. P. Pohl, Mtodos Sem Referncia Baseados em Caractersticas Espao-Temporais para Avaliao Objetiva de Qualidade de Vdeo Digital, Universidade Tecnolgica Federal do Paran (UTFPR), 2013.
[28] G.-B. Huang, Q.-Y. Zhu, and C.-K. Siew, Extreme learning machine: Theory and applications, Neurocomputing, vol. 70, no. 13, pp. 489501, Dec. 2006.
[29] Z. Wang, H. R. Sheikh, and A. C. Bovik, No-reference perceptual quality assessment of JPEG compressed images, in Image Processing. 2002. Proceedings. IEEE International Conference on Image Processing, 2002, vol. 1, pp. vol.1 I477 I480.
[30] W. B. Silva and A. A. P. Pohl, No-Reference Video Quality Assessment Method based on the Levenberg-Marquardt Minimization, in XXX Brazilian Symposium on Telecommunications (SBrT12), 2012.
[31] ITU-T P.910, Subjective video quality assessment methods for multimedia applications, Standardization Sector of ITU, 1999.
[32] W. Ding, Y. Tong, Q. Zhang, and D. Yang, Image and Video Quality Assessment Using Neural Network and SVM, Tsinghua Science &amp; Technology, vol. 13, no. 1, pp. 112116, 2008.
[33] K. S. Banerjee, C. R. Rao, and S. K. Mitra, Generalized Inverse of Matrices and Its Applications, Technometrics, vol. 15, no. 1, p. 197, Feb. 1973.
[34] VQEG, Final report from the video quality experts group on the validation of reduced-reference and no-reference objective models for standard defnition television, Phase I, 2009.
[35] VQEG, Report on the validation of video quality models for high defnition video content, 2010.
[36] J. W. Tukey, Exploratory Data Analysis. New York: Addison-Wesley Publishing Company, 1977.
[37] P. Gastaldo and R. Zunino, Neural networks for the no-reference assessment of perceived quality, J. Electronic Imaging, vol. 14, no. 3, p. 033004, 2005.
[38] R. Herzog, M. adk, T. O. Aydn, K. I. Kim, K. Myszkowski, and H.-P. Seidel, NoRM: No-Reference Image Quality Metric for Realistic Image Synthesis, Comp. Graph. Forum, vol. 31, no. 2pt4, pp. 545554, 2012.
dorothypomerantz/2013/05/29/binge-watching-is-our-
future/>. Acesso em 21/06/2013.
THE POST STANDART, 2013. Arrested
Development: Why binge-watching and Netflix
cheating arent all bad. Disponvel em
<http://www.syracuse.com/entertainment/index.ssf/201
3/05/arrested_development_binge_watching_netflix_c
heating.html. >. Acesso em 17/08/2013.
FOLHA DE S. PAULO, 2013. Tv sob demanda e
Internet mudam atitudes do espectador que est mais
ansioso e viciado. Disponvel em <http://www1.folha
.uol.com.br/ilustrada/2013/09/1346222-tv-sob-
demanda-e-internet-mudam-atitudes-do-espectador-
que-esta-mais-ansioso-e-viciado.shtml.>. Acesso em
10/08/2013.
FRANK, Besty Changing Media, Changing
Audiences. MIT Comunications Forum, abril / 2004
Disponvel em <http://web.mit.edu/comm-
forum/forums/ changing_audiences.html>, in
JENKINS, Henry. Cultura da Convergncia. 2. ed. So
Paulo: Aleph, 2009.
WALL STREET JOURNAL, 2013. Cable fights to feed
binge TV viewers. Disponvel em
<http://online.wsj.com/article/SB100014241278873248
07704579083170996190590.html>. Acessado em
20/09/2013.
JENKINS, Henry. Cultura da Convergncia. 2. ed.
So Paulo: Aleph, 2009.










A (re) valorizao do locutor na internet: estratgias
do rdio em um cenrio de reconfigurao digital
Daniel Gambaro
dgambaro@usp.br
Eduardo Vicente
eduvicente@usp.br
52 Revista de Radiodifuso v. 07 n. 08 2013
Pesquisas em ambientes digitais - TV Internet Radio Cinema
Pesquisas em ambientes digitais - TV Internet Radio Cinema
Revista de Radiodifuso v. 07 n. 08 2013 53
MTRICA SEM REFERNCIA BASEADA EM REDES NEURAIS
PARA AVALIAO OBJETIVA DE QUALIDADE DE VDEO DIGITAL
Wyllian Bezerra da Silva, Alexandre de Almeida Prado Pohl
Programa de Ps-Graduao em Engenharia Eltrica e Informtica Industrial (CPGEI) UTFPR, Curitiba, Brasil
wyllianbs@gmail.com, pohl@utfpr.edu.br
Resumo: Este trabalho apresenta uma mtrica sem referncia para avaliao de qualidade de vdeo digital baseada em uma rede neural artifcial que usa uma verso estendida do algoritmo de aprendizado ELM (Extreme Learning Machine). O mtodo proposto realiza o treinamento da rede neural a partir de seis caractersticas espao-temporais. Os resultados experimentais mostram que o mtodo proposto apresenta desempenho superior s mtricas de referncia completa PSNR e MS-SSIM na tarefa de predio de qualidade de vdeo. Logo, o mtodo proposto pode ser usado no monitoramento de qualidade em sistemas de transmisso e recepo de vdeo digital, tais como IPTV e TV digital.
Palavras chave: algoritmo ELM, avaliao objetiva de vdeo, mtrica sem referncia, rede neural artifcial.
1. INTRODUO
Durante os ltimos anos, a literatura tem apresentado um nmero crescente publicaes acerca de mtricas objetivas para avaliao de qualidade de vdeo para diversas aplicaes em radiodifuso ou no processamento de vdeo digital, seja na aquisio do sinal, codifcao e decodifcao, compresso, transmisso, restaurao, armazenamento, segmentao e exibio de sinais de vdeo digital [14]. A avaliao de qualidade de vdeo digital pode ser realizada por meio de mtricas subjetiva e objetiva. A primeira requer uma grande quantidade de recursos humanos e apresenta elevado custo em sua implementao [13]. Porm, as mtricas objetivas so vantajosas quando apresentam um determinado grau de correlao com as mtricas subjetivas. Logo, o desenvolvimento destas um desafo no campo de avaliao de qualidade de vdeo e imagem. Alm disso, as mtricas objetivas, devido natureza de seu critrio objetivo, independem de interao humana e so facilmente reprodutveis [3]. Dentre as mtricas objetivas destacam-se as mtricas sem referncia (No-Reference NR), pois no necessitam do vdeo de referncia no clculo de sua medida. Entretanto, estas requerem um conhecimento a priori sobre as distores em vdeo digital para que seja estabelecida uma correlao com os resultados subjetivos [3].
A maioria das mtricas NR encontradas na literatura so baseadas na avaliao de qualidade de imagens e em caractersticas relacionadas ao Sistema Visual Humano (SVH). Assim, o desenvolvimento de mtricas NR difcil, devido necessidade de emular a percepo do SVH que envolve aspectos cognitivos, emocionais e estticos relacionados ao contedo do vdeo e que so altamente dependentes do observador [4], [5].
A literatura reporta diversos esforos no desenvolvimento de mtricas para avaliao de qualidade de vdeo baseadas em redes neurais e em algoritmos de aprendizado. Babu et al. [6] apresentam uma mtrica para avaliar a qualidade de imagens comprimidas em JPEG (Joint Photographic Experts Group) por meio de um algoritmo de aprendizado de crescimento e propem o uso de uma rede neural GAP-RBF (Growing and Pruning Radial Basis Function) que usa caractersticas relacionadas ao SVH. Jiang et al. [7] desenvolveram uma mtrica NR para avaliao de qualidade de vdeo em HD (High Defnition) baseada em uma rede neural treinada pelo algoritmo BP (Back-Propagation) que usa seis caractersticas espao-temporais e a RoI (Region of Interest). Choe et al. [8] desenvolveram uma mtrica NR baseada no fuxo de bits para avaliao de qualidade de vdeo codifcado em H.264. Esta mtrica extrai caractersticas quadro a quadro e usa uma rede neural alimentada adiante (feedforward) com trs camadas. Suresh et al. [9] apresentaram uma extenso do algoritmo ELM na tarefa de avaliar a qualidade de imagens comprimidas em JPEG com base no esquema de seleo mltipla KS-ELM (K-fold selection Scheme using ELM) e no algoritmo RCGA-ELM (Real-Coded Genetic Algorithm using ELM) para seleo dos pesos de entrada e polarizaes.
Este trabalho apresenta uma verso estendida do algoritmo ELM para redes neurais SLFN (Single-hidden-Layer Feedforward Neural Networks) que implementa um simples critrio de parada na fase de treinamento. Alm disso, esse mtodo usa seis caractersticas espao-temporais de vdeos submetidos a diversas condies de distoro.
Este artigo est dividido da seguinte maneira: a Seo 2 descreve as mtricas para avaliao de qualidade de vdeo. A Seo 3 descreve o mtodo NR proposto para avalio de qualidade de vdeo digital. A Seo 4 apresenta os resultados experimentais, em que so comparados o mtodo NR proposto e duas mtricas FR. Finalmente, a Seo 5 apresenta a concluso do artigo.
2. AVALIAO DE QUALIDADE DE VDEO
O processo de avaliao de qualidade de vdeo
pode ser realizado com a aplicao de mtricas
subjetivas ou objetivas. As mtricas subjetivas
estimam a qualidade do vdeo por meio de avaliadores
humanos. Logo, exigem um alto custo, pois
necessitam de uma grande quantidade de recursos
humanos e apresentam problemas quanto aos
requisitos de imparcialidade e reprodutibilidade,
tornando-se inapropriadas em sistemas de
radiodifuso ou em provedores de contedo [10], [11].
Por outro lado, as mtricas objetivas so baseadas em
modelos matemticos, cujo objetivo produzir um
escore de qualidade que emule a percepo do SVH.
Alm disso, as mtricas objetivas requerem baixo
custo de implementao (quando comparadas com as
mtricas subjetivas) e no apresentam problemas
quanto reprodutibilidade e imparcialidade.
As mtricas objetivas para avaliao de qualidade
de vdeo podem ser classifcadas em trs categorias:
(i) mtricas de referncia completa (Full-Reference
FR); (ii) mtricas de referncia reduzida (Reduced-
Reference RR); (iii) mtricas sem referncia (NR).
2.1. Mtricas FR
As mtricas FR requerem o vdeo de referncia
(fonte) no clculo do escore de qualidade. Estas
mtricas so amplamente utilizadas no processo de
validao de mtricas RR ou NR, por meio da
comparao de desempenho defnida pelas
recomendaes do Grupo de Especialistas em
Qualidade de Vdeo (VQEG Video Quality Experts
Group) que um rgo de padronizao internacional
de mtricas subjetivas e objetivas de qualidade de
vdeo. Dentre as mtricas FR, destacam-se o PSNR
(Peak Signal-to-Noise Ratio), SSIM (Structural
SIMilarity index) [12] e MS-SSIM (Multi-Scale
Structural SIMilarity index) [13].
O PSNR uma mtrica FR baseada no erro pixel a
pixel de fcil implementao. Entretanto, apresenta
baixa correlao com o SVH [14]. A sua medida
processada sobre o erro quadro a quadro, i.e., entre o
quadro original x e o quadro y . A expresso a seguir
defne o PSNR para um conjunto de quadros F .
20
1
1
PSNR 20log ,
F
f
f f
v
F MSE



(1)
com

2
0 0
1
MSE , , , , ,
N M
f
i j
x f i j y f i j
NM

(2)
em que o termo f v igual a (2 1) k , cujo k o
nmero de bits por pixel, i.e., a componente de
luminncia do quadro f . Os termos x f ,i, j e
y f ,i, j so os valores de luminncia do quadro de
origem e degradado, respectivamente. As
componentes bidimensionais so representadas pelo
nmero de colunas N e pelo nmero de linhas M . O
termo f MSE defnido como erro quadrtico mdio
ou MSE (Mean Square Error).
A mtrica SSIM baseia-se no fato de que o SVH
fortemente adaptado para extrair informaes das
caractersticas estruturais de um quadro ou imagem.
Logo, uma medida de similaridade estrutural (ou
distoro) pode prover boa aproximao para a
qualidade perceptual de um vdeo [3, 79]. Sejam x e
y dois sinais no-negativos, em que y o sinal
degradado e x o sinal original (sem perda de
qualidade), a medida de similaridade utilizada como
um ndice quantitativo de qualidade do sinal distorcido,
ou seja, x tomado como a referncia para medir a
qualidade de y . A mtrica SSIM possui diversas
extenses, dentre as quais a verso MS-SSIM,
proposta por Wang et al. [13] que assume uma
abordagem multiescalar.
2.2. Mtricas RR
As mtricas de referncia reduzida retiram certa
quantidade de caractersticas do vdeo original (fonte),
baseadas em componentes espaciais, temporais, no
domnio da frequncia ou no fuxo de bits (bitstream).
Este tipo de mtrica amplamente utilizada no
monitoramento de transmisses em rede [17]. Neste
tipo de cenrio de aplicao, o vdeo transmitido
com uma sequncia de informao codifcada
(overhead) e no lado receptor ocorre a sua
decodifcao, seguido pelo clculo do ndice de
qualidade, o qual obtido por meio da comparao
entre a representao reduzida da informao nos
pares emissor e receptor [18]. Tipicamente, mtricas
RR so implementadas por meio de funes, divididas
em duas etapas [19]: (i) clculo do erro entre os
vdeos original e distorcido, constitudo pela diferena
de suas caractersticas, a fm de compor a
representao reduzida da informao; (ii) funo que
agrupa os erros ou diferenas para obter um ndice de
qualidade global. Algumas mtricas RR exploram
propriedades dos artefatos, por meio da extrao de
caractersticas e um modelo de parametrizao [20]
com foco em tipos especfcos de distores
(artefatos). Esta abordagem encontrada em Silva et
al. [17], cujo clculo do escore de qualidade
baseado na diferena de atividade dos coefcientes
DCT (Discrete Cosine Transform) em um macro bloco
com resoluo de 1616 pixels.
2.3. Mtricas NR
As mtricas NR extraem caractersticas
relacionadas ao SVH do vdeo distorcido, i.e., na
recepo do sinal de vdeo [14]. Tipicamente, h duas
abordagens no desenvolvimento destas mtricas: (i)
extrao dos parmetros sobre o fuxo de bits, tais
como a taxa de compresso, informaes
relacionadas ao GoP (Group of Pictures), estimao
de movimento, perfl e nvel de codifcao, bem como
o parmetro de quantizao ou QP (Quantization
Parameter) [2125]. Mtricas NR apresentam maior
complexidade quando so aplicadas em vdeo, devido
variao temporal dos quadros, contedos das
cenas e difculdade de compreenso das
caractersticas do SVH [26]. Assim, algumas mtricas
dessa categoria exploram caractersticas espaciais e
temporais na estimao de qualidade de vdeo [21].
3. MTODO PROPOSTO
O mtodo proposto, denominado NRVQA-ELMtc
(No-Reference Video Quality Assessment using
Extreme Learning Machine algorithm with termination
criteria) [27] combina caractersticas espaciais e
temporais, por meio de uma rede neural artifcial
SLFNs usando o algoritmo de treinamento ELM [28]
com a implementao de um simples critrio de
parada.
3.1. Caractersticas espao-temporais
As caractersticas espaciais incorporadas no
mtodo proposto so baseadas em medidas de
artefatos em vdeo digital, i.e., distores de blocagem
e borramento desenvolvidas por Wang et al. [20].
Assim, a componente de luminncia do quadro f
representada por y(f , i, j ) com i 1,M e j 1, N ,
em que M e N so os nmeros de linhas e colunas,
respectivamente, de um quadro. Logo, as diferenas
de luminncia ao longo das linhas e colunas so
representadas, respectivamente, pelas expresses a
seguir.


, , , , 1 , , , 1, 1 ,
, , , 1, , , , 1, 1 .
h
v
d f i j y f i j y f i j j N
d f i j y f i j y f i j i M


(3)
O efeito de blocagem pode ser estimado pela
mdia das diferenas entre as bordas dos blocos da
DCT (Discrete Cosine Transform) nas direes
horizontal e vertical para uma sequncia F de
quadros, conforme mostra a Equao (4), com um
macrobloco de dimenso , cujo tamanho tpico
de 8 [20].


1
1
1 1 1
1
1
1 1 1
1
, , 1 ,
1
1
1
, 1 , .
1
1
N
F M
h h
f i j
M
F N
v
i j
v
f
B d f i j
N
F M
B d f i j
M
F N












(4)
A medida de blocagem em uma sequncia de
vdeo com F quadros determinada pela mdia entre
h B e v B , caracterizando a medida B , conforme a
expresso a seguir.
.
2
h v B B
B

(5)
Os efeitos de borramento so estimados pelo
clculo da reduo de atividade entre os blocos ,
em que usada a medida de blocagem nas direes
horizontal e vertical, conforme as expresses




1
1 1 1
1
1 1 1
, , ,
1 1
, ,
1
.
1
F M N
h h h
f i j
F M N
v v
f
v
i j
A d f i j B
F M N
A d f i j B
F N M








(6)
A medida de borramento, representada por A ,
conforme a Equao (7), determinada pela mdia
entre h A e v A .
.
2
h v A A
A

(7)
O segundo fator que contribui para a deteco do
artefato de borramento baseado na taxa de
cruzamento por zero (Zero Crossing ZC) nas
direes horizontal e vertical, conforme as expresses
a seguir.




2
1 1 1
2
1 1 1
1
, , ,
2
1
, , ,
2
F M N
h h
f i j
F M N
v v
f i j
Z z f i j
F M N
Z z f i j
F N M




(8)
em que os termos h z e v z so determinados por


1, na direo horizontal
, , ,
0, caso contrrio
1, na direo vertical
, , .
0, caso contrrio
h
v
z f i j
z f i j



(9)
Assim, a medida de borramento Z determinada
pela mdia entre as componentes h Z e v Z .
.
2
h v Z Z
Z

(10)
O mtodo proposto tambm incorpora trs
caractersticas temporais no treinamento da rede
neural SLFN com o algoritmo ELM.
A primeira caracterstica temporal a diferena de
movimento entre quadros adjacentes, representada
pela varivel TI (Temporal perceptual Information) [31]
que considera os valores de luminncia de pixels
localizados em uma mesma regio de um quadro,
conforme a expresso a seguir.

2
1
, , ,
1
F
f
TI m f i j
F


(11)
em que o nmero total de quadros F e mf ,i, j

o desvio padro da diferena de movimento
(diferena de luminncia) entre o quadro atual
y f ,i, j e o quadro anterior y f 1,i, j .
A segunda caracterstica temporal a mdia da
diferena absoluta (Mean Absolute Diference MAD)
[31] entre quadros sucessivos, representada pela
Equao (12) que defne a medida global da MAD
para todos os quadros de um vdeo.


2 1 1
1
, , 1, , .
1
F M N
f i j
MAD y f i j y f i j
M N F



(12)
A terceira caracterstica temporal a mdia da
diferena absoluta ponderada (weighted Mean
Absolute Diference MADw) [32], a qual mede o grau
de variao das cenas de um vdeo que considera a
cena atual de um quadro f e do quadro anterior f 1,
conforme a expresso:
2 1
1
.
1
F
f
f f
MAD
MADw
F MAD


(13)
Assim, o mtodo proposto combina as
caractersticas espaciais e temporais em uma matriz
, , , , , f f f f f f f x A B Z TI MAD MADw , em que f o
nmero de amostras de vdeo. A Figura 1 apresenta
as caractersticas temporais espaciais de dezessete
bases de dados de vdeos (denominada superconjunto
S) usadas neste trabalho e reportadas em [27]. A
recomendao ITU-T P.910 [31] defne a medida SI
(Spatial perceptual Information) como informao
espacial perceptual. A inspeo visual dessa fgura
mostra que as amostras de vdeo usadas neste
trabalho apresentam uma grande variao espaotemporal.
Fig. 1. Caractersticas espaciais e temporais do superconjunto
S com 216 amostras de referncia
3.2. Mtrica NRVQA-ELMtc
O algoritmo ELM [28] desenvolvido para o
treinamento de uma rede SLFN atribui pesos e
polarizaes (biases) de maneira aleatria, segundo
uma distribuio uniforme. O treinamento compreende
N amostras distintas representadas pela varivel
, , , 1, , n m
f f f f x t x t f N , cujo clculo
conforme a expresso

1
, 1, , ,
K
K i j j f j f
f
f g b f N

x w x o (14)
em que f o a sada (escore objetivo), g(x) a
funo de ativao e j o peso que conecta o jsimo
neurnio da camada oculta ao neurnio de
sada. De acordo com [28], uma rede SLFN com K
ns na camada oculta e uma funo de ativao g(x)
pode apresentar um erro mdio prximo de zero, i.e.,
1
0
K
f f
f
o t . Logo, h parmetros j , j w e j b tal
que

1
, 1, , ,
K
j j f j f
f
g b f N

w x t (15)
em que f t o vetor alvo (escores subjetivos),
T
1, , j j jn w w w o vetor de peso que conecta o jsimo
neurnio da camada oculta ao neurnio da
camada de entrada, j b denota a polarizao (bias) do
j-simo neurnio da camada oculta, j f w x o
produto interno de j w e f x . A Figura 2 ilustra o
algoritmo ELM empregado em uma arquitetura de
rede neural SLFN.
xi
1
j
N
1
j
K
ti
bj
N input neuron K hidden neuron output neuron
1
K
wj
Fig. 2. Arquitetura de uma rede neural SLFN usando algoritmo
de treinamento ELM
O sistema linear da Equao (16) resume o mtodo
do algoritmo ELM.
H T, (16)
em que a matriz da camada oculta representada por
1, , and 1, , f H h f N j K com a primeira
linha da matriz de caractersticas f x igual a
T
1 2 , , , f f f fn x x x x , i.e., a primeira linha igual a
1 1 1 1 1 1 1 , , , , , f f f f f f f x A B Z TI MAD MADw . A matriz de
sada e o vetor alvo (target) so defnidos como
T
1 , K e
T
1, , N T t t , respectivamente. O
termo
T
1 , 1, , j jm j j K denota o vetor de
peso que conecta o j-simo neurnio da camada
oculta e os neurnios de sada. Hung et al. [28]
propuseram a atribuio aleatria de pesos aos
parmetros j w e j b , a fm de seja obtido um pequeno
erro no-nulo durante o treinamento. Considerando o
sistema linear da Equao (17), os pesos da camada
de sada podem ser aproximados por
H T (17)
em que H defnida como matriz inversa
generalizada de Moore-Penrose (MP) [33] da matriz
de sada da camada oculta H . Alm disso, o
conjunto de treinamento , n oculta K e uma
funo de ativao g x , e.g., funo de base radial
(Radial Basis Function RBF), hard-limiting (hardlim),
sigmoidal (sig) e seno (sin). Em resumo, o algoritmo
ELM compreende trs etapas [28]:
i) Atribuio aleatria dos pesos de entrada j w e
polarizaes j b ;
ii) Clculo da matriz da camada de sada H ;
iii) Clculo dos pesos de sada : H T .
O mtodo NRVQA-ELMtc [27] implementa um
simples critrio de parada no treinamento da rede
neural SLFN, quanto atribuio aleatria dos pesos
j w e j b . Embora este critrio no seja direcionado,
busca os pesos relacionados com o menor RMSE
(Root-Mean-Square Error) entre a sada desejada
(escore subjetivo) e o escore objetivo na fase de
treinamento com k iteraes (tipicamente, k 100 ) e
N neurnios na camada oculta. Alm disso, conforme
estudo realizado em [27], caso o RMSE seja menor do
que 0,5 o algoritmo cessa a busca pelos parmetros
j w e j b .
4. RESULTADOS EXPERIMENTAIS
Esta seo apresenta os resultados de acurcia,
i.e., os coefcientes de correlao linear de Pearson
(Pearson Linear Correlation Coefcient PLCC) [34],
[35], entre os escores objetivos e subjetivos de 2627
amostras de vdeo estudadas em [27].
A Figura 3 compara a acurcia (PLCC) entre as
mtricas de referncia completa (FR) PSNR e MSSSIM
com o mtodo proposto (NRVQA-ELMtc) para
as 2627 amostras de vdeo, pertencentes a 17 bases
de dados de vdeo disponibilizadas por diversas
instituies e laboratrios [27]. A funo de ativao
usada na rede neural SLFN foi o seno (sin) com o
nmero de amostras de teste igual ao nmero de
neurnios na camada oculta ( N ). O mtodo de
validao cruzada mltipla (K-fold) foi usado com o
objetivo de gerar uma distribuio de acurcia, a qual
foi analisada por meio do diagrama de caixa (box-plot)
[36], em que o trao, o crculo e o quadrado, ambos
em vermelho, representam a mediana, a mdia e o
desvio padro, respectivamente. Destaca-se que
neste trabalho foi empregada uma validao cruzada
com um grande nmero de amostras de treinamentoteste
com K 100 , i.e., cada caixa do box-plot
comporta 100 experimentos distintos. Tipicamente, a
literatura apresenta trabalhos no campo da avaliao
Fig. 3. Box-plot da predio da acurcia (PLCC) entre as mtricas PSNR, MS-SSIM e o mtodo proposto NRVQA-ELMtc
de qualidade de vdeo com K entre 5 e 10 [37], [38].
Pela inspeo visual da Figura 3 observa-se que o
desempenho do mtodo proposto superior s
mtricas FR, em quaisquer condies de teste, i.e.,
para qualquer quantidade de amostras de teste
(nmero de neurnios na camada oculta) entre 25 e
500. Em especial, para N 50 , o mtodo proposto
apresenta valores de PLCC, em termos da mdia e
mediana, acima de 0,8, denotando uma forte
associao entre os escores objetivos e subjetivos, na
tarefa de predio de qualidade de vdeo. Isto ocorre
devido grande quantidade de amostras de vdeo
usadas no treinamento, e.g., para N 300 foram
usadas 2327 amostras de treinamento, ou seja,
mesmo usando pares de treinamento-teste disjuntos,
o mtodo proposto mostra uma acurcia superior s
mtricas de referncia completa. A assimetria positiva,
i.e., a maior concentrao da acurcia entre o
segundo quartil (mediana) e o terceiro quartil, na
distribuio do box-plot nos testes com 300 e 500
neurnios na camada oculta, indica que o mtodo
proposto apresenta um desempenho expressivo em
comparao com as mtricas FR.
Entretanto, mesmo para N entre 25 e 50, o
mtodo proposto apresentou uma acurcia maior do
que as mtricas FR, cujo melhor resultado foi para
N 25 com o desvio-quartil (amplitude interquartlica)
confnado entre 0,65 e 0,8. Alm disso, este resultado
tambm apresentou assimetria positiva com a mdia
do PLCC em torno de 0,75.
5. CONCLUSO
Este trabalho apresentou uma mtrica NR baseada
em uma rede neural artifcial SLFN, cujo treinamento
determinado pelo algoritmo ELM, o qual considera
caractersticas espao-temporais e os escores
subjetivos (alvos) extrados de 2627 amostras
treinamento. Alm disso, este trabalho prope uma
extenso do algoritmo ELM por meio de um simples
critrio de parada, a fm de que sejam obtidos
parmetros da rede neural artifcial relacionados com
o menor RMSE. Tipicamente, a comparao entre
mtricas FR e NR injusta, devido ausncia do
vdeo de referncia na obteno do escore de
qualidade em mtricas NR. Entretanto, os resultados
experimentais mostram que o mtodo proposto
apresentou desempenho superior s mtricas de
referncia completa PSNR e MS-SSIM, sobretudo,
quando o nmero de amostras de teste e de neurnios
na camada oculta da rede SLFN maior do que 250.
Logo, a mtrica NRVQA-ELMtc pode ser empregada
no monitoramento de qualidade em sistemas de
transmisso e recepo de vdeo digital, tais como
IPTV (Internet Protocol Television), TV digital ou em
dispositivos mveis, tais como ultrabooks,
smartphones, tablets e em aparelhos WiDi (Wireless
Display).
REFERNCIAS
[1] S. Winkler, Issues in vision modeling for perceptual
video quality assessment, Signal Processing, vol. 78,
no. 2, pp. 231252, 1999.
[2] Z. Wang and A. C. Bovik, Modern image quality
assessment. San Rafael, CA: Morgan & Claypool,
2006.
[3] W. Lin and C.-C. Jay Kuo, Perceptual visual quality
metrics: A survey, Journal of Visual Communication
and Image Representation, vol. 22, no. 4, pp. 297312,
May 2011.
[4] S. S. Hemami and A. R. Reibman, No-reference image
and video quality estimation: Applications and humanmotivated
design, Signal Processing: Image
Communication, vol. 25, no. 7, pp. 469481, 2010.
[5] Z. Wang and A. Bovik, Reduced- and No-Reference
Image Quality Assessment, IEEE Signal Processing
Magazine, vol. 28, no. 6, pp. 2940, Nov. 2011.
[6] R. V. Babu, S. Suresh, and A. Perkis, No-reference
JPEG-image quality assessment using GAP-RBF,
Signal Processing, vol. 87, no. 6, pp. 14931503, 2007.
[7] X. Jiang, F. Meng, J. Xu, and W. Zhou, No-Reference
Perceptual Video Quality Measurement for High
Defnition Videos Based on an Artifcial Neural
Network, in Computer and Electrical Engineering,
2008. ICCEE 2008. International Conference on, 2008,
pp. 424427.
[8] J. Choe, K. Lee, C. Lee, and S. Korea, No-reference
video quality measurement using neural networks, in
2009 16th International Conference on Digital Signal
Processing, 2009, pp. 14.
[9] S. Suresh, R. Venkatesh Babu, and H. J. Kim, Noreference
image quality assessment using modifed
extreme learning machine classifer, Applied Soft
Computing, vol. 9, no. 2, pp. 541552, Mar. 2009.
[10] A. M. Eskicioglu and P. S. Fisher, Image quality
measures and their performance, IEEE Transactions
on Communications, vol. 43, no. 12, pp. 29592965,
1995.
[11] U. Engelke and H.-J. Zepernick, Perceptual-based
Quality Metrics for Image and Video Services: A
Survey, in Proceedings EuroNGI Conf. Next
Generation Internet Networks, 2007, pp. 190197.
[12] Z. Wang, A. C. Bovik, H. R. Sheikh, and E. P
Simoncelli, Image quality assessment: from error
visibility to structural similarity., IEEE Transactions on
Image Processing, vol. 13, no. 4, pp. 600612, 2004.
[13] Z. Wang, E. P. Simoncelli, and A. C. Bovik, Multiscale
structural similarity for image quality assessment, in
The Thrity-Seventh Asilomar Conference on Signals,
Systems & Computers, 2003, 2003, vol. 2, no. 1, pp.
13981402.
[14] H. R. Wu, K. R. Rao, and A. A. Kassim, Digital Video
Image Quality and Perceptual Coding, Journal of
Electronic Imaging, vol. 16, no. 3, 2007.
[15] Z. Wang and A. C. Bovik, A universal image quality
index, IEEE Signal Processing Letters, vol. 9, no. 3,
pp. 8184, Mar. 2002.
[16] Y. Shi, Y. Ding, R. Zhang, and J. Li, Structure and Hue
Similarity for Color Image Quality Assessment, in 2009
International Conference on Electronic Computer
Technology, 2009, pp. 329333.
[17] W. B. Silva, A. A. P. Pohl, and K. V. O. Fonseca, A
Reduced-Reference Video Quality Assessment Method
based on the Activity-Diference of DCT Coefcients,
IEICE Transactions on Information and Systems, vol. E96-D, no. 3, 2013.
[18] P. Le Callet, C. Viard-Gaudin, and D. Barba, A Convolutional Neural Network Approach for Objective Video Quality Assessment, IEEE Transactions on Neural Networks, vol. 17, no. 5, pp. 13161327, 2006.
[19] P. Le Callet and D. Barba, Image Quality Assessment: From Sites Errors to a Global Appreciation of Quality, in Proceedings of the Picture Coding Sympsium, 2001, pp. 105108.
[20] M. Miyahara, K. Kotani, and V. R. Algazi, Objective picture quality scale (PQS) for image coding, IEEE Transactions on Communications, vol. 46, no. 9, pp. 12151226, 1998.
[21] M. Slanina, V. Ricny, and R. Forchheimer, A Novel Metric for H.264/AVC No-Reference Quality Assessment, in 14th International Workshop on Systems, Signals and Image Processing and 6th EURASIP Conference focused on Speech and Image Processing, Multimedia Communications and Services, 2007, pp. 114117.
[22] O. Sugimoto, S. Naito, S. Sakazawa, and A. Koike, Objective perceptual video quality measurement method based on hybrid no reference framework, in 16th IEEE International Conference on Image Processing (ICIP09), 2009, pp. 22372240.
[23] T. Oelbaum, C. Keimel, and K. Diepold, Rule-Based No-Reference Video Quality Evaluation Using Additionally Coded Videos, IEEE Journal of Selected Topics in Signal Processing, vol. 3, no. 2, pp. 294303, 2009.
[24] N. Staelens, N. Vercammen, Y. Dhondt, B. Vermeulen, P. Lambert, R. de Walle, and P. Demeester, ViQID: A No-Reference bit stream-based visual quality impairment detector, in Proceedings of the Second Int Quality of Multimedia Experience (QoMEX) Workshop, 2010, pp. 206211.
[25] F. Yang, S. Wan, Q. Xie, and H. R. Wu, No-Reference Quality Assessment for Networked Video via Primary Analysis of Bit Stream, IEEE Transactions on Circuits and Systems for Video Technology, vol. 20, no. 11, pp. 15441554, Nov. 2010.
[26] Z. Wang, H. R. Sheikh, and A. C. Bovik, Objective Video Quality Assessment, in The Handbook of Video Databases: Design and Applications, B. Furht and O. Marques, Eds. Boca Raton, FL, USA: CRC Press, 2003, pp. 10411078.
[27] W. B. da Silva and A. de A. P. Pohl, Mtodos Sem Referncia Baseados em Caractersticas Espao-Temporais para Avaliao Objetiva de Qualidade de Vdeo Digital, Universidade Tecnolgica Federal do Paran (UTFPR), 2013.
[28] G.-B. Huang, Q.-Y. Zhu, and C.-K. Siew, Extreme learning machine: Theory and applications, Neurocomputing, vol. 70, no. 13, pp. 489501, Dec. 2006.
[29] Z. Wang, H. R. Sheikh, and A. C. Bovik, No-reference perceptual quality assessment of JPEG compressed images, in Image Processing. 2002. Proceedings. IEEE International Conference on Image Processing, 2002, vol. 1, pp. vol.1 I477 I480.
[30] W. B. Silva and A. A. P. Pohl, No-Reference Video Quality Assessment Method based on the Levenberg-Marquardt Minimization, in XXX Brazilian Symposium on Telecommunications (SBrT12), 2012.
[31] ITU-T P.910, Subjective video quality assessment methods for multimedia applications, Standardization Sector of ITU, 1999.
[32] W. Ding, Y. Tong, Q. Zhang, and D. Yang, Image and Video Quality Assessment Using Neural Network and SVM, Tsinghua Science &amp; Technology, vol. 13, no. 1, pp. 112116, 2008.
[33] K. S. Banerjee, C. R. Rao, and S. K. Mitra, Generalized Inverse of Matrices and Its Applications, Technometrics, vol. 15, no. 1, p. 197, Feb. 1973.
[34] VQEG, Final report from the video quality experts group on the validation of reduced-reference and no-reference objective models for standard defnition television, Phase I, 2009.
[35] VQEG, Report on the validation of video quality models for high defnition video content, 2010.
[36] J. W. Tukey, Exploratory Data Analysis. New York: Addison-Wesley Publishing Company, 1977.
[37] P. Gastaldo and R. Zunino, Neural networks for the no-reference assessment of perceived quality, J. Electronic Imaging, vol. 14, no. 3, p. 033004, 2005.
[38] R. Herzog, M. adk, T. O. Aydn, K. I. Kim, K. Myszkowski, and H.-P. Seidel, NoRM: No-Reference Image Quality Metric for Realistic Image Synthesis, Comp. Graph. Forum, vol. 31, no. 2pt4, pp. 545554, 2012.
A (RE) VALORIZAO DO LOCUTOR NA INTERNET: ESTRATGIAS DO RDIO EM UM
CENRIO DE RECONFIGURAO DIGITAL

Daniel Gambaro
1
, Eduardo Vicente
2


1
Universidade Anhembi Morumbi, So Paulo, Brasil, dgambaro@usp.br
2
Escola de Comunicao e Artes/Universidade de So Paulo, So Paulo Brasil, eduvicente@usp.br


Resumo: O presente artigo traa uma breve reflexo
sobre o modo como as tecnologias digitais esto
reconfigurando as formas de produzir e consumir
rdio. O principal argumento gira em torno da figura do
locutor de rdio FM e sua renovada importncia em
estratgias de vinculao e fidelizao da audincia,
aliada a outras estratgias que podem ser
empreendidas pelas emissoras de rdio. Para tanto,
foi desenvolvida uma pesquisa com locutores do dial
FM paulistano, que expressaram suas opinies sobre
o cenrio.
Palavras chave: rdio, internet, locutor, apresentador
radiofnico.
INTRODUO
Em um recente encontro internacional sobre rdio
realizado em julho [1], na Inglaterra, uma tnica
permeou algumas apresentaes e debates sobre o
rdio: como as ferramentas digitais mudam a forma de
consumo radiofnico. H, sem sombra de dvida, um
nivelamento da pesquisa internacional que v o rdio
hoje como uma linguagem, servio ou, nas palavras
do professor Tim Wall [2], uma instituio. A ele se
ligam diferentes contedos, primariamente em udio.
Os ttulos de algumas apresentaes sugerem,
inclusive, um olhar que j considera o rdio totalmente
inserido no ambiente digital. Por exemplo Its not
television, its radio with pictures, do professor
Richard Berry da Universidade de Sunderland,
Inglaterra; ou Radio Audience participations duality:
new technologies, new dilemas, da pesquisadora
Asta Zelenkauskaite, da Drexel University, EUA. O
primeiro trabalho demostrou como algumas emissoras
britnicas voltadas para o pblico jovem esto criando
produes em vdeo para complementar as
transmisses em udio. Em um dos exemplos, o show
de uma dupla de apresentadores transmitido
integralmente ao vivo, tanto pelo rdio como pela web,
e os ouvintes propem atividades que, mesmo na tela,
no anulam as caractersticas da produo
radiofnica. J a segunda apresentao mostrou uma
investigao mais sistemtica sobre participaes de
ouvintes via redes sociais, e suas vinculaes tanto
com a emissora como entre os prprios ouvintes a
partir dos servios de uma emissora de rdio italiana.
Outras pesquisas tentavam dar conta da forma
como as emissoras esto usando a web,
especialmente com relao oferta de informao em
seus sites. Uma pesquisa que est sendo iniciada na
Universidade do Minho, Portugal [3], tenta demonstrar
como a forma das emissoras de notcia articularem
suas pginas na internet valoriza pouco o udio e
apresenta quase nenhuma especificidade da web.
Assim, ao se assemelhar a portais de notcia comuns,
essas emissoras vm deixando de lado caractersticas
importantes do meio e do suporte a que se condiciona.
Essas discusses emergem principalmente em
mercados de rdio que possuem construes
seguramente diferentes daquela que encontramos no
Brasil, a comear pela forma como a programao
radiofnica articulada com maior ateno
segmentao da audincia e baseada na vinculao
ouvinte/locutor. Tanto uma estrutura comercial melhor
composta como um costume enraizado de ouvir rdio
permitem que o veculo se configure dessa forma, com
maior presena da voz do apresentador no ar. No
entanto, a preocupao central sobre o impacto da
internet hoje permeia a produo cientfica sobre o
assunto. Afinal, de modo similar em diferentes pases,
h um deslocamento do uso do rdio para outra
plataforma tecnolgica e ampliao da oferta de
contedo e concorrncia, o que pode colocar o
mercado de emissoras rdio em xeque.
Essa perspectiva internacional acrescenta algumas
questes ao debate radiofnico no Brasil: no centro da
relao ouvinte/emissora, quais os elementos de
vinculao realmente usados? Como as novas
ferramentas digitais so acrescentadas no cotidiano
radiofnico? Mais ainda, como elas propem uma
nova forma de consumir o rdio, adicionando inclusive
novos usos? So questes centrais em um processo
que vise a manuteno da fidelidade da audincia. No
ano passado, um e-book lanado pelo Grupo de Rdio
e Mdia Sonora do Intercom [4] reuniu diferentes
artigos que deram continuidade aos debates que vm
sendo empreendidos pelo grupo nos ltimos anos. No
caso brasileiro, o tnus central da discusso passa
pela tecnologia, pela definio sobre o que rdio, e
pela forma como o jornalismo principalmente usa
as redes sociais. Ainda pequeno o debate sobre
questes de usos e formas de produo, cuja
ampliao parece ser crucial neste momento em que o
mercado radiofnico vive um movimento de retrao
que comea a acelerar.
O rdio entrou nos anos 2000 com uma situao
relativamente estvel: a participao publicitria girava
em torno de 4,5% e se manteve assim ano a ano,
54 Revista de Radiodifuso v. 07 n. 08 2013
Pesquisas em ambientes digitais - TV Internet Radio Cinema
crescendo em valor em proporo semelhante ao
restante do investimento em publicidade. J a
penetrao do veculo atingia cerca de 90% da
populao, segundo dados acumulados pelo projeto
Mdia Dados com a Ipsos/Marplan. O problema que
esse cenrio comeou a mudar em 2005, com a
popularizao do acesso internet no Brasil. A
penetrao do meio, ainda com dados da
Ipsos/Marplan [5], caiu para cerca de 74% em 2012, e
a participao do rdio na publicidade, no mesmo ano,
foi de cerca de 3,9%, segundo a revista
Meio&Mensagem [6]. O mercado paulistano concentra
a maior parte dessa verba, e portanto onde se
desenha o recorte que fazemos neste artigo (39,5%
da publicidade em rdio foi investido na regio
metropolitana de So Paulo).
Assim, propomos discutir a produo radiofnica, a
partir da recontextualizao do consumo de rdio por
conta da tecnologia digital [7]. Essa perspectiva, no
entanto, s faz sentido se resgatarmos o papel ativo
do apresentador radiofnico: tendo sido o principal elo
de ligao entre emissoras e ouvintes pelo menos at
os anos 1990, a revalorizao de sua personalidade
parece ser elemento central de um rdio que se
prope em contato imediato com o ouvinte.
Sugere-se que um dos possveis caminhos uma
ao integrada bem elaborada do papel do locutor FM
com as ferramentas e ofertas de contedo digitais:
maior presena no ar, criando um vnculo sonoro com
o ouvinte, e a ampliao da esfera de sua
personalidade a partir do ambiente digital. Para
realizar esta tarefa, conversamos com alguns
locutores de rdio FM da cidade de So Paulo que, de
alguma forma, se destacam pelo tempo de emissora e
elo criado com o ouvinte, ou pelo uso que fazem da
web como plataforma para ampliarem o contato com a
audincia, tanto em seus programas como fora deles.
So eles Roberto Hais, da rdio Disney; PH Dragani e
Cadu Previero, da 89FM; Milton Jung, da CBN So
Paulo; Sandra Groth, da 105FM; Marco Antnio, da
Kiss FM; e Laerte Gouveia, da rdio Transcontinental.
Tentou-se, com esta seleo, uma boa
representatividade de emissoras de diferentes estilos,
usando como parmetro a forma como os ouvintes se
relacionam com os locutores tanto pelos meios digitais
como analgicos.
1. CONSTRUO DE UM FM SEM VOZ
No uma novidade a afirmao de que todo o
cenrio da comunicao de massa atravessa um
perodo de questionamentos, visto que so poucas as
certezas estabelecidas diante da mudana acelerada
que os avanos digitais da ltima dcada
proporcionaram. Esto alinhados no caminho das
discusses temas diversos, como a manuteno da
publicidade vinculada a programas e grades de
programao, novos usos e acessos do pblico ao
contedo produzido, e a necessidade de
especializao ou segmentao na oferta de
informaes por parte das empresas produtoras de
contedo. Esta ltima abordagem, em especial, vem
colocando em xeque o modo como observamos as
grandes empresas de rdio e TV, baseadas
principalmente em um pblico sempre muito amplo.
Claro, no podemos perder a perspectiva de que
esse um processo em andamento de prazo
indeterminado, e que o cenrio final pode ser diverso
do que estamos supondo neste momento. No entanto,
olhando especificamente para o rdio, percebemos
que existe a necessidade de uma tomada de ao
mais clara e imediata, devido s recentes perdas de
pblico e uma leve queda das receitas do veculo, que
crescem ano a ano em ritmo menor que a inflao.
Ao olharmos para a histria do rdio desde os anos
1960 aps a implantao da TV no Brasil
percebemos uma reconfigurao natural da audincia,
que migra de horrio e passa a consumir outro tipo de
programao, de forma individualizada. Da audincia
coletiva e atenta para o solitrio em trnsito, essa
uma mudana que afeta inclusive os nveis de ateno
dedicados programao radiofnica [8]. Nesse
cenrio, passa a fazer sentido que o locutor marque
maior presena na programao, tornando-se
importante elo de vnculao entre emissora e ouvinte.
Seja o comunicador do AM ou o DJ do FM, seu nome
e sua personalidade contam bastante na lgica de
fidelizao de pblico por meio do contato ntimo com
a audincia. Essa escolha tambm tem um carter
econmico: produes mais caras, como a fico
radiofnica, encontram menos espaos por motivos
como a importncia da TV em prover esse tipo de
produo; o j mencionado menor nvel de ateno da
audincia; o encolhimento da participao publicitria
do rdio, uma vez que a verba investida no meio no
cresce, nos anos seguintes, na mesma proporo que
o bolo publicitrio total lembrando que este ltimo
sofre grande expanso devido, principalmente, ao
desenvolvimento da economia brasileira.
Durante as dcadas de 1980 e 1990,
principalmente, o dial FM passa a concentrar a maior
parte da audincia de rdio e, consequentemente,
dos investimentos publicitrios. No entanto, como
reflexo da situao econmica do meio, tambm
passa-se a investir menos em programao e na
personalidade dos locutores, at a implantao de
dois modelos de emissoras que quase definitivamente
enterram esse locutor com personalidade: as rdios
em rede e o modelo extremamente musical das rdios
jovens nas grandes capitais, influncia para os
maiores mercados consumidores. Essa mudana,
mencionada por diferentes locutores entrevistados
para esta pesquisa, como por exemplo Roberto Hais:
...no se tinha [nos anos 1980] muitas rdios
concorrentes, e depois, houve a segmentao do rdio:
o rdio jovem, o rdio popular, a rdio News, a rdio
qualificada... Essa mudana comeou no final dos anos
1980 com a vinda da Transamrica houve uma
Pesquisas em ambientes digitais - TV Internet Radio Cinema
Revista de Radiodifuso v. 07 n. 08 2013 55
MTRICA SEM REFERNCIA BASEADA EM REDES NEURAIS
PARA AVALIAO OBJETIVA DE QUALIDADE DE VDEO DIGITAL
Wyllian Bezerra da Silva, Alexandre de Almeida Prado Pohl
Programa de Ps-Graduao em Engenharia Eltrica e Informtica Industrial (CPGEI) UTFPR, Curitiba, Brasil
wyllianbs@gmail.com, pohl@utfpr.edu.br
Resumo: Este trabalho apresenta uma mtrica sem referncia para avaliao de qualidade de vdeo digital baseada em uma rede neural artifcial que usa uma verso estendida do algoritmo de aprendizado ELM (Extreme Learning Machine). O mtodo proposto realiza o treinamento da rede neural a partir de seis caractersticas espao-temporais. Os resultados experimentais mostram que o mtodo proposto apresenta desempenho superior s mtricas de referncia completa PSNR e MS-SSIM na tarefa de predio de qualidade de vdeo. Logo, o mtodo proposto pode ser usado no monitoramento de qualidade em sistemas de transmisso e recepo de vdeo digital, tais como IPTV e TV digital.
Palavras chave: algoritmo ELM, avaliao objetiva de vdeo, mtrica sem referncia, rede neural artifcial.
1. INTRODUO
Durante os ltimos anos, a literatura tem apresentado um nmero crescente publicaes acerca de mtricas objetivas para avaliao de qualidade de vdeo para diversas aplicaes em radiodifuso ou no processamento de vdeo digital, seja na aquisio do sinal, codifcao e decodifcao, compresso, transmisso, restaurao, armazenamento, segmentao e exibio de sinais de vdeo digital [14]. A avaliao de qualidade de vdeo digital pode ser realizada por meio de mtricas subjetiva e objetiva. A primeira requer uma grande quantidade de recursos humanos e apresenta elevado custo em sua implementao [13]. Porm, as mtricas objetivas so vantajosas quando apresentam um determinado grau de correlao com as mtricas subjetivas. Logo, o desenvolvimento destas um desafo no campo de avaliao de qualidade de vdeo e imagem. Alm disso, as mtricas objetivas, devido natureza de seu critrio objetivo, independem de interao humana e so facilmente reprodutveis [3]. Dentre as mtricas objetivas destacam-se as mtricas sem referncia (No-Reference NR), pois no necessitam do vdeo de referncia no clculo de sua medida. Entretanto, estas requerem um conhecimento a priori sobre as distores em vdeo digital para que seja estabelecida uma correlao com os resultados subjetivos [3].
A maioria das mtricas NR encontradas na literatura so baseadas na avaliao de qualidade de imagens e em caractersticas relacionadas ao Sistema Visual Humano (SVH). Assim, o desenvolvimento de mtricas NR difcil, devido necessidade de emular a percepo do SVH que envolve aspectos cognitivos, emocionais e estticos relacionados ao contedo do vdeo e que so altamente dependentes do observador [4], [5].
A literatura reporta diversos esforos no desenvolvimento de mtricas para avaliao de qualidade de vdeo baseadas em redes neurais e em algoritmos de aprendizado. Babu et al. [6] apresentam uma mtrica para avaliar a qualidade de imagens comprimidas em JPEG (Joint Photographic Experts Group) por meio de um algoritmo de aprendizado de crescimento e propem o uso de uma rede neural GAP-RBF (Growing and Pruning Radial Basis Function) que usa caractersticas relacionadas ao SVH. Jiang et al. [7] desenvolveram uma mtrica NR para avaliao de qualidade de vdeo em HD (High Defnition) baseada em uma rede neural treinada pelo algoritmo BP (Back-Propagation) que usa seis caractersticas espao-temporais e a RoI (Region of Interest). Choe et al. [8] desenvolveram uma mtrica NR baseada no fuxo de bits para avaliao de qualidade de vdeo codifcado em H.264. Esta mtrica extrai caractersticas quadro a quadro e usa uma rede neural alimentada adiante (feedforward) com trs camadas. Suresh et al. [9] apresentaram uma extenso do algoritmo ELM na tarefa de avaliar a qualidade de imagens comprimidas em JPEG com base no esquema de seleo mltipla KS-ELM (K-fold selection Scheme using ELM) e no algoritmo RCGA-ELM (Real-Coded Genetic Algorithm using ELM) para seleo dos pesos de entrada e polarizaes.
Este trabalho apresenta uma verso estendida do algoritmo ELM para redes neurais SLFN (Single-hidden-Layer Feedforward Neural Networks) que implementa um simples critrio de parada na fase de treinamento. Alm disso, esse mtodo usa seis caractersticas espao-temporais de vdeos submetidos a diversas condies de distoro.
Este artigo est dividido da seguinte maneira: a Seo 2 descreve as mtricas para avaliao de qualidade de vdeo. A Seo 3 descreve o mtodo NR proposto para avalio de qualidade de vdeo digital. A Seo 4 apresenta os resultados experimentais, em que so comparados o mtodo NR proposto e duas mtricas FR. Finalmente, a Seo 5 apresenta a concluso do artigo.
2. AVALIAO DE QUALIDADE DE VDEO
O processo de avaliao de qualidade de vdeo
pode ser realizado com a aplicao de mtricas
subjetivas ou objetivas. As mtricas subjetivas
estimam a qualidade do vdeo por meio de avaliadores
humanos. Logo, exigem um alto custo, pois
necessitam de uma grande quantidade de recursos
humanos e apresentam problemas quanto aos
requisitos de imparcialidade e reprodutibilidade,
tornando-se inapropriadas em sistemas de
radiodifuso ou em provedores de contedo [10], [11].
Por outro lado, as mtricas objetivas so baseadas em
modelos matemticos, cujo objetivo produzir um
escore de qualidade que emule a percepo do SVH.
Alm disso, as mtricas objetivas requerem baixo
custo de implementao (quando comparadas com as
mtricas subjetivas) e no apresentam problemas
quanto reprodutibilidade e imparcialidade.
As mtricas objetivas para avaliao de qualidade
de vdeo podem ser classifcadas em trs categorias:
(i) mtricas de referncia completa (Full-Reference
FR); (ii) mtricas de referncia reduzida (Reduced-
Reference RR); (iii) mtricas sem referncia (NR).
2.1. Mtricas FR
As mtricas FR requerem o vdeo de referncia
(fonte) no clculo do escore de qualidade. Estas
mtricas so amplamente utilizadas no processo de
validao de mtricas RR ou NR, por meio da
comparao de desempenho defnida pelas
recomendaes do Grupo de Especialistas em
Qualidade de Vdeo (VQEG Video Quality Experts
Group) que um rgo de padronizao internacional
de mtricas subjetivas e objetivas de qualidade de
vdeo. Dentre as mtricas FR, destacam-se o PSNR
(Peak Signal-to-Noise Ratio), SSIM (Structural
SIMilarity index) [12] e MS-SSIM (Multi-Scale
Structural SIMilarity index) [13].
O PSNR uma mtrica FR baseada no erro pixel a
pixel de fcil implementao. Entretanto, apresenta
baixa correlao com o SVH [14]. A sua medida
processada sobre o erro quadro a quadro, i.e., entre o
quadro original x e o quadro y . A expresso a seguir
defne o PSNR para um conjunto de quadros F .
20
1
1
PSNR 20log ,
F
f
f f
v
F MSE



(1)
com

2
0 0
1
MSE , , , , ,
N M
f
i j
x f i j y f i j
NM

(2)
em que o termo f v igual a (2 1) k , cujo k o
nmero de bits por pixel, i.e., a componente de
luminncia do quadro f . Os termos x f ,i, j e
y f ,i, j so os valores de luminncia do quadro de
origem e degradado, respectivamente. As
componentes bidimensionais so representadas pelo
nmero de colunas N e pelo nmero de linhas M . O
termo f MSE defnido como erro quadrtico mdio
ou MSE (Mean Square Error).
A mtrica SSIM baseia-se no fato de que o SVH
fortemente adaptado para extrair informaes das
caractersticas estruturais de um quadro ou imagem.
Logo, uma medida de similaridade estrutural (ou
distoro) pode prover boa aproximao para a
qualidade perceptual de um vdeo [3, 79]. Sejam x e
y dois sinais no-negativos, em que y o sinal
degradado e x o sinal original (sem perda de
qualidade), a medida de similaridade utilizada como
um ndice quantitativo de qualidade do sinal distorcido,
ou seja, x tomado como a referncia para medir a
qualidade de y . A mtrica SSIM possui diversas
extenses, dentre as quais a verso MS-SSIM,
proposta por Wang et al. [13] que assume uma
abordagem multiescalar.
2.2. Mtricas RR
As mtricas de referncia reduzida retiram certa
quantidade de caractersticas do vdeo original (fonte),
baseadas em componentes espaciais, temporais, no
domnio da frequncia ou no fuxo de bits (bitstream).
Este tipo de mtrica amplamente utilizada no
monitoramento de transmisses em rede [17]. Neste
tipo de cenrio de aplicao, o vdeo transmitido
com uma sequncia de informao codifcada
(overhead) e no lado receptor ocorre a sua
decodifcao, seguido pelo clculo do ndice de
qualidade, o qual obtido por meio da comparao
entre a representao reduzida da informao nos
pares emissor e receptor [18]. Tipicamente, mtricas
RR so implementadas por meio de funes, divididas
em duas etapas [19]: (i) clculo do erro entre os
vdeos original e distorcido, constitudo pela diferena
de suas caractersticas, a fm de compor a
representao reduzida da informao; (ii) funo que
agrupa os erros ou diferenas para obter um ndice de
qualidade global. Algumas mtricas RR exploram
propriedades dos artefatos, por meio da extrao de
caractersticas e um modelo de parametrizao [20]
com foco em tipos especfcos de distores
(artefatos). Esta abordagem encontrada em Silva et
al. [17], cujo clculo do escore de qualidade
baseado na diferena de atividade dos coefcientes
DCT (Discrete Cosine Transform) em um macro bloco
com resoluo de 1616 pixels.
2.3. Mtricas NR
As mtricas NR extraem caractersticas
relacionadas ao SVH do vdeo distorcido, i.e., na
recepo do sinal de vdeo [14]. Tipicamente, h duas
abordagens no desenvolvimento destas mtricas: (i)
extrao dos parmetros sobre o fuxo de bits, tais
como a taxa de compresso, informaes
relacionadas ao GoP (Group of Pictures), estimao
de movimento, perfl e nvel de codifcao, bem como
o parmetro de quantizao ou QP (Quantization
Parameter) [2125]. Mtricas NR apresentam maior
complexidade quando so aplicadas em vdeo, devido
variao temporal dos quadros, contedos das
cenas e difculdade de compreenso das
caractersticas do SVH [26]. Assim, algumas mtricas
dessa categoria exploram caractersticas espaciais e
temporais na estimao de qualidade de vdeo [21].
3. MTODO PROPOSTO
O mtodo proposto, denominado NRVQA-ELMtc
(No-Reference Video Quality Assessment using
Extreme Learning Machine algorithm with termination
criteria) [27] combina caractersticas espaciais e
temporais, por meio de uma rede neural artifcial
SLFNs usando o algoritmo de treinamento ELM [28]
com a implementao de um simples critrio de
parada.
3.1. Caractersticas espao-temporais
As caractersticas espaciais incorporadas no
mtodo proposto so baseadas em medidas de
artefatos em vdeo digital, i.e., distores de blocagem
e borramento desenvolvidas por Wang et al. [20].
Assim, a componente de luminncia do quadro f
representada por y(f , i, j ) com i 1,M e j 1, N ,
em que M e N so os nmeros de linhas e colunas,
respectivamente, de um quadro. Logo, as diferenas
de luminncia ao longo das linhas e colunas so
representadas, respectivamente, pelas expresses a
seguir.


, , , , 1 , , , 1, 1 ,
, , , 1, , , , 1, 1 .
h
v
d f i j y f i j y f i j j N
d f i j y f i j y f i j i M


(3)
O efeito de blocagem pode ser estimado pela
mdia das diferenas entre as bordas dos blocos da
DCT (Discrete Cosine Transform) nas direes
horizontal e vertical para uma sequncia F de
quadros, conforme mostra a Equao (4), com um
macrobloco de dimenso , cujo tamanho tpico
de 8 [20].


1
1
1 1 1
1
1
1 1 1
1
, , 1 ,
1
1
1
, 1 , .
1
1
N
F M
h h
f i j
M
F N
v
i j
v
f
B d f i j
N
F M
B d f i j
M
F N












(4)
A medida de blocagem em uma sequncia de
vdeo com F quadros determinada pela mdia entre
h B e v B , caracterizando a medida B , conforme a
expresso a seguir.
.
2
h v B B
B

(5)
Os efeitos de borramento so estimados pelo
clculo da reduo de atividade entre os blocos ,
em que usada a medida de blocagem nas direes
horizontal e vertical, conforme as expresses




1
1 1 1
1
1 1 1
, , ,
1 1
, ,
1
.
1
F M N
h h h
f i j
F M N
v v
f
v
i j
A d f i j B
F M N
A d f i j B
F N M








(6)
A medida de borramento, representada por A ,
conforme a Equao (7), determinada pela mdia
entre h A e v A .
.
2
h v A A
A

(7)
O segundo fator que contribui para a deteco do
artefato de borramento baseado na taxa de
cruzamento por zero (Zero Crossing ZC) nas
direes horizontal e vertical, conforme as expresses
a seguir.




2
1 1 1
2
1 1 1
1
, , ,
2
1
, , ,
2
F M N
h h
f i j
F M N
v v
f i j
Z z f i j
F M N
Z z f i j
F N M




(8)
em que os termos h z e v z so determinados por


1, na direo horizontal
, , ,
0, caso contrrio
1, na direo vertical
, , .
0, caso contrrio
h
v
z f i j
z f i j



(9)
Assim, a medida de borramento Z determinada
pela mdia entre as componentes h Z e v Z .
.
2
h v Z Z
Z

(10)
O mtodo proposto tambm incorpora trs
caractersticas temporais no treinamento da rede
neural SLFN com o algoritmo ELM.
A primeira caracterstica temporal a diferena de
movimento entre quadros adjacentes, representada
pela varivel TI (Temporal perceptual Information) [31]
que considera os valores de luminncia de pixels
localizados em uma mesma regio de um quadro,
conforme a expresso a seguir.

2
1
, , ,
1
F
f
TI m f i j
F


(11)
em que o nmero total de quadros F e mf ,i, j

o desvio padro da diferena de movimento
(diferena de luminncia) entre o quadro atual
y f ,i, j e o quadro anterior y f 1,i, j .
A segunda caracterstica temporal a mdia da
diferena absoluta (Mean Absolute Diference MAD)
[31] entre quadros sucessivos, representada pela
Equao (12) que defne a medida global da MAD
para todos os quadros de um vdeo.


2 1 1
1
, , 1, , .
1
F M N
f i j
MAD y f i j y f i j
M N F



(12)
A terceira caracterstica temporal a mdia da
diferena absoluta ponderada (weighted Mean
Absolute Diference MADw) [32], a qual mede o grau
de variao das cenas de um vdeo que considera a
cena atual de um quadro f e do quadro anterior f 1,
conforme a expresso:
2 1
1
.
1
F
f
f f
MAD
MADw
F MAD


(13)
Assim, o mtodo proposto combina as
caractersticas espaciais e temporais em uma matriz
, , , , , f f f f f f f x A B Z TI MAD MADw , em que f o
nmero de amostras de vdeo. A Figura 1 apresenta
as caractersticas temporais espaciais de dezessete
bases de dados de vdeos (denominada superconjunto
S) usadas neste trabalho e reportadas em [27]. A
recomendao ITU-T P.910 [31] defne a medida SI
(Spatial perceptual Information) como informao
espacial perceptual. A inspeo visual dessa fgura
mostra que as amostras de vdeo usadas neste
trabalho apresentam uma grande variao espaotemporal.
Fig. 1. Caractersticas espaciais e temporais do superconjunto
S com 216 amostras de referncia
3.2. Mtrica NRVQA-ELMtc
O algoritmo ELM [28] desenvolvido para o
treinamento de uma rede SLFN atribui pesos e
polarizaes (biases) de maneira aleatria, segundo
uma distribuio uniforme. O treinamento compreende
N amostras distintas representadas pela varivel
, , , 1, , n m
f f f f x t x t f N , cujo clculo
conforme a expresso

1
, 1, , ,
K
K i j j f j f
f
f g b f N

x w x o (14)
em que f o a sada (escore objetivo), g(x) a
funo de ativao e j o peso que conecta o jsimo
neurnio da camada oculta ao neurnio de
sada. De acordo com [28], uma rede SLFN com K
ns na camada oculta e uma funo de ativao g(x)
pode apresentar um erro mdio prximo de zero, i.e.,
1
0
K
f f
f
o t . Logo, h parmetros j , j w e j b tal
que

1
, 1, , ,
K
j j f j f
f
g b f N

w x t (15)
em que f t o vetor alvo (escores subjetivos),
T
1, , j j jn w w w o vetor de peso que conecta o jsimo
neurnio da camada oculta ao neurnio da
camada de entrada, j b denota a polarizao (bias) do
j-simo neurnio da camada oculta, j f w x o
produto interno de j w e f x . A Figura 2 ilustra o
algoritmo ELM empregado em uma arquitetura de
rede neural SLFN.
xi
1
j
N
1
j
K
ti
bj
N input neuron K hidden neuron output neuron
1
K
wj
Fig. 2. Arquitetura de uma rede neural SLFN usando algoritmo
de treinamento ELM
O sistema linear da Equao (16) resume o mtodo
do algoritmo ELM.
H T, (16)
em que a matriz da camada oculta representada por
1, , and 1, , f H h f N j K com a primeira
linha da matriz de caractersticas f x igual a
T
1 2 , , , f f f fn x x x x , i.e., a primeira linha igual a
1 1 1 1 1 1 1 , , , , , f f f f f f f x A B Z TI MAD MADw . A matriz de
sada e o vetor alvo (target) so defnidos como
T
1 , K e
T
1, , N T t t , respectivamente. O
termo
T
1 , 1, , j jm j j K denota o vetor de
peso que conecta o j-simo neurnio da camada
oculta e os neurnios de sada. Hung et al. [28]
propuseram a atribuio aleatria de pesos aos
parmetros j w e j b , a fm de seja obtido um pequeno
erro no-nulo durante o treinamento. Considerando o
sistema linear da Equao (17), os pesos da camada
de sada podem ser aproximados por
H T (17)
em que H defnida como matriz inversa
generalizada de Moore-Penrose (MP) [33] da matriz
de sada da camada oculta H . Alm disso, o
conjunto de treinamento , n oculta K e uma
funo de ativao g x , e.g., funo de base radial
(Radial Basis Function RBF), hard-limiting (hardlim),
sigmoidal (sig) e seno (sin). Em resumo, o algoritmo
ELM compreende trs etapas [28]:
i) Atribuio aleatria dos pesos de entrada j w e
polarizaes j b ;
ii) Clculo da matriz da camada de sada H ;
iii) Clculo dos pesos de sada : H T .
O mtodo NRVQA-ELMtc [27] implementa um
simples critrio de parada no treinamento da rede
neural SLFN, quanto atribuio aleatria dos pesos
j w e j b . Embora este critrio no seja direcionado,
busca os pesos relacionados com o menor RMSE
(Root-Mean-Square Error) entre a sada desejada
(escore subjetivo) e o escore objetivo na fase de
treinamento com k iteraes (tipicamente, k 100 ) e
N neurnios na camada oculta. Alm disso, conforme
estudo realizado em [27], caso o RMSE seja menor do
que 0,5 o algoritmo cessa a busca pelos parmetros
j w e j b .
4. RESULTADOS EXPERIMENTAIS
Esta seo apresenta os resultados de acurcia,
i.e., os coefcientes de correlao linear de Pearson
(Pearson Linear Correlation Coefcient PLCC) [34],
[35], entre os escores objetivos e subjetivos de 2627
amostras de vdeo estudadas em [27].
A Figura 3 compara a acurcia (PLCC) entre as
mtricas de referncia completa (FR) PSNR e MSSSIM
com o mtodo proposto (NRVQA-ELMtc) para
as 2627 amostras de vdeo, pertencentes a 17 bases
de dados de vdeo disponibilizadas por diversas
instituies e laboratrios [27]. A funo de ativao
usada na rede neural SLFN foi o seno (sin) com o
nmero de amostras de teste igual ao nmero de
neurnios na camada oculta ( N ). O mtodo de
validao cruzada mltipla (K-fold) foi usado com o
objetivo de gerar uma distribuio de acurcia, a qual
foi analisada por meio do diagrama de caixa (box-plot)
[36], em que o trao, o crculo e o quadrado, ambos
em vermelho, representam a mediana, a mdia e o
desvio padro, respectivamente. Destaca-se que
neste trabalho foi empregada uma validao cruzada
com um grande nmero de amostras de treinamentoteste
com K 100 , i.e., cada caixa do box-plot
comporta 100 experimentos distintos. Tipicamente, a
literatura apresenta trabalhos no campo da avaliao
Fig. 3. Box-plot da predio da acurcia (PLCC) entre as mtricas PSNR, MS-SSIM e o mtodo proposto NRVQA-ELMtc
de qualidade de vdeo com K entre 5 e 10 [37], [38].
Pela inspeo visual da Figura 3 observa-se que o
desempenho do mtodo proposto superior s
mtricas FR, em quaisquer condies de teste, i.e.,
para qualquer quantidade de amostras de teste
(nmero de neurnios na camada oculta) entre 25 e
500. Em especial, para N 50 , o mtodo proposto
apresenta valores de PLCC, em termos da mdia e
mediana, acima de 0,8, denotando uma forte
associao entre os escores objetivos e subjetivos, na
tarefa de predio de qualidade de vdeo. Isto ocorre
devido grande quantidade de amostras de vdeo
usadas no treinamento, e.g., para N 300 foram
usadas 2327 amostras de treinamento, ou seja,
mesmo usando pares de treinamento-teste disjuntos,
o mtodo proposto mostra uma acurcia superior s
mtricas de referncia completa. A assimetria positiva,
i.e., a maior concentrao da acurcia entre o
segundo quartil (mediana) e o terceiro quartil, na
distribuio do box-plot nos testes com 300 e 500
neurnios na camada oculta, indica que o mtodo
proposto apresenta um desempenho expressivo em
comparao com as mtricas FR.
Entretanto, mesmo para N entre 25 e 50, o
mtodo proposto apresentou uma acurcia maior do
que as mtricas FR, cujo melhor resultado foi para
N 25 com o desvio-quartil (amplitude interquartlica)
confnado entre 0,65 e 0,8. Alm disso, este resultado
tambm apresentou assimetria positiva com a mdia
do PLCC em torno de 0,75.
5. CONCLUSO
Este trabalho apresentou uma mtrica NR baseada
em uma rede neural artifcial SLFN, cujo treinamento
determinado pelo algoritmo ELM, o qual considera
caractersticas espao-temporais e os escores
subjetivos (alvos) extrados de 2627 amostras
treinamento. Alm disso, este trabalho prope uma
extenso do algoritmo ELM por meio de um simples
critrio de parada, a fm de que sejam obtidos
parmetros da rede neural artifcial relacionados com
o menor RMSE. Tipicamente, a comparao entre
mtricas FR e NR injusta, devido ausncia do
vdeo de referncia na obteno do escore de
qualidade em mtricas NR. Entretanto, os resultados
experimentais mostram que o mtodo proposto
apresentou desempenho superior s mtricas de
referncia completa PSNR e MS-SSIM, sobretudo,
quando o nmero de amostras de teste e de neurnios
na camada oculta da rede SLFN maior do que 250.
Logo, a mtrica NRVQA-ELMtc pode ser empregada
no monitoramento de qualidade em sistemas de
transmisso e recepo de vdeo digital, tais como
IPTV (Internet Protocol Television), TV digital ou em
dispositivos mveis, tais como ultrabooks,
smartphones, tablets e em aparelhos WiDi (Wireless
Display).
REFERNCIAS
[1] S. Winkler, Issues in vision modeling for perceptual
video quality assessment, Signal Processing, vol. 78,
no. 2, pp. 231252, 1999.
[2] Z. Wang and A. C. Bovik, Modern image quality
assessment. San Rafael, CA: Morgan & Claypool,
2006.
[3] W. Lin and C.-C. Jay Kuo, Perceptual visual quality
metrics: A survey, Journal of Visual Communication
and Image Representation, vol. 22, no. 4, pp. 297312,
May 2011.
[4] S. S. Hemami and A. R. Reibman, No-reference image
and video quality estimation: Applications and humanmotivated
design, Signal Processing: Image
Communication, vol. 25, no. 7, pp. 469481, 2010.
[5] Z. Wang and A. Bovik, Reduced- and No-Reference
Image Quality Assessment, IEEE Signal Processing
Magazine, vol. 28, no. 6, pp. 2940, Nov. 2011.
[6] R. V. Babu, S. Suresh, and A. Perkis, No-reference
JPEG-image quality assessment using GAP-RBF,
Signal Processing, vol. 87, no. 6, pp. 14931503, 2007.
[7] X. Jiang, F. Meng, J. Xu, and W. Zhou, No-Reference
Perceptual Video Quality Measurement for High
Defnition Videos Based on an Artifcial Neural
Network, in Computer and Electrical Engineering,
2008. ICCEE 2008. International Conference on, 2008,
pp. 424427.
[8] J. Choe, K. Lee, C. Lee, and S. Korea, No-reference
video quality measurement using neural networks, in
2009 16th International Conference on Digital Signal
Processing, 2009, pp. 14.
[9] S. Suresh, R. Venkatesh Babu, and H. J. Kim, Noreference
image quality assessment using modifed
extreme learning machine classifer, Applied Soft
Computing, vol. 9, no. 2, pp. 541552, Mar. 2009.
[10] A. M. Eskicioglu and P. S. Fisher, Image quality
measures and their performance, IEEE Transactions
on Communications, vol. 43, no. 12, pp. 29592965,
1995.
[11] U. Engelke and H.-J. Zepernick, Perceptual-based
Quality Metrics for Image and Video Services: A
Survey, in Proceedings EuroNGI Conf. Next
Generation Internet Networks, 2007, pp. 190197.
[12] Z. Wang, A. C. Bovik, H. R. Sheikh, and E. P
Simoncelli, Image quality assessment: from error
visibility to structural similarity., IEEE Transactions on
Image Processing, vol. 13, no. 4, pp. 600612, 2004.
[13] Z. Wang, E. P. Simoncelli, and A. C. Bovik, Multiscale
structural similarity for image quality assessment, in
The Thrity-Seventh Asilomar Conference on Signals,
Systems & Computers, 2003, 2003, vol. 2, no. 1, pp.
13981402.
[14] H. R. Wu, K. R. Rao, and A. A. Kassim, Digital Video
Image Quality and Perceptual Coding, Journal of
Electronic Imaging, vol. 16, no. 3, 2007.
[15] Z. Wang and A. C. Bovik, A universal image quality
index, IEEE Signal Processing Letters, vol. 9, no. 3,
pp. 8184, Mar. 2002.
[16] Y. Shi, Y. Ding, R. Zhang, and J. Li, Structure and Hue
Similarity for Color Image Quality Assessment, in 2009
International Conference on Electronic Computer
Technology, 2009, pp. 329333.
[17] W. B. Silva, A. A. P. Pohl, and K. V. O. Fonseca, A
Reduced-Reference Video Quality Assessment Method
based on the Activity-Diference of DCT Coefcients,
IEICE Transactions on Information and Systems, vol. E96-D, no. 3, 2013.
[18] P. Le Callet, C. Viard-Gaudin, and D. Barba, A Convolutional Neural Network Approach for Objective Video Quality Assessment, IEEE Transactions on Neural Networks, vol. 17, no. 5, pp. 13161327, 2006.
[19] P. Le Callet and D. Barba, Image Quality Assessment: From Sites Errors to a Global Appreciation of Quality, in Proceedings of the Picture Coding Sympsium, 2001, pp. 105108.
[20] M. Miyahara, K. Kotani, and V. R. Algazi, Objective picture quality scale (PQS) for image coding, IEEE Transactions on Communications, vol. 46, no. 9, pp. 12151226, 1998.
[21] M. Slanina, V. Ricny, and R. Forchheimer, A Novel Metric for H.264/AVC No-Reference Quality Assessment, in 14th International Workshop on Systems, Signals and Image Processing and 6th EURASIP Conference focused on Speech and Image Processing, Multimedia Communications and Services, 2007, pp. 114117.
[22] O. Sugimoto, S. Naito, S. Sakazawa, and A. Koike, Objective perceptual video quality measurement method based on hybrid no reference framework, in 16th IEEE International Conference on Image Processing (ICIP09), 2009, pp. 22372240.
[23] T. Oelbaum, C. Keimel, and K. Diepold, Rule-Based No-Reference Video Quality Evaluation Using Additionally Coded Videos, IEEE Journal of Selected Topics in Signal Processing, vol. 3, no. 2, pp. 294303, 2009.
[24] N. Staelens, N. Vercammen, Y. Dhondt, B. Vermeulen, P. Lambert, R. de Walle, and P. Demeester, ViQID: A No-Reference bit stream-based visual quality impairment detector, in Proceedings of the Second Int Quality of Multimedia Experience (QoMEX) Workshop, 2010, pp. 206211.
[25] F. Yang, S. Wan, Q. Xie, and H. R. Wu, No-Reference Quality Assessment for Networked Video via Primary Analysis of Bit Stream, IEEE Transactions on Circuits and Systems for Video Technology, vol. 20, no. 11, pp. 15441554, Nov. 2010.
[26] Z. Wang, H. R. Sheikh, and A. C. Bovik, Objective Video Quality Assessment, in The Handbook of Video Databases: Design and Applications, B. Furht and O. Marques, Eds. Boca Raton, FL, USA: CRC Press, 2003, pp. 10411078.
[27] W. B. da Silva and A. de A. P. Pohl, Mtodos Sem Referncia Baseados em Caractersticas Espao-Temporais para Avaliao Objetiva de Qualidade de Vdeo Digital, Universidade Tecnolgica Federal do Paran (UTFPR), 2013.
[28] G.-B. Huang, Q.-Y. Zhu, and C.-K. Siew, Extreme learning machine: Theory and applications, Neurocomputing, vol. 70, no. 13, pp. 489501, Dec. 2006.
[29] Z. Wang, H. R. Sheikh, and A. C. Bovik, No-reference perceptual quality assessment of JPEG compressed images, in Image Processing. 2002. Proceedings. IEEE International Conference on Image Processing, 2002, vol. 1, pp. vol.1 I477 I480.
[30] W. B. Silva and A. A. P. Pohl, No-Reference Video Quality Assessment Method based on the Levenberg-Marquardt Minimization, in XXX Brazilian Symposium on Telecommunications (SBrT12), 2012.
[31] ITU-T P.910, Subjective video quality assessment methods for multimedia applications, Standardization Sector of ITU, 1999.
[32] W. Ding, Y. Tong, Q. Zhang, and D. Yang, Image and Video Quality Assessment Using Neural Network and SVM, Tsinghua Science &amp; Technology, vol. 13, no. 1, pp. 112116, 2008.
[33] K. S. Banerjee, C. R. Rao, and S. K. Mitra, Generalized Inverse of Matrices and Its Applications, Technometrics, vol. 15, no. 1, p. 197, Feb. 1973.
[34] VQEG, Final report from the video quality experts group on the validation of reduced-reference and no-reference objective models for standard defnition television, Phase I, 2009.
[35] VQEG, Report on the validation of video quality models for high defnition video content, 2010.
[36] J. W. Tukey, Exploratory Data Analysis. New York: Addison-Wesley Publishing Company, 1977.
[37] P. Gastaldo and R. Zunino, Neural networks for the no-reference assessment of perceived quality, J. Electronic Imaging, vol. 14, no. 3, p. 033004, 2005.
[38] R. Herzog, M. adk, T. O. Aydn, K. I. Kim, K. Myszkowski, and H.-P. Seidel, NoRM: No-Reference Image Quality Metric for Realistic Image Synthesis, Comp. Graph. Forum, vol. 31, no. 2pt4, pp. 545554, 2012.
segmentao do rdio, o que fez com que houvesse os
perfis.
O assunto foi debatido por diferentes
pesquisadores, como Marcelo Kishinhevsky. Para ele,
o processo de segmentao sempre privilegiou muito
mais a abrangncia de pblico, o que ajudaria a
explicar uma certa padronizao da voz do locutor nas
emissoras FM:
Ao invs de identificar seus targets, as emissoras, ou a
direo das redes a que pertenciam, foram incapazes de
acompanhar a montanha-russa da diferenciao da
audincia, estabelecendo segmentos de pblico
abrangentes [...] na prtica, ningum conhecia a nova
audincia, segmentada, plural, com suas demandas
inditas. Havia muito mais no pas do samba e do futebol
do que conseguiam enxergar os executivos das
emissoras. [9]
Esse processo de segmentao que se seguiu na
dcada de 1990, redundou na perda de significao
do papel do locutor como centro do programa na
maior parte das rdios com algumas excees em
umas poucas emissoras populares. Se, na dcada de
1980, havia at chamada em televiso para anunciar a
troca de emissora por um determinado locutor, na
dcada de 1990 a voz dele no rdio comea a
diminuir.
2. O PERFIL DO LOCUTOR FM E SUA
RELEVNCIA
2.1 O locutor sem voz
O perfil predominante do locutor em emissoras
segmentadas em estilos musicais especficos,
especialmente as jovens e as easy listening, de um
apresentador sem nome. A comunicabilidade entre
locutor e ouvinte prejudicada. Roberto Hais, cuja
carreira principalmente baseada em emissoras
jovens, afirma que isso resultado direto da
segmentao na dcada de 1990, uma vez que as
emissoras foram, aos poucos, suprimindo o papo com
o ouvinte. No existe espao para opinio do locutor
na jovem, mas deveria ter, de acordo com Hais.
A opinio de diferentes locutores, de outros
segmentos, no muito diferente disso. Marco
Antonio afirma que tudo to engessado; to padro;
tem rdio que no deixa o locutor falar o nome.
Sandra Groth, locutora do segmento popular, lembra
como isso impacta nos ndices de audincia:
Se voc for ver o Ibope, Jovem Pan, Mix, esto tudo
derrubadas, esto com o Ibope l embaixo. [...] est
faltando interagir. [elas] no falam, eles tocam msica,
fazem promoo e acabou...
unanimidade entre os locutores que existe a
necessidade de maior interao e maior personalidade
no contato com o ouvinte, especialmente em
emissoras segmentadas no pblico jovem ou em
estilos musicais que exigiriam especializao dos
locutores no conhecimento histrico e musical do que
tocam. Locutores da 89FM, uma emissora jovem que
comea a testar um novo modelo de contato com o
ouvinte, PH Dragani e Cadu Previero defendem a
profisso e alertam para os riscos profissionais que
essa reduo da importncia do locutor traz:
A o trabalho acaba sendo desvalorizado e mal
remunerado, cada vez mais. Eu acho que o
profissional, no ar, deve se sentir um pouco
desmotivado. So 4 horas que voc fica no ar e voc
no tem o feedback do ouvinte, voc quer falar mas no
pode, fica sendo podado.
2.2 O locutor da popular
Na outra ponta esto presentes as emissoras
chamadas populares, que so aquelas que abrangem
em sua programao uma gama bastante variada de
msicas brasileiras de diferentes segmentos. Se,
ainda hoje, muitas populares apontam para o mesmo
caminho das outras emissoras que a quase total
eliminao do locutor do dial muitas investem no
caminho contrrio. Laerte Gouveia, o locutor mais
ouvido do meio da noite no rdio paulistano, comenta
o sucesso da emissora em que trabalha:
A Trans lder hoje em praticamente todos os horrios.
Ela uma rdio popular e isso ajuda bastante... a nossa
ideia, nossa filosofia, deixar o ouvinte vontade.
deixar que o ouvinte se sinta amigo da rdio... A rdio
um grande companheiro. mais que um companheiro, e
representa histrias, grandes momentos... E a gente
acaba fazendo amizade com as pessoas, principalmente
com aqueles que esto l direto.
O mesmo afirma Sandra Groth, uma das vozes
mais ouvidas no perodo da manh:
Eu tenho que trazer [o ouvinte] para uma roda de mesa,
pra sentar comigo e conversar comigo. Mesmo que no
esteja me vendo. Eu estou aqui falando uma coisa e [ele]
est do outro lado falando sozinho comigo no rdio [...] e
a tem vontade de ligar, de falar, de participar. essa a
mudana.
Assim, a intimidade entre ouvinte e locutor
efetivamente um componente no que representa o
papel do rdio. Trata-se, claramente, de uma
aproximao com uma forma de fazer rdio mais
antiga, introduzida no Brasil entre as dcadas de 1960
e 1970. Como podemos perceber, apesar de seguir a
lgica de predominncia musical na FM e adequao
a uma plstica que dialoga com ouvintes e
anunciantes, esse apresentador da rdio popular
guarda para si uma personalidade to importante
como a que o locutor da AM tem desde a dcada de
1960. E, segundo muitos locutores, esse espao de
comunicao com o pblico que garante ndices de
audincia mais altos. A comparao feita por Roberto
Hais gera uma pergunta importante neste contexto:
No rdio popular voc precisa comunicar, voc precisa
ter a sua personalidade, ou a pessoa te deixa. Por que o
rdio jovem, hoje, no pode pegar o exemplo da rdio
popular, e levar isso para uma comunicabilidade (que era
comum) nos anos 1990?
56 Revista de Radiodifuso v. 07 n. 08 2013
Pesquisas em ambientes digitais - TV Internet Radio Cinema
Para tentar responder a esse questionamento,
importante analisar como seria a construo do perfil
desse locutor que possui grande representatividade
com o pblico.
2.3 A marca pessoal do locutor
Os traos de comunicabilidade, citados por Hais,
esto presentes principalmente no trabalho que os
locutores das emissoras populares fazem. Em
resumo, a criao de uma marca eficaz que tem dois
pilares de sustentao bastante slidos: primeiro, a
possibilidade de se comunicar com o ouvinte
abertamente e, segundo, ser um personagem que
serve como referncia.
No primeiro aspecto, da comunicao, conta
bastante a experincia e o preparo que o profissional
tem. Os entrevistados afirmam que conseguiram esse
reconhecimento a partir de suas experincias
pessoais, mas reconhecem que as emissoras em que
trabalham, ao permitirem formas menos padronizadas
de contato com o ouvinte, tambm se tornam
fundamentais nesse contexto. Como afirma Marco
Antonio,
[estou] h tanto tempo no ar que galguei esse espao.
Se algum est deixando [eu fazer meu servio]...
porque est funcionando, a galera est curtindo, mas eu
no teria isso em outro lugar.
Na formao dos locutores PH Dragani e Cadu
Previero, por exemplo, existiu um profissional nos
anos 1990 que ajudava a afinar o que seria dito no ar,
o coordenador de locuo. Em outra palavras,
seguindo a plstica da rdio e uma clareza para
selecionar o que seria falado, esses locutores
ganharam a possibilidade de criar um estilo e uma
forma pessoal de comunicao. Surge, da, o segundo
pilar, que a criao de uma personalidade, o que
representa essa marca pessoal hoje em dia.
Marco Antonio um bom exemplo desse perfil de
locutor, com estilo claro, a que nos referimos. Ele tem
um personagem, o Titio, e sob esse nome que ele
apresenta seu programa e, consequentemente, suas
opinies sobre os diferentes assuntos que comenta.
Sandra Groth, h tanto tempo no ar, tambm criou
uma relao ntima e alimenta o seu horrio com um
perfil de personagem que dialoga de modo bem
coloquial e ntimo com os ouvintes, inclusive
assumindo um apelido dado por eles. No caso dela,
trata-se de um perfil profissional em uma emissora
popular, em que, como vimos, o contato com o ouvinte
muito mais prximo. A anlise fica ainda mais
interessante quando olhamos para os casos de PH
Dragani e Cadu Previero, locutores que possuem
horrios prprios na emissora em que trabalham:
Cada um tem o seu estilo, voc tem seu nome, seu
estilo, a sua maneira de fazer o horrio, cada um
diferenciado.
Como lembra Roberto Hais, o locutor bem
preparado reconhece o seu pblico e articula com
suas referncias pessoais:
tem que conhecer o pblico para o qual [o locutor] est
trabalhando, para quem ele vai falar... e sempre vai
pegar o exemplo de algum que ele gosta muito de
ouvir: vai se basear, pra fazer o seu trabalho, em algum
que gosta e que deu certo.
Os estilos prprios e individuais de cada locutor e a
forma como eles apresentam e exploram as opinies
pessoais, colaborando para uma assinatura geral da
emissora, geram algo ainda mais fundamental para
esse perfil atualizado do locutor: a credibilidade.
Mesmo em tempos de internet, em que existe a
complementaridade entre os diferentes espaos de
veiculao da informao, o locutor se mantm o mais
importante representante da emissora. Afirma Cadu
Previero: Tudo afunilado no locutor. Todos os
departamentos so importantes, mas o de locuo
que o elo com o ouvinte. a cara da rdio. E essa
cara da rdio se constri a partir de uma relao
transparente, ntima e preenchida com informaes
fundamentadas. No preparo do locutor
especialmente em uma rdio segmentada por estilo
musical essencial que ele se aprofunde em
conhecer os aspectos que so mais caros aos
ouvintes.
Mais alm, se a questo da credibilidade
importante em uma emissora musical, mais em uma
emissora jornalstica. Milton Jung vai direto ao ponto,
ao comentar que, uma vez que seu negcio a
notcia, a emissora de rdio deve prover uma estrutura
razovel para suficientemente permitir a apurao dos
fatos.
Eu no posso falar de qualquer assunto simplesmente
porque saiu em qualquer lugar... no posso
simplesmente fazer, como um cidado comum faria, uma
crtica a algum... o meu negcio a credibilidade, e eu
no posso abrir mo disso.
2.4 A voz do locutor: morte e vida
No limite, a exposio que fizemos at aqui do perfil
desejvel de um locutor acaba representando a
principal defesa feita neste artigo: que sua presena
to essencial que precisa ser reforada dentro do
espao da rdio. Conforme Sandra Groth:
O [ouvinte] no est 24 horas ligado no rdio, ele vai
ouvir a msica que ele quer, baixar o que ele quer, e
acabou. O rdio, o apresentador, tem que se fazer vivo
ali, porque de onde vai vir uma identificao pro
ouvinte te ouvir... A pessoa est ligando pra ouvir o
apresentador, ento a gente est voltando a ser
apresentador... s assim que [o rdio] vai conseguir
seguir em frente... quando [o locutor] no interage, vai
meio que morrendo dentro do rdio.
Para todos os locutores entrevistados, fundamental
que o ouvinte se sinta presente em uma conversa com
o locutor, e isso s possvel com esse profissional
que guarda uma personalidade e tem espao na
Pesquisas em ambientes digitais - TV Internet Radio Cinema
Revista de Radiodifuso v. 07 n. 08 2013 57
MTRICA SEM REFERNCIA BASEADA EM REDES NEURAIS
PARA AVALIAO OBJETIVA DE QUALIDADE DE VDEO DIGITAL
Wyllian Bezerra da Silva, Alexandre de Almeida Prado Pohl
Programa de Ps-Graduao em Engenharia Eltrica e Informtica Industrial (CPGEI) UTFPR, Curitiba, Brasil
wyllianbs@gmail.com, pohl@utfpr.edu.br
Resumo: Este trabalho apresenta uma mtrica sem referncia para avaliao de qualidade de vdeo digital baseada em uma rede neural artifcial que usa uma verso estendida do algoritmo de aprendizado ELM (Extreme Learning Machine). O mtodo proposto realiza o treinamento da rede neural a partir de seis caractersticas espao-temporais. Os resultados experimentais mostram que o mtodo proposto apresenta desempenho superior s mtricas de referncia completa PSNR e MS-SSIM na tarefa de predio de qualidade de vdeo. Logo, o mtodo proposto pode ser usado no monitoramento de qualidade em sistemas de transmisso e recepo de vdeo digital, tais como IPTV e TV digital.
Palavras chave: algoritmo ELM, avaliao objetiva de vdeo, mtrica sem referncia, rede neural artifcial.
1. INTRODUO
Durante os ltimos anos, a literatura tem apresentado um nmero crescente publicaes acerca de mtricas objetivas para avaliao de qualidade de vdeo para diversas aplicaes em radiodifuso ou no processamento de vdeo digital, seja na aquisio do sinal, codifcao e decodifcao, compresso, transmisso, restaurao, armazenamento, segmentao e exibio de sinais de vdeo digital [14]. A avaliao de qualidade de vdeo digital pode ser realizada por meio de mtricas subjetiva e objetiva. A primeira requer uma grande quantidade de recursos humanos e apresenta elevado custo em sua implementao [13]. Porm, as mtricas objetivas so vantajosas quando apresentam um determinado grau de correlao com as mtricas subjetivas. Logo, o desenvolvimento destas um desafo no campo de avaliao de qualidade de vdeo e imagem. Alm disso, as mtricas objetivas, devido natureza de seu critrio objetivo, independem de interao humana e so facilmente reprodutveis [3]. Dentre as mtricas objetivas destacam-se as mtricas sem referncia (No-Reference NR), pois no necessitam do vdeo de referncia no clculo de sua medida. Entretanto, estas requerem um conhecimento a priori sobre as distores em vdeo digital para que seja estabelecida uma correlao com os resultados subjetivos [3].
A maioria das mtricas NR encontradas na literatura so baseadas na avaliao de qualidade de imagens e em caractersticas relacionadas ao Sistema Visual Humano (SVH). Assim, o desenvolvimento de mtricas NR difcil, devido necessidade de emular a percepo do SVH que envolve aspectos cognitivos, emocionais e estticos relacionados ao contedo do vdeo e que so altamente dependentes do observador [4], [5].
A literatura reporta diversos esforos no desenvolvimento de mtricas para avaliao de qualidade de vdeo baseadas em redes neurais e em algoritmos de aprendizado. Babu et al. [6] apresentam uma mtrica para avaliar a qualidade de imagens comprimidas em JPEG (Joint Photographic Experts Group) por meio de um algoritmo de aprendizado de crescimento e propem o uso de uma rede neural GAP-RBF (Growing and Pruning Radial Basis Function) que usa caractersticas relacionadas ao SVH. Jiang et al. [7] desenvolveram uma mtrica NR para avaliao de qualidade de vdeo em HD (High Defnition) baseada em uma rede neural treinada pelo algoritmo BP (Back-Propagation) que usa seis caractersticas espao-temporais e a RoI (Region of Interest). Choe et al. [8] desenvolveram uma mtrica NR baseada no fuxo de bits para avaliao de qualidade de vdeo codifcado em H.264. Esta mtrica extrai caractersticas quadro a quadro e usa uma rede neural alimentada adiante (feedforward) com trs camadas. Suresh et al. [9] apresentaram uma extenso do algoritmo ELM na tarefa de avaliar a qualidade de imagens comprimidas em JPEG com base no esquema de seleo mltipla KS-ELM (K-fold selection Scheme using ELM) e no algoritmo RCGA-ELM (Real-Coded Genetic Algorithm using ELM) para seleo dos pesos de entrada e polarizaes.
Este trabalho apresenta uma verso estendida do algoritmo ELM para redes neurais SLFN (Single-hidden-Layer Feedforward Neural Networks) que implementa um simples critrio de parada na fase de treinamento. Alm disso, esse mtodo usa seis caractersticas espao-temporais de vdeos submetidos a diversas condies de distoro.
Este artigo est dividido da seguinte maneira: a Seo 2 descreve as mtricas para avaliao de qualidade de vdeo. A Seo 3 descreve o mtodo NR proposto para avalio de qualidade de vdeo digital. A Seo 4 apresenta os resultados experimentais, em que so comparados o mtodo NR proposto e duas mtricas FR. Finalmente, a Seo 5 apresenta a concluso do artigo.
2. AVALIAO DE QUALIDADE DE VDEO
O processo de avaliao de qualidade de vdeo
pode ser realizado com a aplicao de mtricas
subjetivas ou objetivas. As mtricas subjetivas
estimam a qualidade do vdeo por meio de avaliadores
humanos. Logo, exigem um alto custo, pois
necessitam de uma grande quantidade de recursos
humanos e apresentam problemas quanto aos
requisitos de imparcialidade e reprodutibilidade,
tornando-se inapropriadas em sistemas de
radiodifuso ou em provedores de contedo [10], [11].
Por outro lado, as mtricas objetivas so baseadas em
modelos matemticos, cujo objetivo produzir um
escore de qualidade que emule a percepo do SVH.
Alm disso, as mtricas objetivas requerem baixo
custo de implementao (quando comparadas com as
mtricas subjetivas) e no apresentam problemas
quanto reprodutibilidade e imparcialidade.
As mtricas objetivas para avaliao de qualidade
de vdeo podem ser classifcadas em trs categorias:
(i) mtricas de referncia completa (Full-Reference
FR); (ii) mtricas de referncia reduzida (Reduced-
Reference RR); (iii) mtricas sem referncia (NR).
2.1. Mtricas FR
As mtricas FR requerem o vdeo de referncia
(fonte) no clculo do escore de qualidade. Estas
mtricas so amplamente utilizadas no processo de
validao de mtricas RR ou NR, por meio da
comparao de desempenho defnida pelas
recomendaes do Grupo de Especialistas em
Qualidade de Vdeo (VQEG Video Quality Experts
Group) que um rgo de padronizao internacional
de mtricas subjetivas e objetivas de qualidade de
vdeo. Dentre as mtricas FR, destacam-se o PSNR
(Peak Signal-to-Noise Ratio), SSIM (Structural
SIMilarity index) [12] e MS-SSIM (Multi-Scale
Structural SIMilarity index) [13].
O PSNR uma mtrica FR baseada no erro pixel a
pixel de fcil implementao. Entretanto, apresenta
baixa correlao com o SVH [14]. A sua medida
processada sobre o erro quadro a quadro, i.e., entre o
quadro original x e o quadro y . A expresso a seguir
defne o PSNR para um conjunto de quadros F .
20
1
1
PSNR 20log ,
F
f
f f
v
F MSE



(1)
com

2
0 0
1
MSE , , , , ,
N M
f
i j
x f i j y f i j
NM

(2)
em que o termo f v igual a (2 1) k , cujo k o
nmero de bits por pixel, i.e., a componente de
luminncia do quadro f . Os termos x f ,i, j e
y f ,i, j so os valores de luminncia do quadro de
origem e degradado, respectivamente. As
componentes bidimensionais so representadas pelo
nmero de colunas N e pelo nmero de linhas M . O
termo f MSE defnido como erro quadrtico mdio
ou MSE (Mean Square Error).
A mtrica SSIM baseia-se no fato de que o SVH
fortemente adaptado para extrair informaes das
caractersticas estruturais de um quadro ou imagem.
Logo, uma medida de similaridade estrutural (ou
distoro) pode prover boa aproximao para a
qualidade perceptual de um vdeo [3, 79]. Sejam x e
y dois sinais no-negativos, em que y o sinal
degradado e x o sinal original (sem perda de
qualidade), a medida de similaridade utilizada como
um ndice quantitativo de qualidade do sinal distorcido,
ou seja, x tomado como a referncia para medir a
qualidade de y . A mtrica SSIM possui diversas
extenses, dentre as quais a verso MS-SSIM,
proposta por Wang et al. [13] que assume uma
abordagem multiescalar.
2.2. Mtricas RR
As mtricas de referncia reduzida retiram certa
quantidade de caractersticas do vdeo original (fonte),
baseadas em componentes espaciais, temporais, no
domnio da frequncia ou no fuxo de bits (bitstream).
Este tipo de mtrica amplamente utilizada no
monitoramento de transmisses em rede [17]. Neste
tipo de cenrio de aplicao, o vdeo transmitido
com uma sequncia de informao codifcada
(overhead) e no lado receptor ocorre a sua
decodifcao, seguido pelo clculo do ndice de
qualidade, o qual obtido por meio da comparao
entre a representao reduzida da informao nos
pares emissor e receptor [18]. Tipicamente, mtricas
RR so implementadas por meio de funes, divididas
em duas etapas [19]: (i) clculo do erro entre os
vdeos original e distorcido, constitudo pela diferena
de suas caractersticas, a fm de compor a
representao reduzida da informao; (ii) funo que
agrupa os erros ou diferenas para obter um ndice de
qualidade global. Algumas mtricas RR exploram
propriedades dos artefatos, por meio da extrao de
caractersticas e um modelo de parametrizao [20]
com foco em tipos especfcos de distores
(artefatos). Esta abordagem encontrada em Silva et
al. [17], cujo clculo do escore de qualidade
baseado na diferena de atividade dos coefcientes
DCT (Discrete Cosine Transform) em um macro bloco
com resoluo de 1616 pixels.
2.3. Mtricas NR
As mtricas NR extraem caractersticas
relacionadas ao SVH do vdeo distorcido, i.e., na
recepo do sinal de vdeo [14]. Tipicamente, h duas
abordagens no desenvolvimento destas mtricas: (i)
extrao dos parmetros sobre o fuxo de bits, tais
como a taxa de compresso, informaes
relacionadas ao GoP (Group of Pictures), estimao
de movimento, perfl e nvel de codifcao, bem como
o parmetro de quantizao ou QP (Quantization
Parameter) [2125]. Mtricas NR apresentam maior
complexidade quando so aplicadas em vdeo, devido
variao temporal dos quadros, contedos das
cenas e difculdade de compreenso das
caractersticas do SVH [26]. Assim, algumas mtricas
dessa categoria exploram caractersticas espaciais e
temporais na estimao de qualidade de vdeo [21].
3. MTODO PROPOSTO
O mtodo proposto, denominado NRVQA-ELMtc
(No-Reference Video Quality Assessment using
Extreme Learning Machine algorithm with termination
criteria) [27] combina caractersticas espaciais e
temporais, por meio de uma rede neural artifcial
SLFNs usando o algoritmo de treinamento ELM [28]
com a implementao de um simples critrio de
parada.
3.1. Caractersticas espao-temporais
As caractersticas espaciais incorporadas no
mtodo proposto so baseadas em medidas de
artefatos em vdeo digital, i.e., distores de blocagem
e borramento desenvolvidas por Wang et al. [20].
Assim, a componente de luminncia do quadro f
representada por y(f , i, j ) com i 1,M e j 1, N ,
em que M e N so os nmeros de linhas e colunas,
respectivamente, de um quadro. Logo, as diferenas
de luminncia ao longo das linhas e colunas so
representadas, respectivamente, pelas expresses a
seguir.


, , , , 1 , , , 1, 1 ,
, , , 1, , , , 1, 1 .
h
v
d f i j y f i j y f i j j N
d f i j y f i j y f i j i M


(3)
O efeito de blocagem pode ser estimado pela
mdia das diferenas entre as bordas dos blocos da
DCT (Discrete Cosine Transform) nas direes
horizontal e vertical para uma sequncia F de
quadros, conforme mostra a Equao (4), com um
macrobloco de dimenso , cujo tamanho tpico
de 8 [20].


1
1
1 1 1
1
1
1 1 1
1
, , 1 ,
1
1
1
, 1 , .
1
1
N
F M
h h
f i j
M
F N
v
i j
v
f
B d f i j
N
F M
B d f i j
M
F N












(4)
A medida de blocagem em uma sequncia de
vdeo com F quadros determinada pela mdia entre
h B e v B , caracterizando a medida B , conforme a
expresso a seguir.
.
2
h v B B
B

(5)
Os efeitos de borramento so estimados pelo
clculo da reduo de atividade entre os blocos ,
em que usada a medida de blocagem nas direes
horizontal e vertical, conforme as expresses




1
1 1 1
1
1 1 1
, , ,
1 1
, ,
1
.
1
F M N
h h h
f i j
F M N
v v
f
v
i j
A d f i j B
F M N
A d f i j B
F N M








(6)
A medida de borramento, representada por A ,
conforme a Equao (7), determinada pela mdia
entre h A e v A .
.
2
h v A A
A

(7)
O segundo fator que contribui para a deteco do
artefato de borramento baseado na taxa de
cruzamento por zero (Zero Crossing ZC) nas
direes horizontal e vertical, conforme as expresses
a seguir.




2
1 1 1
2
1 1 1
1
, , ,
2
1
, , ,
2
F M N
h h
f i j
F M N
v v
f i j
Z z f i j
F M N
Z z f i j
F N M




(8)
em que os termos h z e v z so determinados por


1, na direo horizontal
, , ,
0, caso contrrio
1, na direo vertical
, , .
0, caso contrrio
h
v
z f i j
z f i j



(9)
Assim, a medida de borramento Z determinada
pela mdia entre as componentes h Z e v Z .
.
2
h v Z Z
Z

(10)
O mtodo proposto tambm incorpora trs
caractersticas temporais no treinamento da rede
neural SLFN com o algoritmo ELM.
A primeira caracterstica temporal a diferena de
movimento entre quadros adjacentes, representada
pela varivel TI (Temporal perceptual Information) [31]
que considera os valores de luminncia de pixels
localizados em uma mesma regio de um quadro,
conforme a expresso a seguir.

2
1
, , ,
1
F
f
TI m f i j
F


(11)
em que o nmero total de quadros F e mf ,i, j

o desvio padro da diferena de movimento
(diferena de luminncia) entre o quadro atual
y f ,i, j e o quadro anterior y f 1,i, j .
A segunda caracterstica temporal a mdia da
diferena absoluta (Mean Absolute Diference MAD)
[31] entre quadros sucessivos, representada pela
Equao (12) que defne a medida global da MAD
para todos os quadros de um vdeo.


2 1 1
1
, , 1, , .
1
F M N
f i j
MAD y f i j y f i j
M N F



(12)
A terceira caracterstica temporal a mdia da
diferena absoluta ponderada (weighted Mean
Absolute Diference MADw) [32], a qual mede o grau
de variao das cenas de um vdeo que considera a
cena atual de um quadro f e do quadro anterior f 1,
conforme a expresso:
2 1
1
.
1
F
f
f f
MAD
MADw
F MAD


(13)
Assim, o mtodo proposto combina as
caractersticas espaciais e temporais em uma matriz
, , , , , f f f f f f f x A B Z TI MAD MADw , em que f o
nmero de amostras de vdeo. A Figura 1 apresenta
as caractersticas temporais espaciais de dezessete
bases de dados de vdeos (denominada superconjunto
S) usadas neste trabalho e reportadas em [27]. A
recomendao ITU-T P.910 [31] defne a medida SI
(Spatial perceptual Information) como informao
espacial perceptual. A inspeo visual dessa fgura
mostra que as amostras de vdeo usadas neste
trabalho apresentam uma grande variao espaotemporal.
Fig. 1. Caractersticas espaciais e temporais do superconjunto
S com 216 amostras de referncia
3.2. Mtrica NRVQA-ELMtc
O algoritmo ELM [28] desenvolvido para o
treinamento de uma rede SLFN atribui pesos e
polarizaes (biases) de maneira aleatria, segundo
uma distribuio uniforme. O treinamento compreende
N amostras distintas representadas pela varivel
, , , 1, , n m
f f f f x t x t f N , cujo clculo
conforme a expresso

1
, 1, , ,
K
K i j j f j f
f
f g b f N

x w x o (14)
em que f o a sada (escore objetivo), g(x) a
funo de ativao e j o peso que conecta o jsimo
neurnio da camada oculta ao neurnio de
sada. De acordo com [28], uma rede SLFN com K
ns na camada oculta e uma funo de ativao g(x)
pode apresentar um erro mdio prximo de zero, i.e.,
1
0
K
f f
f
o t . Logo, h parmetros j , j w e j b tal
que

1
, 1, , ,
K
j j f j f
f
g b f N

w x t (15)
em que f t o vetor alvo (escores subjetivos),
T
1, , j j jn w w w o vetor de peso que conecta o jsimo
neurnio da camada oculta ao neurnio da
camada de entrada, j b denota a polarizao (bias) do
j-simo neurnio da camada oculta, j f w x o
produto interno de j w e f x . A Figura 2 ilustra o
algoritmo ELM empregado em uma arquitetura de
rede neural SLFN.
xi
1
j
N
1
j
K
ti
bj
N input neuron K hidden neuron output neuron
1
K
wj
Fig. 2. Arquitetura de uma rede neural SLFN usando algoritmo
de treinamento ELM
O sistema linear da Equao (16) resume o mtodo
do algoritmo ELM.
H T, (16)
em que a matriz da camada oculta representada por
1, , and 1, , f H h f N j K com a primeira
linha da matriz de caractersticas f x igual a
T
1 2 , , , f f f fn x x x x , i.e., a primeira linha igual a
1 1 1 1 1 1 1 , , , , , f f f f f f f x A B Z TI MAD MADw . A matriz de
sada e o vetor alvo (target) so defnidos como
T
1 , K e
T
1, , N T t t , respectivamente. O
termo
T
1 , 1, , j jm j j K denota o vetor de
peso que conecta o j-simo neurnio da camada
oculta e os neurnios de sada. Hung et al. [28]
propuseram a atribuio aleatria de pesos aos
parmetros j w e j b , a fm de seja obtido um pequeno
erro no-nulo durante o treinamento. Considerando o
sistema linear da Equao (17), os pesos da camada
de sada podem ser aproximados por
H T (17)
em que H defnida como matriz inversa
generalizada de Moore-Penrose (MP) [33] da matriz
de sada da camada oculta H . Alm disso, o
conjunto de treinamento , n oculta K e uma
funo de ativao g x , e.g., funo de base radial
(Radial Basis Function RBF), hard-limiting (hardlim),
sigmoidal (sig) e seno (sin). Em resumo, o algoritmo
ELM compreende trs etapas [28]:
i) Atribuio aleatria dos pesos de entrada j w e
polarizaes j b ;
ii) Clculo da matriz da camada de sada H ;
iii) Clculo dos pesos de sada : H T .
O mtodo NRVQA-ELMtc [27] implementa um
simples critrio de parada no treinamento da rede
neural SLFN, quanto atribuio aleatria dos pesos
j w e j b . Embora este critrio no seja direcionado,
busca os pesos relacionados com o menor RMSE
(Root-Mean-Square Error) entre a sada desejada
(escore subjetivo) e o escore objetivo na fase de
treinamento com k iteraes (tipicamente, k 100 ) e
N neurnios na camada oculta. Alm disso, conforme
estudo realizado em [27], caso o RMSE seja menor do
que 0,5 o algoritmo cessa a busca pelos parmetros
j w e j b .
4. RESULTADOS EXPERIMENTAIS
Esta seo apresenta os resultados de acurcia,
i.e., os coefcientes de correlao linear de Pearson
(Pearson Linear Correlation Coefcient PLCC) [34],
[35], entre os escores objetivos e subjetivos de 2627
amostras de vdeo estudadas em [27].
A Figura 3 compara a acurcia (PLCC) entre as
mtricas de referncia completa (FR) PSNR e MSSSIM
com o mtodo proposto (NRVQA-ELMtc) para
as 2627 amostras de vdeo, pertencentes a 17 bases
de dados de vdeo disponibilizadas por diversas
instituies e laboratrios [27]. A funo de ativao
usada na rede neural SLFN foi o seno (sin) com o
nmero de amostras de teste igual ao nmero de
neurnios na camada oculta ( N ). O mtodo de
validao cruzada mltipla (K-fold) foi usado com o
objetivo de gerar uma distribuio de acurcia, a qual
foi analisada por meio do diagrama de caixa (box-plot)
[36], em que o trao, o crculo e o quadrado, ambos
em vermelho, representam a mediana, a mdia e o
desvio padro, respectivamente. Destaca-se que
neste trabalho foi empregada uma validao cruzada
com um grande nmero de amostras de treinamentoteste
com K 100 , i.e., cada caixa do box-plot
comporta 100 experimentos distintos. Tipicamente, a
literatura apresenta trabalhos no campo da avaliao
Fig. 3. Box-plot da predio da acurcia (PLCC) entre as mtricas PSNR, MS-SSIM e o mtodo proposto NRVQA-ELMtc
de qualidade de vdeo com K entre 5 e 10 [37], [38].
Pela inspeo visual da Figura 3 observa-se que o
desempenho do mtodo proposto superior s
mtricas FR, em quaisquer condies de teste, i.e.,
para qualquer quantidade de amostras de teste
(nmero de neurnios na camada oculta) entre 25 e
500. Em especial, para N 50 , o mtodo proposto
apresenta valores de PLCC, em termos da mdia e
mediana, acima de 0,8, denotando uma forte
associao entre os escores objetivos e subjetivos, na
tarefa de predio de qualidade de vdeo. Isto ocorre
devido grande quantidade de amostras de vdeo
usadas no treinamento, e.g., para N 300 foram
usadas 2327 amostras de treinamento, ou seja,
mesmo usando pares de treinamento-teste disjuntos,
o mtodo proposto mostra uma acurcia superior s
mtricas de referncia completa. A assimetria positiva,
i.e., a maior concentrao da acurcia entre o
segundo quartil (mediana) e o terceiro quartil, na
distribuio do box-plot nos testes com 300 e 500
neurnios na camada oculta, indica que o mtodo
proposto apresenta um desempenho expressivo em
comparao com as mtricas FR.
Entretanto, mesmo para N entre 25 e 50, o
mtodo proposto apresentou uma acurcia maior do
que as mtricas FR, cujo melhor resultado foi para
N 25 com o desvio-quartil (amplitude interquartlica)
confnado entre 0,65 e 0,8. Alm disso, este resultado
tambm apresentou assimetria positiva com a mdia
do PLCC em torno de 0,75.
5. CONCLUSO
Este trabalho apresentou uma mtrica NR baseada
em uma rede neural artifcial SLFN, cujo treinamento
determinado pelo algoritmo ELM, o qual considera
caractersticas espao-temporais e os escores
subjetivos (alvos) extrados de 2627 amostras
treinamento. Alm disso, este trabalho prope uma
extenso do algoritmo ELM por meio de um simples
critrio de parada, a fm de que sejam obtidos
parmetros da rede neural artifcial relacionados com
o menor RMSE. Tipicamente, a comparao entre
mtricas FR e NR injusta, devido ausncia do
vdeo de referncia na obteno do escore de
qualidade em mtricas NR. Entretanto, os resultados
experimentais mostram que o mtodo proposto
apresentou desempenho superior s mtricas de
referncia completa PSNR e MS-SSIM, sobretudo,
quando o nmero de amostras de teste e de neurnios
na camada oculta da rede SLFN maior do que 250.
Logo, a mtrica NRVQA-ELMtc pode ser empregada
no monitoramento de qualidade em sistemas de
transmisso e recepo de vdeo digital, tais como
IPTV (Internet Protocol Television), TV digital ou em
dispositivos mveis, tais como ultrabooks,
smartphones, tablets e em aparelhos WiDi (Wireless
Display).
REFERNCIAS
[1] S. Winkler, Issues in vision modeling for perceptual
video quality assessment, Signal Processing, vol. 78,
no. 2, pp. 231252, 1999.
[2] Z. Wang and A. C. Bovik, Modern image quality
assessment. San Rafael, CA: Morgan & Claypool,
2006.
[3] W. Lin and C.-C. Jay Kuo, Perceptual visual quality
metrics: A survey, Journal of Visual Communication
and Image Representation, vol. 22, no. 4, pp. 297312,
May 2011.
[4] S. S. Hemami and A. R. Reibman, No-reference image
and video quality estimation: Applications and humanmotivated
design, Signal Processing: Image
Communication, vol. 25, no. 7, pp. 469481, 2010.
[5] Z. Wang and A. Bovik, Reduced- and No-Reference
Image Quality Assessment, IEEE Signal Processing
Magazine, vol. 28, no. 6, pp. 2940, Nov. 2011.
[6] R. V. Babu, S. Suresh, and A. Perkis, No-reference
JPEG-image quality assessment using GAP-RBF,
Signal Processing, vol. 87, no. 6, pp. 14931503, 2007.
[7] X. Jiang, F. Meng, J. Xu, and W. Zhou, No-Reference
Perceptual Video Quality Measurement for High
Defnition Videos Based on an Artifcial Neural
Network, in Computer and Electrical Engineering,
2008. ICCEE 2008. International Conference on, 2008,
pp. 424427.
[8] J. Choe, K. Lee, C. Lee, and S. Korea, No-reference
video quality measurement using neural networks, in
2009 16th International Conference on Digital Signal
Processing, 2009, pp. 14.
[9] S. Suresh, R. Venkatesh Babu, and H. J. Kim, Noreference
image quality assessment using modifed
extreme learning machine classifer, Applied Soft
Computing, vol. 9, no. 2, pp. 541552, Mar. 2009.
[10] A. M. Eskicioglu and P. S. Fisher, Image quality
measures and their performance, IEEE Transactions
on Communications, vol. 43, no. 12, pp. 29592965,
1995.
[11] U. Engelke and H.-J. Zepernick, Perceptual-based
Quality Metrics for Image and Video Services: A
Survey, in Proceedings EuroNGI Conf. Next
Generation Internet Networks, 2007, pp. 190197.
[12] Z. Wang, A. C. Bovik, H. R. Sheikh, and E. P
Simoncelli, Image quality assessment: from error
visibility to structural similarity., IEEE Transactions on
Image Processing, vol. 13, no. 4, pp. 600612, 2004.
[13] Z. Wang, E. P. Simoncelli, and A. C. Bovik, Multiscale
structural similarity for image quality assessment, in
The Thrity-Seventh Asilomar Conference on Signals,
Systems & Computers, 2003, 2003, vol. 2, no. 1, pp.
13981402.
[14] H. R. Wu, K. R. Rao, and A. A. Kassim, Digital Video
Image Quality and Perceptual Coding, Journal of
Electronic Imaging, vol. 16, no. 3, 2007.
[15] Z. Wang and A. C. Bovik, A universal image quality
index, IEEE Signal Processing Letters, vol. 9, no. 3,
pp. 8184, Mar. 2002.
[16] Y. Shi, Y. Ding, R. Zhang, and J. Li, Structure and Hue
Similarity for Color Image Quality Assessment, in 2009
International Conference on Electronic Computer
Technology, 2009, pp. 329333.
[17] W. B. Silva, A. A. P. Pohl, and K. V. O. Fonseca, A
Reduced-Reference Video Quality Assessment Method
based on the Activity-Diference of DCT Coefcients,
IEICE Transactions on Information and Systems, vol. E96-D, no. 3, 2013.
[18] P. Le Callet, C. Viard-Gaudin, and D. Barba, A Convolutional Neural Network Approach for Objective Video Quality Assessment, IEEE Transactions on Neural Networks, vol. 17, no. 5, pp. 13161327, 2006.
[19] P. Le Callet and D. Barba, Image Quality Assessment: From Sites Errors to a Global Appreciation of Quality, in Proceedings of the Picture Coding Sympsium, 2001, pp. 105108.
[20] M. Miyahara, K. Kotani, and V. R. Algazi, Objective picture quality scale (PQS) for image coding, IEEE Transactions on Communications, vol. 46, no. 9, pp. 12151226, 1998.
[21] M. Slanina, V. Ricny, and R. Forchheimer, A Novel Metric for H.264/AVC No-Reference Quality Assessment, in 14th International Workshop on Systems, Signals and Image Processing and 6th EURASIP Conference focused on Speech and Image Processing, Multimedia Communications and Services, 2007, pp. 114117.
[22] O. Sugimoto, S. Naito, S. Sakazawa, and A. Koike, Objective perceptual video quality measurement method based on hybrid no reference framework, in 16th IEEE International Conference on Image Processing (ICIP09), 2009, pp. 22372240.
[23] T. Oelbaum, C. Keimel, and K. Diepold, Rule-Based No-Reference Video Quality Evaluation Using Additionally Coded Videos, IEEE Journal of Selected Topics in Signal Processing, vol. 3, no. 2, pp. 294303, 2009.
[24] N. Staelens, N. Vercammen, Y. Dhondt, B. Vermeulen, P. Lambert, R. de Walle, and P. Demeester, ViQID: A No-Reference bit stream-based visual quality impairment detector, in Proceedings of the Second Int Quality of Multimedia Experience (QoMEX) Workshop, 2010, pp. 206211.
[25] F. Yang, S. Wan, Q. Xie, and H. R. Wu, No-Reference Quality Assessment for Networked Video via Primary Analysis of Bit Stream, IEEE Transactions on Circuits and Systems for Video Technology, vol. 20, no. 11, pp. 15441554, Nov. 2010.
[26] Z. Wang, H. R. Sheikh, and A. C. Bovik, Objective Video Quality Assessment, in The Handbook of Video Databases: Design and Applications, B. Furht and O. Marques, Eds. Boca Raton, FL, USA: CRC Press, 2003, pp. 10411078.
[27] W. B. da Silva and A. de A. P. Pohl, Mtodos Sem Referncia Baseados em Caractersticas Espao-Temporais para Avaliao Objetiva de Qualidade de Vdeo Digital, Universidade Tecnolgica Federal do Paran (UTFPR), 2013.
[28] G.-B. Huang, Q.-Y. Zhu, and C.-K. Siew, Extreme learning machine: Theory and applications, Neurocomputing, vol. 70, no. 13, pp. 489501, Dec. 2006.
[29] Z. Wang, H. R. Sheikh, and A. C. Bovik, No-reference perceptual quality assessment of JPEG compressed images, in Image Processing. 2002. Proceedings. IEEE International Conference on Image Processing, 2002, vol. 1, pp. vol.1 I477 I480.
[30] W. B. Silva and A. A. P. Pohl, No-Reference Video Quality Assessment Method based on the Levenberg-Marquardt Minimization, in XXX Brazilian Symposium on Telecommunications (SBrT12), 2012.
[31] ITU-T P.910, Subjective video quality assessment methods for multimedia applications, Standardization Sector of ITU, 1999.
[32] W. Ding, Y. Tong, Q. Zhang, and D. Yang, Image and Video Quality Assessment Using Neural Network and SVM, Tsinghua Science &amp; Technology, vol. 13, no. 1, pp. 112116, 2008.
[33] K. S. Banerjee, C. R. Rao, and S. K. Mitra, Generalized Inverse of Matrices and Its Applications, Technometrics, vol. 15, no. 1, p. 197, Feb. 1973.
[34] VQEG, Final report from the video quality experts group on the validation of reduced-reference and no-reference objective models for standard defnition television, Phase I, 2009.
[35] VQEG, Report on the validation of video quality models for high defnition video content, 2010.
[36] J. W. Tukey, Exploratory Data Analysis. New York: Addison-Wesley Publishing Company, 1977.
[37] P. Gastaldo and R. Zunino, Neural networks for the no-reference assessment of perceived quality, J. Electronic Imaging, vol. 14, no. 3, p. 033004, 2005.
[38] R. Herzog, M. adk, T. O. Aydn, K. I. Kim, K. Myszkowski, and H.-P. Seidel, NoRM: No-Reference Image Quality Metric for Realistic Image Synthesis, Comp. Graph. Forum, vol. 31, no. 2pt4, pp. 545554, 2012.
programao para poder falar. Alm disso, a rdio
essencialmente musical algo para o qual as
emissoras FM caminharam nos anos 1990 no
surpreende mais o ouvinte. Nas palavras de Marco
Antonio, o rdio tem o fator surpresa. Cadu Previero
completa, afirmando que
por mais que voc tenha um playlist... o locutor faz o
papel humano costurando essas msicas todas, falando
a hora, dando um bom dia e um tchau. Existe uma vida
no rdio e eu acho que essa vida o locutor.
Laerte Gouveia complementa:
As pessoas tm vrios motivos para no ouvir rdio,
mas o cara est ali, ouvindo aquela caixinha, o cara
gosta, e voc tem que fazer o rdio ser agradvel para
quem est curtindo aquilo, tem que criar formas pra
segurar o cara no rdio. Porque ele pode virar a chave e
ir pro MP3 muito rpido, e uma briga desleal, porque
ele monta o playlist dele, ele escolhe o que quer ouvir.
O fator escolha do ouvinte , possivelmente, o que
mais demanda preocupaes tanto entre os donos
das emissoras como entre os locutores. Como fica
evidente a partir dos trechos colhidos, o ouvinte que
est preocupado apenas como contedo musical pode
facilmente encontra-lo na internet. Mesmo em um pas
como o Brasil, cujo acesso universalizado internet
com qualidade de conexo est um tanto quanto
distante, a oferta desse tipo de contedo uma
realidade. Dessa forma, os meios digitais representam
uma parcela da concorrncia do rdio.
3. A RECONTEXTUALIZAO DIGITAL
O ouvinte que est deixando de ouvir o rdio
analgico est tambm deixando de consumir o meio,
ou est migrando para outras formas de acesso? A
resposta para essa pergunta no to facilmente
alcanada porque faltam mecanismos capazes de
medir a audincia de forma individual. Os dados mais
significativos que possumos so de uma enquete
realizada pelo GPR - Grupo dos Profissionais do
Rdio, de 2009, que aponta que 82% das pessoas
que responderam pesquisa ouvem rdio via internet
ou acessam as pginas das emissoras, e 42% ouvem
na internet principalmente rdios que tambm existem
no dial; desses, 83% procura ouvir o que est no ar, e
36% programao on demand. Apesar da pesquisa
no oferecer grande valor estatstico, serve para
balizar um pouco os possveis usos do rdio hoje.
Esses dados foram debatido pelos autores em
pesquisa concluda em 2011 [10]. Na ocasio, a
anlise indicou que as emissoras de rdio estavam se
preparando para ofertar contedo na internet, de
modo que alguns websites j ofereciam alguns
servios agregados, como promoes, acesso a
informao das equipes, notas jornalsticas, streaming
de msicas e playlists, etc. No entanto, a produo de
contedo para web dessas empresas em muito pouco
se diferenciava do que o internauta pode encontrar em
outros lugares.
[...] a diversificao de espaos de difuso de contedo
radiofnico depende dos usos dados pelos usurios, e
esses usos encontram correspondncia com aqueles
estabelecidos pelas empresas durante anos por
exemplo, a referncia que a programao regular
garante ao ouvinte-internauta. At aqui, essa perspectiva
satisfeita pelo papel que os websites das emissoras
analisadas assumiram. A falha pode ser apontada se
considerarmos que essa nova configurao deve ser,
para a empresa radiofnica, mais complexa do que
realmente se apresenta; em termos de contedo, a
semelhana e influncia a partir dos portais da web
obrigam as emissoras a uma reestruturao do contedo
ofertado e sua ampliao em diversos sentidos. Por
outro lado, o que observamos , no mximo, o
reaproveitamento do contedo ofertado na transmisso
analgica. [11]
Assim, ao invs de ser um portal de contedo
segmentado no pblico-alvo da emissora, os websites
parecem muito mais com pginas comerciais para
contato do ouvinte: fica a impresso de uma
obrigao de oferecer esse tipo de acesso. No
entanto, as emissoras de rdio no podem ignorar que
o ouvinte reconfigurado como usurio busca novos
servios agregados, tanto em nos websites como em
aparelhos portteis como telefones e tablets. Por
enquanto, a principal oferta neste ltimo meramente
um canal para ouvir a emissora e algum tipo de
interao, muitas vezes a partir do redirecionamento
para o perfil da emissora em redes sociais. No quer
dizer que o ouvinte esteja substituindo formas de
consumir rdio, e sim que ele est buscando novos
servios para serem agregados queles que j
existem.
Isso no elimina, no entanto, que o hbito de ouvir
rdio algo enraizado socialmente, estabelecido a
partir do uso atribudo historicamente ao veculo, como
afirma Mige [12]. Sandra Groth, locutora de longa
data, lembra que pela internet se acessa rdio do
mundo inteiro, mas o rdio muito local. O rdio
vivenciar o dia a dia da cidade. Da que o hbito de
ouvir rdio se expande at mesmo para as outras
formas de acessar contedo, seja o podcast ou a
webrdio. Duas observaes feitas por locutores
distintos apontam para essa constatao: em primeiro,
PH Dragani opina que o ouvinte gosta de ser
surpreendido; eu gosto de ser surpreendido e gosto de
surpreender, e talvez o hbito seja o de ouvir rdio e
no o de ouvir sempre as mesmas coisas no mesmo
horrio; em segundo, Milton Jung, um dos mais
influentes ncoras do jornalismo radiofnico
atualmente, analisa que a internet seria anteriormente
como um cardpio radiofnico, em que a pessoa ia
escolher o comentarista que ela ia ouvir, na hora que
ela quisesse, e da emissora que ela quisesse, porque
ela no ia ficar refm de um programador. Hoje,
diferente: estar em diferentes espaos significa, para a
emissora de rdio, oferecer mecanismos para o
ouvinte consumir a sua marca. Mais que a ideia do
cardpio. Ou seja: o rdio se torna uma marca central
para diferentes produtos ofertados em ambientes
miditicos.
Segundo Andrew Dubber,
[...] o rdio contemporneo digital praticamente da
mesma maneira que o rdio do sculo XX era
eletrnico. Ou seja, ele no apenas usou aquele
toque particular de tecnologia mas tambm seguiu
convenes e prticas inscritas no ambiente miditico
em que a referida prtica discursiva aconteceu. [13]
Nesse sentido, Dubber prope pensar o rdio como
uma prtica discursiva multifacetada qual se
acrescentam novas potencialidades. Ao
considerarmos a amplitude deste debate, fica patente
que as emissoras FM paulistana esto apenas
iniciando esse processo de reconfigurao, distantes
dessa configurao proposta.
No cenrio atual e real, so as redes sociais que
vm possibilitando algumas mudanas mais concretas
nos paradigmas de contato dos ouvintes com as
emissoras de rdio, at mesmo na oferta de contedo.
A anteriormente limitada participao por telefone
somou-se, primeiro, a trocas mais imediatas como
SMS e e-mail. Agora, a velocidade de troca via
Facebook, Twitter ou outra rede que se torne
relevante deve ser levada em conta. Por outro lado,
essa interferncia do ouvinte ganha mais fora quando
intermediada por algum com personalidade, como o
locutor. Nesse sentido, no apenas a emissora
como um todo que vai para as redes sociais, mas
tambm o apresentador que queira ser reconhecido
como referncia para o ouvinte.
3.2 O apresentador de rdio nas redes sociais
A presena do ouvinte interferindo na programao
passa a ser mediada pelo locutor. Se em um primeiro
momento essas ferramentas parecem distanciar os
ouvintes da emissora, criam-se novos laos entre eles
e os locutores. Milton Jung constata, por exemplo que
a interlocuo no com a emissora de rdio, com
a pessoa; com o apresentador... esse contato direto
se abriu com o e-mail muito mais do que com as
formas que tnhamos antes, que eram o telefone e a
carta. Cadu Previero afirma:
[O ouvinte] quer pedir uma msica, ele no vai ligar e
esperar o telefone. Legal, funciona o telefone tambm,
funciona o site... enfim. Mas to forte isso, que o
ouvinte criou um elo direto com o locutor. Ento o locutor
no aquela coisa mais distante, o locutor muito
prximo deles. Eles tm uma resposta em tempo real de
voc que est no estdio naquele momento.
O imediatismo da resposta aproveitado em
programas como, por exemplo, o conduzido por Laerte
Gouveia j h mais de quatro anos. O programa
Trans.com entra em contato com o ouvinte por meio
de SMS, Twitter, Facebook e telefone para segurar
horas de conversa ao vivo, praticamente sem
msicas, diariamente. essa foi uma forma de associar
a internet, a interatividade, com o rdio, e de buscar
um pblico que no est ligado em rdio..
Marco Antnio lembra que tudo mudou, que
paradigmas como o da localizao foram
quebrados, o que possibilita que a emissora tenha
alcance muito maior em termos de pblico,
impactando na programao que passa a ser
direcionada a uma comunidade dispersa de pessoas.
Mesmo locutores mais tradicionais, como Sandra
Groth, reconhecem a importncia das redes sociais na
ampliao desse contato locutor-ouvinte. Para ela, a
internet serve principalmente como convite para o
ouvinte ligar e interagir ao vivo, complementando
alguma informao disponvel na outra plataforma.
A ampliao dessa esfera de comunicao
transforma o locutor em um elemento mais presente
no cotidiano do ouvinte. D ao locutor a possibilidade
de feedback sobre seu trabalho, ao mesmo tempo em
que permite apontar seus prprios pontos de vista. As
redes sociais estendem a funo do profissional para
alm do programa de rdio, possibilitando que ele seja
conhecido e reconhecido fora do seu horrio na
emissora. PH anota que o locutor, hoje, tem uma
resposta mais consistente daquilo que est fazendo,
ao mesmo tempo em que consegue dar uma resposta
imediata ao ouvinte. Se considerarmos que o rdio
feito especialmente desse contato ntimo com quem
est ouvindo a programao, alguns locutores
acreditam que h uma revitalizao do rdio por conta
dessas ferramentas digitais, como afirma Cadu
Previero:
Eu acho que est mais vivo do que nunca porque as
redes sociais so prova disso. Eles esto interagindo 24
horas, pedindo msica 24 horas, comentando, tornando
a rdio cada vez mais viva e a gente que est no
estdio, no ar ali, um porta-voz disso tudo
Mais importante que o contato com o ouvinte, no
entanto, as redes sociais permitem que o locutor
conhea o seu pblico para direcionar melhor o seu
trabalho. Como afirma Roberto Hais,
se o cara quer construir um vnculo com o ouvinte, ele
precisa fazer parte das redes sociais, precisa usar as
redes sociais ao seu favor... O Facebook d tudo pra
voc: quem so os caras que curtem as pginas, qual o
perfil de idade, est tudo ali, s no v quem no quer, e
[os locutores] esto muito preguiosos hoje.
Em resumo, possvel afirmar que a boa utilizao
das redes sociais pelos locutores permite um trabalho
mais prximo da audincia. O momento, ento, sugere
um resgate da intimidade entre o apresentador e o
ouvinte, com a diferena que, agora, est baseada
tanto na voz como no seu perfil pblico na web. No
entanto, o que ocorre internamente s emissoras
muitas vezes o contrrio. Na opinio dos locutores
ouvidos nesta pesquisa, so dois os motivos
principais: a falta de preparo de uma nova gerao de
apresentadores e a cegueira de diretores artsticos,
que decidem no apostar em mudanas em nome de
uma economia tola. O que se verifica historicamente
uma perda de autonomia dos locutores, criada tanto
58 Revista de Radiodifuso v. 07 n. 08 2013
Pesquisas em ambientes digitais - TV Internet Radio Cinema
Pesquisas em ambientes digitais - TV Internet Radio Cinema
Revista de Radiodifuso v. 07 n. 08 2013 59
MTRICA SEM REFERNCIA BASEADA EM REDES NEURAIS
PARA AVALIAO OBJETIVA DE QUALIDADE DE VDEO DIGITAL
Wyllian Bezerra da Silva, Alexandre de Almeida Prado Pohl
Programa de Ps-Graduao em Engenharia Eltrica e Informtica Industrial (CPGEI) UTFPR, Curitiba, Brasil
wyllianbs@gmail.com, pohl@utfpr.edu.br
Resumo: Este trabalho apresenta uma mtrica sem referncia para avaliao de qualidade de vdeo digital baseada em uma rede neural artifcial que usa uma verso estendida do algoritmo de aprendizado ELM (Extreme Learning Machine). O mtodo proposto realiza o treinamento da rede neural a partir de seis caractersticas espao-temporais. Os resultados experimentais mostram que o mtodo proposto apresenta desempenho superior s mtricas de referncia completa PSNR e MS-SSIM na tarefa de predio de qualidade de vdeo. Logo, o mtodo proposto pode ser usado no monitoramento de qualidade em sistemas de transmisso e recepo de vdeo digital, tais como IPTV e TV digital.
Palavras chave: algoritmo ELM, avaliao objetiva de vdeo, mtrica sem referncia, rede neural artifcial.
1. INTRODUO
Durante os ltimos anos, a literatura tem apresentado um nmero crescente publicaes acerca de mtricas objetivas para avaliao de qualidade de vdeo para diversas aplicaes em radiodifuso ou no processamento de vdeo digital, seja na aquisio do sinal, codifcao e decodifcao, compresso, transmisso, restaurao, armazenamento, segmentao e exibio de sinais de vdeo digital [14]. A avaliao de qualidade de vdeo digital pode ser realizada por meio de mtricas subjetiva e objetiva. A primeira requer uma grande quantidade de recursos humanos e apresenta elevado custo em sua implementao [13]. Porm, as mtricas objetivas so vantajosas quando apresentam um determinado grau de correlao com as mtricas subjetivas. Logo, o desenvolvimento destas um desafo no campo de avaliao de qualidade de vdeo e imagem. Alm disso, as mtricas objetivas, devido natureza de seu critrio objetivo, independem de interao humana e so facilmente reprodutveis [3]. Dentre as mtricas objetivas destacam-se as mtricas sem referncia (No-Reference NR), pois no necessitam do vdeo de referncia no clculo de sua medida. Entretanto, estas requerem um conhecimento a priori sobre as distores em vdeo digital para que seja estabelecida uma correlao com os resultados subjetivos [3].
A maioria das mtricas NR encontradas na literatura so baseadas na avaliao de qualidade de imagens e em caractersticas relacionadas ao Sistema Visual Humano (SVH). Assim, o desenvolvimento de mtricas NR difcil, devido necessidade de emular a percepo do SVH que envolve aspectos cognitivos, emocionais e estticos relacionados ao contedo do vdeo e que so altamente dependentes do observador [4], [5].
A literatura reporta diversos esforos no desenvolvimento de mtricas para avaliao de qualidade de vdeo baseadas em redes neurais e em algoritmos de aprendizado. Babu et al. [6] apresentam uma mtrica para avaliar a qualidade de imagens comprimidas em JPEG (Joint Photographic Experts Group) por meio de um algoritmo de aprendizado de crescimento e propem o uso de uma rede neural GAP-RBF (Growing and Pruning Radial Basis Function) que usa caractersticas relacionadas ao SVH. Jiang et al. [7] desenvolveram uma mtrica NR para avaliao de qualidade de vdeo em HD (High Defnition) baseada em uma rede neural treinada pelo algoritmo BP (Back-Propagation) que usa seis caractersticas espao-temporais e a RoI (Region of Interest). Choe et al. [8] desenvolveram uma mtrica NR baseada no fuxo de bits para avaliao de qualidade de vdeo codifcado em H.264. Esta mtrica extrai caractersticas quadro a quadro e usa uma rede neural alimentada adiante (feedforward) com trs camadas. Suresh et al. [9] apresentaram uma extenso do algoritmo ELM na tarefa de avaliar a qualidade de imagens comprimidas em JPEG com base no esquema de seleo mltipla KS-ELM (K-fold selection Scheme using ELM) e no algoritmo RCGA-ELM (Real-Coded Genetic Algorithm using ELM) para seleo dos pesos de entrada e polarizaes.
Este trabalho apresenta uma verso estendida do algoritmo ELM para redes neurais SLFN (Single-hidden-Layer Feedforward Neural Networks) que implementa um simples critrio de parada na fase de treinamento. Alm disso, esse mtodo usa seis caractersticas espao-temporais de vdeos submetidos a diversas condies de distoro.
Este artigo est dividido da seguinte maneira: a Seo 2 descreve as mtricas para avaliao de qualidade de vdeo. A Seo 3 descreve o mtodo NR proposto para avalio de qualidade de vdeo digital. A Seo 4 apresenta os resultados experimentais, em que so comparados o mtodo NR proposto e duas mtricas FR. Finalmente, a Seo 5 apresenta a concluso do artigo.
2. AVALIAO DE QUALIDADE DE VDEO
O processo de avaliao de qualidade de vdeo
pode ser realizado com a aplicao de mtricas
subjetivas ou objetivas. As mtricas subjetivas
estimam a qualidade do vdeo por meio de avaliadores
humanos. Logo, exigem um alto custo, pois
necessitam de uma grande quantidade de recursos
humanos e apresentam problemas quanto aos
requisitos de imparcialidade e reprodutibilidade,
tornando-se inapropriadas em sistemas de
radiodifuso ou em provedores de contedo [10], [11].
Por outro lado, as mtricas objetivas so baseadas em
modelos matemticos, cujo objetivo produzir um
escore de qualidade que emule a percepo do SVH.
Alm disso, as mtricas objetivas requerem baixo
custo de implementao (quando comparadas com as
mtricas subjetivas) e no apresentam problemas
quanto reprodutibilidade e imparcialidade.
As mtricas objetivas para avaliao de qualidade
de vdeo podem ser classifcadas em trs categorias:
(i) mtricas de referncia completa (Full-Reference
FR); (ii) mtricas de referncia reduzida (Reduced-
Reference RR); (iii) mtricas sem referncia (NR).
2.1. Mtricas FR
As mtricas FR requerem o vdeo de referncia
(fonte) no clculo do escore de qualidade. Estas
mtricas so amplamente utilizadas no processo de
validao de mtricas RR ou NR, por meio da
comparao de desempenho defnida pelas
recomendaes do Grupo de Especialistas em
Qualidade de Vdeo (VQEG Video Quality Experts
Group) que um rgo de padronizao internacional
de mtricas subjetivas e objetivas de qualidade de
vdeo. Dentre as mtricas FR, destacam-se o PSNR
(Peak Signal-to-Noise Ratio), SSIM (Structural
SIMilarity index) [12] e MS-SSIM (Multi-Scale
Structural SIMilarity index) [13].
O PSNR uma mtrica FR baseada no erro pixel a
pixel de fcil implementao. Entretanto, apresenta
baixa correlao com o SVH [14]. A sua medida
processada sobre o erro quadro a quadro, i.e., entre o
quadro original x e o quadro y . A expresso a seguir
defne o PSNR para um conjunto de quadros F .
20
1
1
PSNR 20log ,
F
f
f f
v
F MSE



(1)
com

2
0 0
1
MSE , , , , ,
N M
f
i j
x f i j y f i j
NM

(2)
em que o termo f v igual a (2 1) k , cujo k o
nmero de bits por pixel, i.e., a componente de
luminncia do quadro f . Os termos x f ,i, j e
y f ,i, j so os valores de luminncia do quadro de
origem e degradado, respectivamente. As
componentes bidimensionais so representadas pelo
nmero de colunas N e pelo nmero de linhas M . O
termo f MSE defnido como erro quadrtico mdio
ou MSE (Mean Square Error).
A mtrica SSIM baseia-se no fato de que o SVH
fortemente adaptado para extrair informaes das
caractersticas estruturais de um quadro ou imagem.
Logo, uma medida de similaridade estrutural (ou
distoro) pode prover boa aproximao para a
qualidade perceptual de um vdeo [3, 79]. Sejam x e
y dois sinais no-negativos, em que y o sinal
degradado e x o sinal original (sem perda de
qualidade), a medida de similaridade utilizada como
um ndice quantitativo de qualidade do sinal distorcido,
ou seja, x tomado como a referncia para medir a
qualidade de y . A mtrica SSIM possui diversas
extenses, dentre as quais a verso MS-SSIM,
proposta por Wang et al. [13] que assume uma
abordagem multiescalar.
2.2. Mtricas RR
As mtricas de referncia reduzida retiram certa
quantidade de caractersticas do vdeo original (fonte),
baseadas em componentes espaciais, temporais, no
domnio da frequncia ou no fuxo de bits (bitstream).
Este tipo de mtrica amplamente utilizada no
monitoramento de transmisses em rede [17]. Neste
tipo de cenrio de aplicao, o vdeo transmitido
com uma sequncia de informao codifcada
(overhead) e no lado receptor ocorre a sua
decodifcao, seguido pelo clculo do ndice de
qualidade, o qual obtido por meio da comparao
entre a representao reduzida da informao nos
pares emissor e receptor [18]. Tipicamente, mtricas
RR so implementadas por meio de funes, divididas
em duas etapas [19]: (i) clculo do erro entre os
vdeos original e distorcido, constitudo pela diferena
de suas caractersticas, a fm de compor a
representao reduzida da informao; (ii) funo que
agrupa os erros ou diferenas para obter um ndice de
qualidade global. Algumas mtricas RR exploram
propriedades dos artefatos, por meio da extrao de
caractersticas e um modelo de parametrizao [20]
com foco em tipos especfcos de distores
(artefatos). Esta abordagem encontrada em Silva et
al. [17], cujo clculo do escore de qualidade
baseado na diferena de atividade dos coefcientes
DCT (Discrete Cosine Transform) em um macro bloco
com resoluo de 1616 pixels.
2.3. Mtricas NR
As mtricas NR extraem caractersticas
relacionadas ao SVH do vdeo distorcido, i.e., na
recepo do sinal de vdeo [14]. Tipicamente, h duas
abordagens no desenvolvimento destas mtricas: (i)
extrao dos parmetros sobre o fuxo de bits, tais
como a taxa de compresso, informaes
relacionadas ao GoP (Group of Pictures), estimao
de movimento, perfl e nvel de codifcao, bem como
o parmetro de quantizao ou QP (Quantization
Parameter) [2125]. Mtricas NR apresentam maior
complexidade quando so aplicadas em vdeo, devido
variao temporal dos quadros, contedos das
cenas e difculdade de compreenso das
caractersticas do SVH [26]. Assim, algumas mtricas
dessa categoria exploram caractersticas espaciais e
temporais na estimao de qualidade de vdeo [21].
3. MTODO PROPOSTO
O mtodo proposto, denominado NRVQA-ELMtc
(No-Reference Video Quality Assessment using
Extreme Learning Machine algorithm with termination
criteria) [27] combina caractersticas espaciais e
temporais, por meio de uma rede neural artifcial
SLFNs usando o algoritmo de treinamento ELM [28]
com a implementao de um simples critrio de
parada.
3.1. Caractersticas espao-temporais
As caractersticas espaciais incorporadas no
mtodo proposto so baseadas em medidas de
artefatos em vdeo digital, i.e., distores de blocagem
e borramento desenvolvidas por Wang et al. [20].
Assim, a componente de luminncia do quadro f
representada por y(f , i, j ) com i 1,M e j 1, N ,
em que M e N so os nmeros de linhas e colunas,
respectivamente, de um quadro. Logo, as diferenas
de luminncia ao longo das linhas e colunas so
representadas, respectivamente, pelas expresses a
seguir.


, , , , 1 , , , 1, 1 ,
, , , 1, , , , 1, 1 .
h
v
d f i j y f i j y f i j j N
d f i j y f i j y f i j i M


(3)
O efeito de blocagem pode ser estimado pela
mdia das diferenas entre as bordas dos blocos da
DCT (Discrete Cosine Transform) nas direes
horizontal e vertical para uma sequncia F de
quadros, conforme mostra a Equao (4), com um
macrobloco de dimenso , cujo tamanho tpico
de 8 [20].


1
1
1 1 1
1
1
1 1 1
1
, , 1 ,
1
1
1
, 1 , .
1
1
N
F M
h h
f i j
M
F N
v
i j
v
f
B d f i j
N
F M
B d f i j
M
F N












(4)
A medida de blocagem em uma sequncia de
vdeo com F quadros determinada pela mdia entre
h B e v B , caracterizando a medida B , conforme a
expresso a seguir.
.
2
h v B B
B

(5)
Os efeitos de borramento so estimados pelo
clculo da reduo de atividade entre os blocos ,
em que usada a medida de blocagem nas direes
horizontal e vertical, conforme as expresses




1
1 1 1
1
1 1 1
, , ,
1 1
, ,
1
.
1
F M N
h h h
f i j
F M N
v v
f
v
i j
A d f i j B
F M N
A d f i j B
F N M








(6)
A medida de borramento, representada por A ,
conforme a Equao (7), determinada pela mdia
entre h A e v A .
.
2
h v A A
A

(7)
O segundo fator que contribui para a deteco do
artefato de borramento baseado na taxa de
cruzamento por zero (Zero Crossing ZC) nas
direes horizontal e vertical, conforme as expresses
a seguir.




2
1 1 1
2
1 1 1
1
, , ,
2
1
, , ,
2
F M N
h h
f i j
F M N
v v
f i j
Z z f i j
F M N
Z z f i j
F N M




(8)
em que os termos h z e v z so determinados por


1, na direo horizontal
, , ,
0, caso contrrio
1, na direo vertical
, , .
0, caso contrrio
h
v
z f i j
z f i j



(9)
Assim, a medida de borramento Z determinada
pela mdia entre as componentes h Z e v Z .
.
2
h v Z Z
Z

(10)
O mtodo proposto tambm incorpora trs
caractersticas temporais no treinamento da rede
neural SLFN com o algoritmo ELM.
A primeira caracterstica temporal a diferena de
movimento entre quadros adjacentes, representada
pela varivel TI (Temporal perceptual Information) [31]
que considera os valores de luminncia de pixels
localizados em uma mesma regio de um quadro,
conforme a expresso a seguir.

2
1
, , ,
1
F
f
TI m f i j
F


(11)
em que o nmero total de quadros F e mf ,i, j

o desvio padro da diferena de movimento
(diferena de luminncia) entre o quadro atual
y f ,i, j e o quadro anterior y f 1,i, j .
A segunda caracterstica temporal a mdia da
diferena absoluta (Mean Absolute Diference MAD)
[31] entre quadros sucessivos, representada pela
Equao (12) que defne a medida global da MAD
para todos os quadros de um vdeo.


2 1 1
1
, , 1, , .
1
F M N
f i j
MAD y f i j y f i j
M N F



(12)
A terceira caracterstica temporal a mdia da
diferena absoluta ponderada (weighted Mean
Absolute Diference MADw) [32], a qual mede o grau
de variao das cenas de um vdeo que considera a
cena atual de um quadro f e do quadro anterior f 1,
conforme a expresso:
2 1
1
.
1
F
f
f f
MAD
MADw
F MAD


(13)
Assim, o mtodo proposto combina as
caractersticas espaciais e temporais em uma matriz
, , , , , f f f f f f f x A B Z TI MAD MADw , em que f o
nmero de amostras de vdeo. A Figura 1 apresenta
as caractersticas temporais espaciais de dezessete
bases de dados de vdeos (denominada superconjunto
S) usadas neste trabalho e reportadas em [27]. A
recomendao ITU-T P.910 [31] defne a medida SI
(Spatial perceptual Information) como informao
espacial perceptual. A inspeo visual dessa fgura
mostra que as amostras de vdeo usadas neste
trabalho apresentam uma grande variao espaotemporal.
Fig. 1. Caractersticas espaciais e temporais do superconjunto
S com 216 amostras de referncia
3.2. Mtrica NRVQA-ELMtc
O algoritmo ELM [28] desenvolvido para o
treinamento de uma rede SLFN atribui pesos e
polarizaes (biases) de maneira aleatria, segundo
uma distribuio uniforme. O treinamento compreende
N amostras distintas representadas pela varivel
, , , 1, , n m
f f f f x t x t f N , cujo clculo
conforme a expresso

1
, 1, , ,
K
K i j j f j f
f
f g b f N

x w x o (14)
em que f o a sada (escore objetivo), g(x) a
funo de ativao e j o peso que conecta o jsimo
neurnio da camada oculta ao neurnio de
sada. De acordo com [28], uma rede SLFN com K
ns na camada oculta e uma funo de ativao g(x)
pode apresentar um erro mdio prximo de zero, i.e.,
1
0
K
f f
f
o t . Logo, h parmetros j , j w e j b tal
que

1
, 1, , ,
K
j j f j f
f
g b f N

w x t (15)
em que f t o vetor alvo (escores subjetivos),
T
1, , j j jn w w w o vetor de peso que conecta o jsimo
neurnio da camada oculta ao neurnio da
camada de entrada, j b denota a polarizao (bias) do
j-simo neurnio da camada oculta, j f w x o
produto interno de j w e f x . A Figura 2 ilustra o
algoritmo ELM empregado em uma arquitetura de
rede neural SLFN.
xi
1
j
N
1
j
K
ti
bj
N input neuron K hidden neuron output neuron
1
K
wj
Fig. 2. Arquitetura de uma rede neural SLFN usando algoritmo
de treinamento ELM
O sistema linear da Equao (16) resume o mtodo
do algoritmo ELM.
H T, (16)
em que a matriz da camada oculta representada por
1, , and 1, , f H h f N j K com a primeira
linha da matriz de caractersticas f x igual a
T
1 2 , , , f f f fn x x x x , i.e., a primeira linha igual a
1 1 1 1 1 1 1 , , , , , f f f f f f f x A B Z TI MAD MADw . A matriz de
sada e o vetor alvo (target) so defnidos como
T
1 , K e
T
1, , N T t t , respectivamente. O
termo
T
1 , 1, , j jm j j K denota o vetor de
peso que conecta o j-simo neurnio da camada
oculta e os neurnios de sada. Hung et al. [28]
propuseram a atribuio aleatria de pesos aos
parmetros j w e j b , a fm de seja obtido um pequeno
erro no-nulo durante o treinamento. Considerando o
sistema linear da Equao (17), os pesos da camada
de sada podem ser aproximados por
H T (17)
em que H defnida como matriz inversa
generalizada de Moore-Penrose (MP) [33] da matriz
de sada da camada oculta H . Alm disso, o
conjunto de treinamento , n oculta K e uma
funo de ativao g x , e.g., funo de base radial
(Radial Basis Function RBF), hard-limiting (hardlim),
sigmoidal (sig) e seno (sin). Em resumo, o algoritmo
ELM compreende trs etapas [28]:
i) Atribuio aleatria dos pesos de entrada j w e
polarizaes j b ;
ii) Clculo da matriz da camada de sada H ;
iii) Clculo dos pesos de sada : H T .
O mtodo NRVQA-ELMtc [27] implementa um
simples critrio de parada no treinamento da rede
neural SLFN, quanto atribuio aleatria dos pesos
j w e j b . Embora este critrio no seja direcionado,
busca os pesos relacionados com o menor RMSE
(Root-Mean-Square Error) entre a sada desejada
(escore subjetivo) e o escore objetivo na fase de
treinamento com k iteraes (tipicamente, k 100 ) e
N neurnios na camada oculta. Alm disso, conforme
estudo realizado em [27], caso o RMSE seja menor do
que 0,5 o algoritmo cessa a busca pelos parmetros
j w e j b .
4. RESULTADOS EXPERIMENTAIS
Esta seo apresenta os resultados de acurcia,
i.e., os coefcientes de correlao linear de Pearson
(Pearson Linear Correlation Coefcient PLCC) [34],
[35], entre os escores objetivos e subjetivos de 2627
amostras de vdeo estudadas em [27].
A Figura 3 compara a acurcia (PLCC) entre as
mtricas de referncia completa (FR) PSNR e MSSSIM
com o mtodo proposto (NRVQA-ELMtc) para
as 2627 amostras de vdeo, pertencentes a 17 bases
de dados de vdeo disponibilizadas por diversas
instituies e laboratrios [27]. A funo de ativao
usada na rede neural SLFN foi o seno (sin) com o
nmero de amostras de teste igual ao nmero de
neurnios na camada oculta ( N ). O mtodo de
validao cruzada mltipla (K-fold) foi usado com o
objetivo de gerar uma distribuio de acurcia, a qual
foi analisada por meio do diagrama de caixa (box-plot)
[36], em que o trao, o crculo e o quadrado, ambos
em vermelho, representam a mediana, a mdia e o
desvio padro, respectivamente. Destaca-se que
neste trabalho foi empregada uma validao cruzada
com um grande nmero de amostras de treinamentoteste
com K 100 , i.e., cada caixa do box-plot
comporta 100 experimentos distintos. Tipicamente, a
literatura apresenta trabalhos no campo da avaliao
Fig. 3. Box-plot da predio da acurcia (PLCC) entre as mtricas PSNR, MS-SSIM e o mtodo proposto NRVQA-ELMtc
de qualidade de vdeo com K entre 5 e 10 [37], [38].
Pela inspeo visual da Figura 3 observa-se que o
desempenho do mtodo proposto superior s
mtricas FR, em quaisquer condies de teste, i.e.,
para qualquer quantidade de amostras de teste
(nmero de neurnios na camada oculta) entre 25 e
500. Em especial, para N 50 , o mtodo proposto
apresenta valores de PLCC, em termos da mdia e
mediana, acima de 0,8, denotando uma forte
associao entre os escores objetivos e subjetivos, na
tarefa de predio de qualidade de vdeo. Isto ocorre
devido grande quantidade de amostras de vdeo
usadas no treinamento, e.g., para N 300 foram
usadas 2327 amostras de treinamento, ou seja,
mesmo usando pares de treinamento-teste disjuntos,
o mtodo proposto mostra uma acurcia superior s
mtricas de referncia completa. A assimetria positiva,
i.e., a maior concentrao da acurcia entre o
segundo quartil (mediana) e o terceiro quartil, na
distribuio do box-plot nos testes com 300 e 500
neurnios na camada oculta, indica que o mtodo
proposto apresenta um desempenho expressivo em
comparao com as mtricas FR.
Entretanto, mesmo para N entre 25 e 50, o
mtodo proposto apresentou uma acurcia maior do
que as mtricas FR, cujo melhor resultado foi para
N 25 com o desvio-quartil (amplitude interquartlica)
confnado entre 0,65 e 0,8. Alm disso, este resultado
tambm apresentou assimetria positiva com a mdia
do PLCC em torno de 0,75.
5. CONCLUSO
Este trabalho apresentou uma mtrica NR baseada
em uma rede neural artifcial SLFN, cujo treinamento
determinado pelo algoritmo ELM, o qual considera
caractersticas espao-temporais e os escores
subjetivos (alvos) extrados de 2627 amostras
treinamento. Alm disso, este trabalho prope uma
extenso do algoritmo ELM por meio de um simples
critrio de parada, a fm de que sejam obtidos
parmetros da rede neural artifcial relacionados com
o menor RMSE. Tipicamente, a comparao entre
mtricas FR e NR injusta, devido ausncia do
vdeo de referncia na obteno do escore de
qualidade em mtricas NR. Entretanto, os resultados
experimentais mostram que o mtodo proposto
apresentou desempenho superior s mtricas de
referncia completa PSNR e MS-SSIM, sobretudo,
quando o nmero de amostras de teste e de neurnios
na camada oculta da rede SLFN maior do que 250.
Logo, a mtrica NRVQA-ELMtc pode ser empregada
no monitoramento de qualidade em sistemas de
transmisso e recepo de vdeo digital, tais como
IPTV (Internet Protocol Television), TV digital ou em
dispositivos mveis, tais como ultrabooks,
smartphones, tablets e em aparelhos WiDi (Wireless
Display).
REFERNCIAS
[1] S. Winkler, Issues in vision modeling for perceptual
video quality assessment, Signal Processing, vol. 78,
no. 2, pp. 231252, 1999.
[2] Z. Wang and A. C. Bovik, Modern image quality
assessment. San Rafael, CA: Morgan & Claypool,
2006.
[3] W. Lin and C.-C. Jay Kuo, Perceptual visual quality
metrics: A survey, Journal of Visual Communication
and Image Representation, vol. 22, no. 4, pp. 297312,
May 2011.
[4] S. S. Hemami and A. R. Reibman, No-reference image
and video quality estimation: Applications and humanmotivated
design, Signal Processing: Image
Communication, vol. 25, no. 7, pp. 469481, 2010.
[5] Z. Wang and A. Bovik, Reduced- and No-Reference
Image Quality Assessment, IEEE Signal Processing
Magazine, vol. 28, no. 6, pp. 2940, Nov. 2011.
[6] R. V. Babu, S. Suresh, and A. Perkis, No-reference
JPEG-image quality assessment using GAP-RBF,
Signal Processing, vol. 87, no. 6, pp. 14931503, 2007.
[7] X. Jiang, F. Meng, J. Xu, and W. Zhou, No-Reference
Perceptual Video Quality Measurement for High
Defnition Videos Based on an Artifcial Neural
Network, in Computer and Electrical Engineering,
2008. ICCEE 2008. International Conference on, 2008,
pp. 424427.
[8] J. Choe, K. Lee, C. Lee, and S. Korea, No-reference
video quality measurement using neural networks, in
2009 16th International Conference on Digital Signal
Processing, 2009, pp. 14.
[9] S. Suresh, R. Venkatesh Babu, and H. J. Kim, Noreference
image quality assessment using modifed
extreme learning machine classifer, Applied Soft
Computing, vol. 9, no. 2, pp. 541552, Mar. 2009.
[10] A. M. Eskicioglu and P. S. Fisher, Image quality
measures and their performance, IEEE Transactions
on Communications, vol. 43, no. 12, pp. 29592965,
1995.
[11] U. Engelke and H.-J. Zepernick, Perceptual-based
Quality Metrics for Image and Video Services: A
Survey, in Proceedings EuroNGI Conf. Next
Generation Internet Networks, 2007, pp. 190197.
[12] Z. Wang, A. C. Bovik, H. R. Sheikh, and E. P
Simoncelli, Image quality assessment: from error
visibility to structural similarity., IEEE Transactions on
Image Processing, vol. 13, no. 4, pp. 600612, 2004.
[13] Z. Wang, E. P. Simoncelli, and A. C. Bovik, Multiscale
structural similarity for image quality assessment, in
The Thrity-Seventh Asilomar Conference on Signals,
Systems & Computers, 2003, 2003, vol. 2, no. 1, pp.
13981402.
[14] H. R. Wu, K. R. Rao, and A. A. Kassim, Digital Video
Image Quality and Perceptual Coding, Journal of
Electronic Imaging, vol. 16, no. 3, 2007.
[15] Z. Wang and A. C. Bovik, A universal image quality
index, IEEE Signal Processing Letters, vol. 9, no. 3,
pp. 8184, Mar. 2002.
[16] Y. Shi, Y. Ding, R. Zhang, and J. Li, Structure and Hue
Similarity for Color Image Quality Assessment, in 2009
International Conference on Electronic Computer
Technology, 2009, pp. 329333.
[17] W. B. Silva, A. A. P. Pohl, and K. V. O. Fonseca, A
Reduced-Reference Video Quality Assessment Method
based on the Activity-Diference of DCT Coefcients,
IEICE Transactions on Information and Systems, vol. E96-D, no. 3, 2013.
[18] P. Le Callet, C. Viard-Gaudin, and D. Barba, A Convolutional Neural Network Approach for Objective Video Quality Assessment, IEEE Transactions on Neural Networks, vol. 17, no. 5, pp. 13161327, 2006.
[19] P. Le Callet and D. Barba, Image Quality Assessment: From Sites Errors to a Global Appreciation of Quality, in Proceedings of the Picture Coding Sympsium, 2001, pp. 105108.
[20] M. Miyahara, K. Kotani, and V. R. Algazi, Objective picture quality scale (PQS) for image coding, IEEE Transactions on Communications, vol. 46, no. 9, pp. 12151226, 1998.
[21] M. Slanina, V. Ricny, and R. Forchheimer, A Novel Metric for H.264/AVC No-Reference Quality Assessment, in 14th International Workshop on Systems, Signals and Image Processing and 6th EURASIP Conference focused on Speech and Image Processing, Multimedia Communications and Services, 2007, pp. 114117.
[22] O. Sugimoto, S. Naito, S. Sakazawa, and A. Koike, Objective perceptual video quality measurement method based on hybrid no reference framework, in 16th IEEE International Conference on Image Processing (ICIP09), 2009, pp. 22372240.
[23] T. Oelbaum, C. Keimel, and K. Diepold, Rule-Based No-Reference Video Quality Evaluation Using Additionally Coded Videos, IEEE Journal of Selected Topics in Signal Processing, vol. 3, no. 2, pp. 294303, 2009.
[24] N. Staelens, N. Vercammen, Y. Dhondt, B. Vermeulen, P. Lambert, R. de Walle, and P. Demeester, ViQID: A No-Reference bit stream-based visual quality impairment detector, in Proceedings of the Second Int Quality of Multimedia Experience (QoMEX) Workshop, 2010, pp. 206211.
[25] F. Yang, S. Wan, Q. Xie, and H. R. Wu, No-Reference Quality Assessment for Networked Video via Primary Analysis of Bit Stream, IEEE Transactions on Circuits and Systems for Video Technology, vol. 20, no. 11, pp. 15441554, Nov. 2010.
[26] Z. Wang, H. R. Sheikh, and A. C. Bovik, Objective Video Quality Assessment, in The Handbook of Video Databases: Design and Applications, B. Furht and O. Marques, Eds. Boca Raton, FL, USA: CRC Press, 2003, pp. 10411078.
[27] W. B. da Silva and A. de A. P. Pohl, Mtodos Sem Referncia Baseados em Caractersticas Espao-Temporais para Avaliao Objetiva de Qualidade de Vdeo Digital, Universidade Tecnolgica Federal do Paran (UTFPR), 2013.
[28] G.-B. Huang, Q.-Y. Zhu, and C.-K. Siew, Extreme learning machine: Theory and applications, Neurocomputing, vol. 70, no. 13, pp. 489501, Dec. 2006.
[29] Z. Wang, H. R. Sheikh, and A. C. Bovik, No-reference perceptual quality assessment of JPEG compressed images, in Image Processing. 2002. Proceedings. IEEE International Conference on Image Processing, 2002, vol. 1, pp. vol.1 I477 I480.
[30] W. B. Silva and A. A. P. Pohl, No-Reference Video Quality Assessment Method based on the Levenberg-Marquardt Minimization, in XXX Brazilian Symposium on Telecommunications (SBrT12), 2012.
[31] ITU-T P.910, Subjective video quality assessment methods for multimedia applications, Standardization Sector of ITU, 1999.
[32] W. Ding, Y. Tong, Q. Zhang, and D. Yang, Image and Video Quality Assessment Using Neural Network and SVM, Tsinghua Science &amp; Technology, vol. 13, no. 1, pp. 112116, 2008.
[33] K. S. Banerjee, C. R. Rao, and S. K. Mitra, Generalized Inverse of Matrices and Its Applications, Technometrics, vol. 15, no. 1, p. 197, Feb. 1973.
[34] VQEG, Final report from the video quality experts group on the validation of reduced-reference and no-reference objective models for standard defnition television, Phase I, 2009.
[35] VQEG, Report on the validation of video quality models for high defnition video content, 2010.
[36] J. W. Tukey, Exploratory Data Analysis. New York: Addison-Wesley Publishing Company, 1977.
[37] P. Gastaldo and R. Zunino, Neural networks for the no-reference assessment of perceived quality, J. Electronic Imaging, vol. 14, no. 3, p. 033004, 2005.
[38] R. Herzog, M. adk, T. O. Aydn, K. I. Kim, K. Myszkowski, and H.-P. Seidel, NoRM: No-Reference Image Quality Metric for Realistic Image Synthesis, Comp. Graph. Forum, vol. 31, no. 2pt4, pp. 545554, 2012.
pelo perfil mais musical das emissoras, com a reduo
de investimentos em formatos radiofnicos mais
complexos, como pela transferncia das negociaes
com o mercado fonogrfico para a diretoria das rdios.
Este, alis, um tema que ainda precisa ser debatido
em profundidade e que foge levemente do escopo
deste artigo; o que se pode adiantar a perda do
poder de influenciar a deciso do consumo musical, o
que outrora chegou a representar uma parte da renda
do locutor. Hoje, o playlist praticamente todo da
emissora, e o locutor apenas reproduz as msicas
programadas pela direo artstica, sem qualquer
poder de deciso.
CONSIDERAES FINAIS
As emissoras de rdio precisam ativar ferramentas
que facilitem o contato com o ouvinte, e que ofeream
material exclusivo a partir de outras plataformas,
aproveitando ao mximo seus recursos. Trata-se,
como afirmamos, da reconfigurao pelos meios
digitais, em que o rdio se torna uma instituio, uma
marca, um centro de referncia de contedo. Sua
presena em uma era digital implica,
necessariamente, repensar seu posicionamento em
uma fase caracterizada pela multiplicidade de oferta,
como apontado por Brittos e por Ferraretto [14].
Mariano Cebri Herreros, ao analisar as novas
potencialidades oferecidas pelo ciberrdio (forma
como o autor chama a rdio na web), prope
caminhos e resultados dessa configurao:
No desenho da web aparecem integrados a emisso
sonora, o conjunto de informaes paralelas e as
diversas modalidades de acesso, interatividade,
hipermidialidade e navegao... J no s uma
emissora, e sim algo mais, uma web que tende a ser
convertida em multimdia. [15]
Para o autor, isso significa tambm a possibilidade
de perda do controle total da programao por parte
da emissora, colocando em evidncia o papel de
outros atores, como o ouvinte:
A ciberradio supe uma mudana radical nos interesses
das emissoras. Estas perdem o papel hegemnico de
controle sobre o processo, e talvez este seja o motivo
pelo qual a ciberradio propriamente dita esteja sendo
implantada de forma to lenta. [16]
Todavia, em virtude das caractersticas locais que
o rdio FM assume, bem como sua importncia em
negociaes de identidade, sugerimos que essas
mudanas passam primeiro pelo apresentador de
rdio, a voz da empresa. Como afirma Menezes em
um belo estudo sobre os elementos de articulao
entre os indivduos de uma cidade,
[...] os locutores das emissoras de rdio esto
continuamente rememorando efemrides, atualizando
fatos antigos, comentando narrativas do cotidiano,
realizando rituais que remetem ao tempo mtico,
transmitindo a sensao de que estamos localizados
em determinado lugar e em determinado tempo. [17]
A importncia da voz na vinculao entre pessoas,
da interao ouvinte-locutor-emissora, nos parece ser
uma das caractersticas marcantes da radiodifuso
que se prolongam atualmente. Esse um debate que
permeou textos de outros autores, como Balsebre:
A palavra radiofnica no somente a palavra atravs
do rdio [...] ainda que transmita a linguagem natural da
comunicao interpessoal, palavra imaginada, fonte
evocadora de uma experincia sensorial mais complexa
[18]
Essa experincia sensorial, garantida pela resposta
ntima, se amplifica com a agilidade do feedback
digital. O locutor deve ressignificar sua personalidade
perante o ouvinte por meio de uma atividade mais
consistente das ferramentas da web.
No entanto, essa nova centralidade do papel do
locutor no uma tarefa fcil: mesmo em se tratando
de um profissional preparado, que expande seu
universo de ao para as redes sociais, que tem
presena e personalidade em seu horrio na
programao, a locuo radiofnica ainda , hoje,
uma profisso relativamente desvalorizada. A maior
parte dos entrevistados afirma que viver de rdio
difcil, e eles precisam complementar o salrio com
outras atividades. Para muitos locutores, como Cadu
Previero e PH Dragani, um segundo emprego
movido pela paixo: eu acho que paixo mesmo,
a locuo de FM te permite trabalhar em outras
coisas. Laerte Gouveia compartilha a mesma opinio:
no rdio voc tem que ser muito apaixonado [...] voc
nasce locutor radialista... eu gosto do rdio, um
amor incondicional.
NOTAS
[1] The Radio Conference: A Transnational Forum, realizado
entre 9 e 12 de julho de 2013 na Universidade de
Bedfordshire, Luton, Inglaterra.
[2] Professor de Rdio e Estudos de Msica Popular na
Universidade de Birmingham City, Inglaterra. Na ocasio do
Congresso, apresentou uma pesquisa intitulada A new age
for radio: understanding radio's present from radio's past.
[3] Os dados preliminares da pesquisa foram apresentados
tambm no mencionado congresso pelo autor Lus Antonio
Santos, Professor do Departamento de Cincias da
Comunicao da Universidade do Minho, Portugal.
[4] DEL BIANCO, N.R. (org.). O rdio brasileiro na era da
convergncia. So Paulo: Intercom, 2012
[5] Os dados foram apresentados na publicao Mdia Dados
Brasil 2013, do Grupo de Mdia de So Paulo. Disponvel em
http://midiadadosrdp.digitalpages.com.br/html/reader/119/1565
9, acessado em 30/ago/2013.
[6] Os dados foram publicados na edio de 27 de maio de 2013
da revista Meio&Mensagem.
[7] A ideia de recontextualizao usada pelo autor Andrew
Dubber em artigo publicado na revista Significaes, do PPG-
MPA da ECA/USP. Para o autor, a ideia de impacto dos meios
digitais parece equivocada ao sugerir deformaes e
mudanas, quando o que ocorre , na verdade, muito mais
prximo de adaptaes. Cf. DUBBER, A.. Repensando o
rdio na era digital. Significao: revista de cultura
audiovisual. Revista do Programa de Ps-Graduao em
60 Revista de Radiodifuso v. 07 n. 08 2013
Pesquisas em ambientes digitais - TV Internet Radio Cinema
Meios e Processos Audiovisuais da ECA/USP. So Paulo,
Ano 40, n 39, pp. 24-43, jan-jun/2013
[8] Cf. FERRARETTO, L.A.. O hbito de escuta: pistas para a
compreenso das alteraes nas formas do ouvir
radiofnico. GHREBH Revista de Comunicao Cultura e
Teoria da Mdia. So Paulo, Nmero 9. Maro/2007.
Disponvel eletronicamente em
http://www.cisc.org.br/revista/ghrebh9/artigo.php?dir=artigos&i
d=Ferraretto
[9] Cf. KISCHINHEVSKY, M.. O rdio sem onda: convergncia
digital e novos desafios na radiodifuso. Rio de Janeiro: e-
papers, 2007, p.35
[10] GAMBADO, D.. Rdio e tecnologias: os novos espaos e
caminhos possveis do meio sonoro. Dissertao de
mestrado. So Paulo: PPGMPA ECA/USP, 2011, pp. 121-122
[11] Id.ibid, pp123-124
[12] O terico francs Bernard Mige identifica diferentes
processos sociais articulados a partir das novas tecnologias
de informao e comunicao. Entre eles, a ampliao do
domnio miditico, em que os usurios esperam que os novos
meios se diferenciem dos anteriores, sem deixar de lado
prticas enraizadas socialmente. Cf. MIGE, Bernard. A
sociedade tecida pela comunicao: tcnicas da
informao e da comunicao entre inovao tcnica e
enraizamento social. So Paulo: Paulus, 2009, pp. 109-130
[13] Dubber, op.cit, p.35
[14] A fase da multiplicade de oferta significa, do ponto de vista da
empresa de comunicao, maior concorrncia em diferentes
frentes, e maior necessidade de produo de contedo. Ao
memso tempo, reconfigura o trabalho dos profissionais, que
so levados a acumular funes. O cenrio pode possibilitar a
reconfigurao das empresas e nova importncia social dos
meios, ou mesmo caminhar em outra direo, a de
concentrao maior de mercados. Cf. BRITTOS, V.C.. O
rdio brasileiro na Fase da Multiplicidade da Oferta. Verso
& Reverso, So Leopoldo, n. 35, pp. 31-54, jul./ago. 2002; e
cf. FERRARETTO, L.A.. Alteraes no modelo
comunicacional radiofnico: perspectivas de contedo
em um cenrio de convergncia tecnolgica e
multiplicidade da oferta. Em: FERRARETTO, L.A.;
KLCKNER, L. (orgs). E o rdio? Novos horizontes
miditicos. Porto Alegre: EDIPUCRS, 2010, pp. 539-556
[15] Traduo livre para "Junto al diseo de la web aparece
integrado el de la emisin sonora, el conjunto de
informaciones paralelas y las diversas modalidades de
acceso, interactividad, hipermedialidad y navegacin... Ya no
es una emisora sino algo ms, una web que tiende a
convertirse en multimedia." HERREROS, M. C.. La radio en
internet: de lo ciberradio a las redes sociales y la radio
mvil. Buenos Aires: La Crujia, 2008, p.58
[16] Traduo livre para "La ciberradio supone un cambio radical
en los intereses de las emisoras. Pierden su papel
hegemnico de control sobre el proceso. Tal vez es esta la
razn profunda por la que a ciberradio propiamente dicha est
implantndose con tanta lentitud.". HERREROS, op.cit, p.110
[17] MENEZES, J. E. O.. Rdio e cidade: vnculos sonoros. So
Paulo: Annablume, 2007, p.69
[18] BALSEBRE, A.. El lenguaje radiofnico. Madri: Ediciones
Ctedra, 1994, p.35

Pesquisas em ambientes digitais - TV Internet Radio Cinema
Revista de Radiodifuso v. 07 n. 08 2013 61
MTRICA SEM REFERNCIA BASEADA EM REDES NEURAIS
PARA AVALIAO OBJETIVA DE QUALIDADE DE VDEO DIGITAL
Wyllian Bezerra da Silva, Alexandre de Almeida Prado Pohl
Programa de Ps-Graduao em Engenharia Eltrica e Informtica Industrial (CPGEI) UTFPR, Curitiba, Brasil
wyllianbs@gmail.com, pohl@utfpr.edu.br
Resumo: Este trabalho apresenta uma mtrica sem referncia para avaliao de qualidade de vdeo digital baseada em uma rede neural artifcial que usa uma verso estendida do algoritmo de aprendizado ELM (Extreme Learning Machine). O mtodo proposto realiza o treinamento da rede neural a partir de seis caractersticas espao-temporais. Os resultados experimentais mostram que o mtodo proposto apresenta desempenho superior s mtricas de referncia completa PSNR e MS-SSIM na tarefa de predio de qualidade de vdeo. Logo, o mtodo proposto pode ser usado no monitoramento de qualidade em sistemas de transmisso e recepo de vdeo digital, tais como IPTV e TV digital.
Palavras chave: algoritmo ELM, avaliao objetiva de vdeo, mtrica sem referncia, rede neural artifcial.
1. INTRODUO
Durante os ltimos anos, a literatura tem apresentado um nmero crescente publicaes acerca de mtricas objetivas para avaliao de qualidade de vdeo para diversas aplicaes em radiodifuso ou no processamento de vdeo digital, seja na aquisio do sinal, codifcao e decodifcao, compresso, transmisso, restaurao, armazenamento, segmentao e exibio de sinais de vdeo digital [14]. A avaliao de qualidade de vdeo digital pode ser realizada por meio de mtricas subjetiva e objetiva. A primeira requer uma grande quantidade de recursos humanos e apresenta elevado custo em sua implementao [13]. Porm, as mtricas objetivas so vantajosas quando apresentam um determinado grau de correlao com as mtricas subjetivas. Logo, o desenvolvimento destas um desafo no campo de avaliao de qualidade de vdeo e imagem. Alm disso, as mtricas objetivas, devido natureza de seu critrio objetivo, independem de interao humana e so facilmente reprodutveis [3]. Dentre as mtricas objetivas destacam-se as mtricas sem referncia (No-Reference NR), pois no necessitam do vdeo de referncia no clculo de sua medida. Entretanto, estas requerem um conhecimento a priori sobre as distores em vdeo digital para que seja estabelecida uma correlao com os resultados subjetivos [3].
A maioria das mtricas NR encontradas na literatura so baseadas na avaliao de qualidade de imagens e em caractersticas relacionadas ao Sistema Visual Humano (SVH). Assim, o desenvolvimento de mtricas NR difcil, devido necessidade de emular a percepo do SVH que envolve aspectos cognitivos, emocionais e estticos relacionados ao contedo do vdeo e que so altamente dependentes do observador [4], [5].
A literatura reporta diversos esforos no desenvolvimento de mtricas para avaliao de qualidade de vdeo baseadas em redes neurais e em algoritmos de aprendizado. Babu et al. [6] apresentam uma mtrica para avaliar a qualidade de imagens comprimidas em JPEG (Joint Photographic Experts Group) por meio de um algoritmo de aprendizado de crescimento e propem o uso de uma rede neural GAP-RBF (Growing and Pruning Radial Basis Function) que usa caractersticas relacionadas ao SVH. Jiang et al. [7] desenvolveram uma mtrica NR para avaliao de qualidade de vdeo em HD (High Defnition) baseada em uma rede neural treinada pelo algoritmo BP (Back-Propagation) que usa seis caractersticas espao-temporais e a RoI (Region of Interest). Choe et al. [8] desenvolveram uma mtrica NR baseada no fuxo de bits para avaliao de qualidade de vdeo codifcado em H.264. Esta mtrica extrai caractersticas quadro a quadro e usa uma rede neural alimentada adiante (feedforward) com trs camadas. Suresh et al. [9] apresentaram uma extenso do algoritmo ELM na tarefa de avaliar a qualidade de imagens comprimidas em JPEG com base no esquema de seleo mltipla KS-ELM (K-fold selection Scheme using ELM) e no algoritmo RCGA-ELM (Real-Coded Genetic Algorithm using ELM) para seleo dos pesos de entrada e polarizaes.
Este trabalho apresenta uma verso estendida do algoritmo ELM para redes neurais SLFN (Single-hidden-Layer Feedforward Neural Networks) que implementa um simples critrio de parada na fase de treinamento. Alm disso, esse mtodo usa seis caractersticas espao-temporais de vdeos submetidos a diversas condies de distoro.
Este artigo est dividido da seguinte maneira: a Seo 2 descreve as mtricas para avaliao de qualidade de vdeo. A Seo 3 descreve o mtodo NR proposto para avalio de qualidade de vdeo digital. A Seo 4 apresenta os resultados experimentais, em que so comparados o mtodo NR proposto e duas mtricas FR. Finalmente, a Seo 5 apresenta a concluso do artigo.
2. AVALIAO DE QUALIDADE DE VDEO
O processo de avaliao de qualidade de vdeo
pode ser realizado com a aplicao de mtricas
subjetivas ou objetivas. As mtricas subjetivas
estimam a qualidade do vdeo por meio de avaliadores
humanos. Logo, exigem um alto custo, pois
necessitam de uma grande quantidade de recursos
humanos e apresentam problemas quanto aos
requisitos de imparcialidade e reprodutibilidade,
tornando-se inapropriadas em sistemas de
radiodifuso ou em provedores de contedo [10], [11].
Por outro lado, as mtricas objetivas so baseadas em
modelos matemticos, cujo objetivo produzir um
escore de qualidade que emule a percepo do SVH.
Alm disso, as mtricas objetivas requerem baixo
custo de implementao (quando comparadas com as
mtricas subjetivas) e no apresentam problemas
quanto reprodutibilidade e imparcialidade.
As mtricas objetivas para avaliao de qualidade
de vdeo podem ser classifcadas em trs categorias:
(i) mtricas de referncia completa (Full-Reference
FR); (ii) mtricas de referncia reduzida (Reduced-
Reference RR); (iii) mtricas sem referncia (NR).
2.1. Mtricas FR
As mtricas FR requerem o vdeo de referncia
(fonte) no clculo do escore de qualidade. Estas
mtricas so amplamente utilizadas no processo de
validao de mtricas RR ou NR, por meio da
comparao de desempenho defnida pelas
recomendaes do Grupo de Especialistas em
Qualidade de Vdeo (VQEG Video Quality Experts
Group) que um rgo de padronizao internacional
de mtricas subjetivas e objetivas de qualidade de
vdeo. Dentre as mtricas FR, destacam-se o PSNR
(Peak Signal-to-Noise Ratio), SSIM (Structural
SIMilarity index) [12] e MS-SSIM (Multi-Scale
Structural SIMilarity index) [13].
O PSNR uma mtrica FR baseada no erro pixel a
pixel de fcil implementao. Entretanto, apresenta
baixa correlao com o SVH [14]. A sua medida
processada sobre o erro quadro a quadro, i.e., entre o
quadro original x e o quadro y . A expresso a seguir
defne o PSNR para um conjunto de quadros F .
20
1
1
PSNR 20log ,
F
f
f f
v
F MSE



(1)
com

2
0 0
1
MSE , , , , ,
N M
f
i j
x f i j y f i j
NM

(2)
em que o termo f v igual a (2 1) k , cujo k o
nmero de bits por pixel, i.e., a componente de
luminncia do quadro f . Os termos x f ,i, j e
y f ,i, j so os valores de luminncia do quadro de
origem e degradado, respectivamente. As
componentes bidimensionais so representadas pelo
nmero de colunas N e pelo nmero de linhas M . O
termo f MSE defnido como erro quadrtico mdio
ou MSE (Mean Square Error).
A mtrica SSIM baseia-se no fato de que o SVH
fortemente adaptado para extrair informaes das
caractersticas estruturais de um quadro ou imagem.
Logo, uma medida de similaridade estrutural (ou
distoro) pode prover boa aproximao para a
qualidade perceptual de um vdeo [3, 79]. Sejam x e
y dois sinais no-negativos, em que y o sinal
degradado e x o sinal original (sem perda de
qualidade), a medida de similaridade utilizada como
um ndice quantitativo de qualidade do sinal distorcido,
ou seja, x tomado como a referncia para medir a
qualidade de y . A mtrica SSIM possui diversas
extenses, dentre as quais a verso MS-SSIM,
proposta por Wang et al. [13] que assume uma
abordagem multiescalar.
2.2. Mtricas RR
As mtricas de referncia reduzida retiram certa
quantidade de caractersticas do vdeo original (fonte),
baseadas em componentes espaciais, temporais, no
domnio da frequncia ou no fuxo de bits (bitstream).
Este tipo de mtrica amplamente utilizada no
monitoramento de transmisses em rede [17]. Neste
tipo de cenrio de aplicao, o vdeo transmitido
com uma sequncia de informao codifcada
(overhead) e no lado receptor ocorre a sua
decodifcao, seguido pelo clculo do ndice de
qualidade, o qual obtido por meio da comparao
entre a representao reduzida da informao nos
pares emissor e receptor [18]. Tipicamente, mtricas
RR so implementadas por meio de funes, divididas
em duas etapas [19]: (i) clculo do erro entre os
vdeos original e distorcido, constitudo pela diferena
de suas caractersticas, a fm de compor a
representao reduzida da informao; (ii) funo que
agrupa os erros ou diferenas para obter um ndice de
qualidade global. Algumas mtricas RR exploram
propriedades dos artefatos, por meio da extrao de
caractersticas e um modelo de parametrizao [20]
com foco em tipos especfcos de distores
(artefatos). Esta abordagem encontrada em Silva et
al. [17], cujo clculo do escore de qualidade
baseado na diferena de atividade dos coefcientes
DCT (Discrete Cosine Transform) em um macro bloco
com resoluo de 1616 pixels.
2.3. Mtricas NR
As mtricas NR extraem caractersticas
relacionadas ao SVH do vdeo distorcido, i.e., na
recepo do sinal de vdeo [14]. Tipicamente, h duas
abordagens no desenvolvimento destas mtricas: (i)
extrao dos parmetros sobre o fuxo de bits, tais
como a taxa de compresso, informaes
relacionadas ao GoP (Group of Pictures), estimao
de movimento, perfl e nvel de codifcao, bem como
o parmetro de quantizao ou QP (Quantization
Parameter) [2125]. Mtricas NR apresentam maior
complexidade quando so aplicadas em vdeo, devido
variao temporal dos quadros, contedos das
cenas e difculdade de compreenso das
caractersticas do SVH [26]. Assim, algumas mtricas
dessa categoria exploram caractersticas espaciais e
temporais na estimao de qualidade de vdeo [21].
3. MTODO PROPOSTO
O mtodo proposto, denominado NRVQA-ELMtc
(No-Reference Video Quality Assessment using
Extreme Learning Machine algorithm with termination
criteria) [27] combina caractersticas espaciais e
temporais, por meio de uma rede neural artifcial
SLFNs usando o algoritmo de treinamento ELM [28]
com a implementao de um simples critrio de
parada.
3.1. Caractersticas espao-temporais
As caractersticas espaciais incorporadas no
mtodo proposto so baseadas em medidas de
artefatos em vdeo digital, i.e., distores de blocagem
e borramento desenvolvidas por Wang et al. [20].
Assim, a componente de luminncia do quadro f
representada por y(f , i, j ) com i 1,M e j 1, N ,
em que M e N so os nmeros de linhas e colunas,
respectivamente, de um quadro. Logo, as diferenas
de luminncia ao longo das linhas e colunas so
representadas, respectivamente, pelas expresses a
seguir.


, , , , 1 , , , 1, 1 ,
, , , 1, , , , 1, 1 .
h
v
d f i j y f i j y f i j j N
d f i j y f i j y f i j i M


(3)
O efeito de blocagem pode ser estimado pela
mdia das diferenas entre as bordas dos blocos da
DCT (Discrete Cosine Transform) nas direes
horizontal e vertical para uma sequncia F de
quadros, conforme mostra a Equao (4), com um
macrobloco de dimenso , cujo tamanho tpico
de 8 [20].


1
1
1 1 1
1
1
1 1 1
1
, , 1 ,
1
1
1
, 1 , .
1
1
N
F M
h h
f i j
M
F N
v
i j
v
f
B d f i j
N
F M
B d f i j
M
F N












(4)
A medida de blocagem em uma sequncia de
vdeo com F quadros determinada pela mdia entre
h B e v B , caracterizando a medida B , conforme a
expresso a seguir.
.
2
h v B B
B

(5)
Os efeitos de borramento so estimados pelo
clculo da reduo de atividade entre os blocos ,
em que usada a medida de blocagem nas direes
horizontal e vertical, conforme as expresses




1
1 1 1
1
1 1 1
, , ,
1 1
, ,
1
.
1
F M N
h h h
f i j
F M N
v v
f
v
i j
A d f i j B
F M N
A d f i j B
F N M








(6)
A medida de borramento, representada por A ,
conforme a Equao (7), determinada pela mdia
entre h A e v A .
.
2
h v A A
A

(7)
O segundo fator que contribui para a deteco do
artefato de borramento baseado na taxa de
cruzamento por zero (Zero Crossing ZC) nas
direes horizontal e vertical, conforme as expresses
a seguir.




2
1 1 1
2
1 1 1
1
, , ,
2
1
, , ,
2
F M N
h h
f i j
F M N
v v
f i j
Z z f i j
F M N
Z z f i j
F N M




(8)
em que os termos h z e v z so determinados por


1, na direo horizontal
, , ,
0, caso contrrio
1, na direo vertical
, , .
0, caso contrrio
h
v
z f i j
z f i j



(9)
Assim, a medida de borramento Z determinada
pela mdia entre as componentes h Z e v Z .
.
2
h v Z Z
Z

(10)
O mtodo proposto tambm incorpora trs
caractersticas temporais no treinamento da rede
neural SLFN com o algoritmo ELM.
A primeira caracterstica temporal a diferena de
movimento entre quadros adjacentes, representada
pela varivel TI (Temporal perceptual Information) [31]
que considera os valores de luminncia de pixels
localizados em uma mesma regio de um quadro,
conforme a expresso a seguir.

2
1
, , ,
1
F
f
TI m f i j
F


(11)
em que o nmero total de quadros F e mf ,i, j

o desvio padro da diferena de movimento
(diferena de luminncia) entre o quadro atual
y f ,i, j e o quadro anterior y f 1,i, j .
A segunda caracterstica temporal a mdia da
diferena absoluta (Mean Absolute Diference MAD)
[31] entre quadros sucessivos, representada pela
Equao (12) que defne a medida global da MAD
para todos os quadros de um vdeo.


2 1 1
1
, , 1, , .
1
F M N
f i j
MAD y f i j y f i j
M N F



(12)
A terceira caracterstica temporal a mdia da
diferena absoluta ponderada (weighted Mean
Absolute Diference MADw) [32], a qual mede o grau
de variao das cenas de um vdeo que considera a
cena atual de um quadro f e do quadro anterior f 1,
conforme a expresso:
2 1
1
.
1
F
f
f f
MAD
MADw
F MAD


(13)
Assim, o mtodo proposto combina as
caractersticas espaciais e temporais em uma matriz
, , , , , f f f f f f f x A B Z TI MAD MADw , em que f o
nmero de amostras de vdeo. A Figura 1 apresenta
as caractersticas temporais espaciais de dezessete
bases de dados de vdeos (denominada superconjunto
S) usadas neste trabalho e reportadas em [27]. A
recomendao ITU-T P.910 [31] defne a medida SI
(Spatial perceptual Information) como informao
espacial perceptual. A inspeo visual dessa fgura
mostra que as amostras de vdeo usadas neste
trabalho apresentam uma grande variao espaotemporal.
Fig. 1. Caractersticas espaciais e temporais do superconjunto
S com 216 amostras de referncia
3.2. Mtrica NRVQA-ELMtc
O algoritmo ELM [28] desenvolvido para o
treinamento de uma rede SLFN atribui pesos e
polarizaes (biases) de maneira aleatria, segundo
uma distribuio uniforme. O treinamento compreende
N amostras distintas representadas pela varivel
, , , 1, , n m
f f f f x t x t f N , cujo clculo
conforme a expresso

1
, 1, , ,
K
K i j j f j f
f
f g b f N

x w x o (14)
em que f o a sada (escore objetivo), g(x) a
funo de ativao e j o peso que conecta o jsimo
neurnio da camada oculta ao neurnio de
sada. De acordo com [28], uma rede SLFN com K
ns na camada oculta e uma funo de ativao g(x)
pode apresentar um erro mdio prximo de zero, i.e.,
1
0
K
f f
f
o t . Logo, h parmetros j , j w e j b tal
que

1
, 1, , ,
K
j j f j f
f
g b f N

w x t (15)
em que f t o vetor alvo (escores subjetivos),
T
1, , j j jn w w w o vetor de peso que conecta o jsimo
neurnio da camada oculta ao neurnio da
camada de entrada, j b denota a polarizao (bias) do
j-simo neurnio da camada oculta, j f w x o
produto interno de j w e f x . A Figura 2 ilustra o
algoritmo ELM empregado em uma arquitetura de
rede neural SLFN.
xi
1
j
N
1
j
K
ti
bj
N input neuron K hidden neuron output neuron
1
K
wj
Fig. 2. Arquitetura de uma rede neural SLFN usando algoritmo
de treinamento ELM
O sistema linear da Equao (16) resume o mtodo
do algoritmo ELM.
H T, (16)
em que a matriz da camada oculta representada por
1, , and 1, , f H h f N j K com a primeira
linha da matriz de caractersticas f x igual a
T
1 2 , , , f f f fn x x x x , i.e., a primeira linha igual a
1 1 1 1 1 1 1 , , , , , f f f f f f f x A B Z TI MAD MADw . A matriz de
sada e o vetor alvo (target) so defnidos como
T
1 , K e
T
1, , N T t t , respectivamente. O
termo
T
1 , 1, , j jm j j K denota o vetor de
peso que conecta o j-simo neurnio da camada
oculta e os neurnios de sada. Hung et al. [28]
propuseram a atribuio aleatria de pesos aos
parmetros j w e j b , a fm de seja obtido um pequeno
erro no-nulo durante o treinamento. Considerando o
sistema linear da Equao (17), os pesos da camada
de sada podem ser aproximados por
H T (17)
em que H defnida como matriz inversa
generalizada de Moore-Penrose (MP) [33] da matriz
de sada da camada oculta H . Alm disso, o
conjunto de treinamento , n oculta K e uma
funo de ativao g x , e.g., funo de base radial
(Radial Basis Function RBF), hard-limiting (hardlim),
sigmoidal (sig) e seno (sin). Em resumo, o algoritmo
ELM compreende trs etapas [28]:
i) Atribuio aleatria dos pesos de entrada j w e
polarizaes j b ;
ii) Clculo da matriz da camada de sada H ;
iii) Clculo dos pesos de sada : H T .
O mtodo NRVQA-ELMtc [27] implementa um
simples critrio de parada no treinamento da rede
neural SLFN, quanto atribuio aleatria dos pesos
j w e j b . Embora este critrio no seja direcionado,
busca os pesos relacionados com o menor RMSE
(Root-Mean-Square Error) entre a sada desejada
(escore subjetivo) e o escore objetivo na fase de
treinamento com k iteraes (tipicamente, k 100 ) e
N neurnios na camada oculta. Alm disso, conforme
estudo realizado em [27], caso o RMSE seja menor do
que 0,5 o algoritmo cessa a busca pelos parmetros
j w e j b .
4. RESULTADOS EXPERIMENTAIS
Esta seo apresenta os resultados de acurcia,
i.e., os coefcientes de correlao linear de Pearson
(Pearson Linear Correlation Coefcient PLCC) [34],
[35], entre os escores objetivos e subjetivos de 2627
amostras de vdeo estudadas em [27].
A Figura 3 compara a acurcia (PLCC) entre as
mtricas de referncia completa (FR) PSNR e MSSSIM
com o mtodo proposto (NRVQA-ELMtc) para
as 2627 amostras de vdeo, pertencentes a 17 bases
de dados de vdeo disponibilizadas por diversas
instituies e laboratrios [27]. A funo de ativao
usada na rede neural SLFN foi o seno (sin) com o
nmero de amostras de teste igual ao nmero de
neurnios na camada oculta ( N ). O mtodo de
validao cruzada mltipla (K-fold) foi usado com o
objetivo de gerar uma distribuio de acurcia, a qual
foi analisada por meio do diagrama de caixa (box-plot)
[36], em que o trao, o crculo e o quadrado, ambos
em vermelho, representam a mediana, a mdia e o
desvio padro, respectivamente. Destaca-se que
neste trabalho foi empregada uma validao cruzada
com um grande nmero de amostras de treinamentoteste
com K 100 , i.e., cada caixa do box-plot
comporta 100 experimentos distintos. Tipicamente, a
literatura apresenta trabalhos no campo da avaliao
Fig. 3. Box-plot da predio da acurcia (PLCC) entre as mtricas PSNR, MS-SSIM e o mtodo proposto NRVQA-ELMtc
de qualidade de vdeo com K entre 5 e 10 [37], [38].
Pela inspeo visual da Figura 3 observa-se que o
desempenho do mtodo proposto superior s
mtricas FR, em quaisquer condies de teste, i.e.,
para qualquer quantidade de amostras de teste
(nmero de neurnios na camada oculta) entre 25 e
500. Em especial, para N 50 , o mtodo proposto
apresenta valores de PLCC, em termos da mdia e
mediana, acima de 0,8, denotando uma forte
associao entre os escores objetivos e subjetivos, na
tarefa de predio de qualidade de vdeo. Isto ocorre
devido grande quantidade de amostras de vdeo
usadas no treinamento, e.g., para N 300 foram
usadas 2327 amostras de treinamento, ou seja,
mesmo usando pares de treinamento-teste disjuntos,
o mtodo proposto mostra uma acurcia superior s
mtricas de referncia completa. A assimetria positiva,
i.e., a maior concentrao da acurcia entre o
segundo quartil (mediana) e o terceiro quartil, na
distribuio do box-plot nos testes com 300 e 500
neurnios na camada oculta, indica que o mtodo
proposto apresenta um desempenho expressivo em
comparao com as mtricas FR.
Entretanto, mesmo para N entre 25 e 50, o
mtodo proposto apresentou uma acurcia maior do
que as mtricas FR, cujo melhor resultado foi para
N 25 com o desvio-quartil (amplitude interquartlica)
confnado entre 0,65 e 0,8. Alm disso, este resultado
tambm apresentou assimetria positiva com a mdia
do PLCC em torno de 0,75.
5. CONCLUSO
Este trabalho apresentou uma mtrica NR baseada
em uma rede neural artifcial SLFN, cujo treinamento
determinado pelo algoritmo ELM, o qual considera
caractersticas espao-temporais e os escores
subjetivos (alvos) extrados de 2627 amostras
treinamento. Alm disso, este trabalho prope uma
extenso do algoritmo ELM por meio de um simples
critrio de parada, a fm de que sejam obtidos
parmetros da rede neural artifcial relacionados com
o menor RMSE. Tipicamente, a comparao entre
mtricas FR e NR injusta, devido ausncia do
vdeo de referncia na obteno do escore de
qualidade em mtricas NR. Entretanto, os resultados
experimentais mostram que o mtodo proposto
apresentou desempenho superior s mtricas de
referncia completa PSNR e MS-SSIM, sobretudo,
quando o nmero de amostras de teste e de neurnios
na camada oculta da rede SLFN maior do que 250.
Logo, a mtrica NRVQA-ELMtc pode ser empregada
no monitoramento de qualidade em sistemas de
transmisso e recepo de vdeo digital, tais como
IPTV (Internet Protocol Television), TV digital ou em
dispositivos mveis, tais como ultrabooks,
smartphones, tablets e em aparelhos WiDi (Wireless
Display).
REFERNCIAS
[1] S. Winkler, Issues in vision modeling for perceptual
video quality assessment, Signal Processing, vol. 78,
no. 2, pp. 231252, 1999.
[2] Z. Wang and A. C. Bovik, Modern image quality
assessment. San Rafael, CA: Morgan & Claypool,
2006.
[3] W. Lin and C.-C. Jay Kuo, Perceptual visual quality
metrics: A survey, Journal of Visual Communication
and Image Representation, vol. 22, no. 4, pp. 297312,
May 2011.
[4] S. S. Hemami and A. R. Reibman, No-reference image
and video quality estimation: Applications and humanmotivated
design, Signal Processing: Image
Communication, vol. 25, no. 7, pp. 469481, 2010.
[5] Z. Wang and A. Bovik, Reduced- and No-Reference
Image Quality Assessment, IEEE Signal Processing
Magazine, vol. 28, no. 6, pp. 2940, Nov. 2011.
[6] R. V. Babu, S. Suresh, and A. Perkis, No-reference
JPEG-image quality assessment using GAP-RBF,
Signal Processing, vol. 87, no. 6, pp. 14931503, 2007.
[7] X. Jiang, F. Meng, J. Xu, and W. Zhou, No-Reference
Perceptual Video Quality Measurement for High
Defnition Videos Based on an Artifcial Neural
Network, in Computer and Electrical Engineering,
2008. ICCEE 2008. International Conference on, 2008,
pp. 424427.
[8] J. Choe, K. Lee, C. Lee, and S. Korea, No-reference
video quality measurement using neural networks, in
2009 16th International Conference on Digital Signal
Processing, 2009, pp. 14.
[9] S. Suresh, R. Venkatesh Babu, and H. J. Kim, Noreference
image quality assessment using modifed
extreme learning machine classifer, Applied Soft
Computing, vol. 9, no. 2, pp. 541552, Mar. 2009.
[10] A. M. Eskicioglu and P. S. Fisher, Image quality
measures and their performance, IEEE Transactions
on Communications, vol. 43, no. 12, pp. 29592965,
1995.
[11] U. Engelke and H.-J. Zepernick, Perceptual-based
Quality Metrics for Image and Video Services: A
Survey, in Proceedings EuroNGI Conf. Next
Generation Internet Networks, 2007, pp. 190197.
[12] Z. Wang, A. C. Bovik, H. R. Sheikh, and E. P
Simoncelli, Image quality assessment: from error
visibility to structural similarity., IEEE Transactions on
Image Processing, vol. 13, no. 4, pp. 600612, 2004.
[13] Z. Wang, E. P. Simoncelli, and A. C. Bovik, Multiscale
structural similarity for image quality assessment, in
The Thrity-Seventh Asilomar Conference on Signals,
Systems & Computers, 2003, 2003, vol. 2, no. 1, pp.
13981402.
[14] H. R. Wu, K. R. Rao, and A. A. Kassim, Digital Video
Image Quality and Perceptual Coding, Journal of
Electronic Imaging, vol. 16, no. 3, 2007.
[15] Z. Wang and A. C. Bovik, A universal image quality
index, IEEE Signal Processing Letters, vol. 9, no. 3,
pp. 8184, Mar. 2002.
[16] Y. Shi, Y. Ding, R. Zhang, and J. Li, Structure and Hue
Similarity for Color Image Quality Assessment, in 2009
International Conference on Electronic Computer
Technology, 2009, pp. 329333.
[17] W. B. Silva, A. A. P. Pohl, and K. V. O. Fonseca, A
Reduced-Reference Video Quality Assessment Method
based on the Activity-Diference of DCT Coefcients,
IEICE Transactions on Information and Systems, vol. E96-D, no. 3, 2013.
[18] P. Le Callet, C. Viard-Gaudin, and D. Barba, A Convolutional Neural Network Approach for Objective Video Quality Assessment, IEEE Transactions on Neural Networks, vol. 17, no. 5, pp. 13161327, 2006.
[19] P. Le Callet and D. Barba, Image Quality Assessment: From Sites Errors to a Global Appreciation of Quality, in Proceedings of the Picture Coding Sympsium, 2001, pp. 105108.
[20] M. Miyahara, K. Kotani, and V. R. Algazi, Objective picture quality scale (PQS) for image coding, IEEE Transactions on Communications, vol. 46, no. 9, pp. 12151226, 1998.
[21] M. Slanina, V. Ricny, and R. Forchheimer, A Novel Metric for H.264/AVC No-Reference Quality Assessment, in 14th International Workshop on Systems, Signals and Image Processing and 6th EURASIP Conference focused on Speech and Image Processing, Multimedia Communications and Services, 2007, pp. 114117.
[22] O. Sugimoto, S. Naito, S. Sakazawa, and A. Koike, Objective perceptual video quality measurement method based on hybrid no reference framework, in 16th IEEE International Conference on Image Processing (ICIP09), 2009, pp. 22372240.
[23] T. Oelbaum, C. Keimel, and K. Diepold, Rule-Based No-Reference Video Quality Evaluation Using Additionally Coded Videos, IEEE Journal of Selected Topics in Signal Processing, vol. 3, no. 2, pp. 294303, 2009.
[24] N. Staelens, N. Vercammen, Y. Dhondt, B. Vermeulen, P. Lambert, R. de Walle, and P. Demeester, ViQID: A No-Reference bit stream-based visual quality impairment detector, in Proceedings of the Second Int Quality of Multimedia Experience (QoMEX) Workshop, 2010, pp. 206211.
[25] F. Yang, S. Wan, Q. Xie, and H. R. Wu, No-Reference Quality Assessment for Networked Video via Primary Analysis of Bit Stream, IEEE Transactions on Circuits and Systems for Video Technology, vol. 20, no. 11, pp. 15441554, Nov. 2010.
[26] Z. Wang, H. R. Sheikh, and A. C. Bovik, Objective Video Quality Assessment, in The Handbook of Video Databases: Design and Applications, B. Furht and O. Marques, Eds. Boca Raton, FL, USA: CRC Press, 2003, pp. 10411078.
[27] W. B. da Silva and A. de A. P. Pohl, Mtodos Sem Referncia Baseados em Caractersticas Espao-Temporais para Avaliao Objetiva de Qualidade de Vdeo Digital, Universidade Tecnolgica Federal do Paran (UTFPR), 2013.
[28] G.-B. Huang, Q.-Y. Zhu, and C.-K. Siew, Extreme learning machine: Theory and applications, Neurocomputing, vol. 70, no. 13, pp. 489501, Dec. 2006.
[29] Z. Wang, H. R. Sheikh, and A. C. Bovik, No-reference perceptual quality assessment of JPEG compressed images, in Image Processing. 2002. Proceedings. IEEE International Conference on Image Processing, 2002, vol. 1, pp. vol.1 I477 I480.
[30] W. B. Silva and A. A. P. Pohl, No-Reference Video Quality Assessment Method based on the Levenberg-Marquardt Minimization, in XXX Brazilian Symposium on Telecommunications (SBrT12), 2012.
[31] ITU-T P.910, Subjective video quality assessment methods for multimedia applications, Standardization Sector of ITU, 1999.
[32] W. Ding, Y. Tong, Q. Zhang, and D. Yang, Image and Video Quality Assessment Using Neural Network and SVM, Tsinghua Science &amp; Technology, vol. 13, no. 1, pp. 112116, 2008.
[33] K. S. Banerjee, C. R. Rao, and S. K. Mitra, Generalized Inverse of Matrices and Its Applications, Technometrics, vol. 15, no. 1, p. 197, Feb. 1973.
[34] VQEG, Final report from the video quality experts group on the validation of reduced-reference and no-reference objective models for standard defnition television, Phase I, 2009.
[35] VQEG, Report on the validation of video quality models for high defnition video content, 2010.
[36] J. W. Tukey, Exploratory Data Analysis. New York: Addison-Wesley Publishing Company, 1977.
[37] P. Gastaldo and R. Zunino, Neural networks for the no-reference assessment of perceived quality, J. Electronic Imaging, vol. 14, no. 3, p. 033004, 2005.
[38] R. Herzog, M. adk, T. O. Aydn, K. I. Kim, K. Myszkowski, and H.-P. Seidel, NoRM: No-Reference Image Quality Metric for Realistic Image Synthesis, Comp. Graph. Forum, vol. 31, no. 2pt4, pp. 545554, 2012.
Modelo de anlise da audincia baseado no contexto
Valdecir Becker
valdecir@ci.ufpb.br
Marcelo Zuffo
mkzuffo@lsi.usp.br
62 Revista de Radiodifuso v. 07 n. 08 2013
Pesquisas em ambientes digitais - TV Internet Radio Cinema

MODELO DE ANLISE DA AUDINCIA BASEADO NO CONTEXTO

Valdecir Becker
1
, Marcelo Zuffo
2


1
Lavid Laboratrio de Aplicaes de Vdeo Digital, Centro de Informtica, UFPB, valdecir@ci.ufpb.br
2
LSI Laboratrio de Sistemas Integrveis, Escola Politcnica, USP, mkzuffo@lsi.usp.br


Resumo: As complexas relaes e mediaes entre
representaes mentais e os consequentes
comportamentos so subestimadas nos modelos
tradicionais de medio da audincia. Este artigo
prope um novo modelo terico, que incorpora a base
da mediao atual, e expande a anlise buscando as
origens da necessidade e da motivao da atividade
ver TV.

Palavras chave: medio da audincia, teoria da
atividade, contexto.
1. INTRODUO
As tcnicas de medio de audincia se atem a
obter dados sobre a exposio da populao a um
determinado canal ou programa. Elas no dizem
nada sobre os efeitos da exposio e nem explicam as
motivaes que levam as pessoas a escutar ou
assistir [1]. Os autores explicam que um arcabouo
para analisar os dados coletados deve possibilitar a
compreenso da complexidade sobre como as
pessoas usam a mdia televiso. Se ns soubermos o
que determina a exposio mdia, se conseguirmos
prever padres de uso que podem emergir sobre
determinadas circunstncias, ento teremos um meio
de interpretar esses nmeros.
Essa tarefa no simples. Os dois dados mais
usados pelo mercado brasileiro so: o total da
audincia e a participao. Esses dados so
completados com trs perfis de audincia usados pelo
Ibope: sexo, idade e classe social. Informaes mais
detalhadas sobre a segmentao da audincia so
ignoradas pela medio. Para publicitrios, hbitos de
consumo, gostos, hbitos, estilos de vida e uma srie
de outras variveis so muito mais importantes para o
planejamento de uma campanha do que simples
informaes sobre a composio mdia da idade e do
sexo da audincia esperada [1].
Este artigo apresenta um novo modelo terico para
subsidiar as pesquisas em audincia e projetar
medies mais focadas nas necessidades dos
anunciantes. A partir de uma anlise detalhada do
modelo terico predominante atualmente, prope a
introduo do contexto, atravs da teoria da atividade,
nos estudos e pesquisas de audincia.
2. Modelo terico baseado na exposio
Um dos modelos mais aceitos em teoria da
comunicao baseado na exposio da audincia
televiso. Autores consideram a exposio como uma
espcie de interface entre a audincia e o contedo da
mdia [1]. J a medio da audincia permite
identificar como essa interface moldada. Para tanto,
duas questes so relevantes: fatores da audincia e
fatores da mdia. Ambos podem ser subdivididos em
nveis estruturais, com uma anlise macro da
populao, e individuais, onde considerado um nvel
micro, com fatores descrevendo as pessoas e a
residncia.
2.1 Fatores da audincia
Caractersticas estruturais da audincia
A primeira caracterstica estrutural que ajuda a
moldar a exposio o tamanho e localizao da
audincia potencial. Em alguns casos, a audincia
potencial facilmente determinada, bastando
conhecer o nmero de pessoas que vivem sob o
alcance do sinal da TV. No entanto, as informaes de
cobertura do sinal no so suficientes para projetar
investimentos publicitrios ou fazer alteraes na
programao. Pegando como exemplo a implantao
da TV digital, a cidade de So Paulo tem praticamente
100% de cobertura de sinal, o que no significa que
todas as pessoas tenham adquirido receptor digital
capaz de receber esse sinal. Ou seja, a audincia
potencial da TV digital est limitada aqueles que
adquiriam o receptor e que esto dentro do raio de
cobertura do sinal.
Para evitar esse tipo de projeo equivocada,
tradicionalmente as empresas que auferem dados
sobre a exposio segmentam a audincia potencial
em grupos menores, associando dados subjetivos
como ocupao, educao e idade mdia das
pessoas que assistem TV no ponto de medio. Nos
EUA, um item importante medido pelo Instituto Nielsen
so os imigrantes de lngua espanhola, que tm
hbitos diferentes daqueles dos estadunidenses.
A segunda caracterstica estrutural determinante
para a exposio mdia a audincia disponvel.
Enquanto que a audincia potencial gera limites
fsicos para o total projetado da audincia, as rotinas
dirias das pessoas impem limites de disponibilidade
para assistir TV. Trata-se de um limite temporal, que
mostra quantas pessoas poderiam estar expostas ao
meio em um determinado momento. Geralmente, a
audincia disponvel definida como o nmero de
pessoas usando o meio em determinado momento,
podendo variar de acordo com a poca do ano, dia da
semana e horrio. Os nveis de HUT ( do ingls
Households Using Television, que representa a
quantidade de casas assistindo televiso em um dado
momento) so mais altos no inverno, final de semana
e a noite.
Pesquisas em ambientes digitais - TV Internet Radio Cinema
Revista de Radiodifuso v. 07 n. 08 2013 63
MTRICA SEM REFERNCIA BASEADA EM REDES NEURAIS
PARA AVALIAO OBJETIVA DE QUALIDADE DE VDEO DIGITAL
Wyllian Bezerra da Silva, Alexandre de Almeida Prado Pohl
Programa de Ps-Graduao em Engenharia Eltrica e Informtica Industrial (CPGEI) UTFPR, Curitiba, Brasil
wyllianbs@gmail.com, pohl@utfpr.edu.br
Resumo: Este trabalho apresenta uma mtrica sem referncia para avaliao de qualidade de vdeo digital baseada em uma rede neural artifcial que usa uma verso estendida do algoritmo de aprendizado ELM (Extreme Learning Machine). O mtodo proposto realiza o treinamento da rede neural a partir de seis caractersticas espao-temporais. Os resultados experimentais mostram que o mtodo proposto apresenta desempenho superior s mtricas de referncia completa PSNR e MS-SSIM na tarefa de predio de qualidade de vdeo. Logo, o mtodo proposto pode ser usado no monitoramento de qualidade em sistemas de transmisso e recepo de vdeo digital, tais como IPTV e TV digital.
Palavras chave: algoritmo ELM, avaliao objetiva de vdeo, mtrica sem referncia, rede neural artifcial.
1. INTRODUO
Durante os ltimos anos, a literatura tem apresentado um nmero crescente publicaes acerca de mtricas objetivas para avaliao de qualidade de vdeo para diversas aplicaes em radiodifuso ou no processamento de vdeo digital, seja na aquisio do sinal, codifcao e decodifcao, compresso, transmisso, restaurao, armazenamento, segmentao e exibio de sinais de vdeo digital [14]. A avaliao de qualidade de vdeo digital pode ser realizada por meio de mtricas subjetiva e objetiva. A primeira requer uma grande quantidade de recursos humanos e apresenta elevado custo em sua implementao [13]. Porm, as mtricas objetivas so vantajosas quando apresentam um determinado grau de correlao com as mtricas subjetivas. Logo, o desenvolvimento destas um desafo no campo de avaliao de qualidade de vdeo e imagem. Alm disso, as mtricas objetivas, devido natureza de seu critrio objetivo, independem de interao humana e so facilmente reprodutveis [3]. Dentre as mtricas objetivas destacam-se as mtricas sem referncia (No-Reference NR), pois no necessitam do vdeo de referncia no clculo de sua medida. Entretanto, estas requerem um conhecimento a priori sobre as distores em vdeo digital para que seja estabelecida uma correlao com os resultados subjetivos [3].
A maioria das mtricas NR encontradas na literatura so baseadas na avaliao de qualidade de imagens e em caractersticas relacionadas ao Sistema Visual Humano (SVH). Assim, o desenvolvimento de mtricas NR difcil, devido necessidade de emular a percepo do SVH que envolve aspectos cognitivos, emocionais e estticos relacionados ao contedo do vdeo e que so altamente dependentes do observador [4], [5].
A literatura reporta diversos esforos no desenvolvimento de mtricas para avaliao de qualidade de vdeo baseadas em redes neurais e em algoritmos de aprendizado. Babu et al. [6] apresentam uma mtrica para avaliar a qualidade de imagens comprimidas em JPEG (Joint Photographic Experts Group) por meio de um algoritmo de aprendizado de crescimento e propem o uso de uma rede neural GAP-RBF (Growing and Pruning Radial Basis Function) que usa caractersticas relacionadas ao SVH. Jiang et al. [7] desenvolveram uma mtrica NR para avaliao de qualidade de vdeo em HD (High Defnition) baseada em uma rede neural treinada pelo algoritmo BP (Back-Propagation) que usa seis caractersticas espao-temporais e a RoI (Region of Interest). Choe et al. [8] desenvolveram uma mtrica NR baseada no fuxo de bits para avaliao de qualidade de vdeo codifcado em H.264. Esta mtrica extrai caractersticas quadro a quadro e usa uma rede neural alimentada adiante (feedforward) com trs camadas. Suresh et al. [9] apresentaram uma extenso do algoritmo ELM na tarefa de avaliar a qualidade de imagens comprimidas em JPEG com base no esquema de seleo mltipla KS-ELM (K-fold selection Scheme using ELM) e no algoritmo RCGA-ELM (Real-Coded Genetic Algorithm using ELM) para seleo dos pesos de entrada e polarizaes.
Este trabalho apresenta uma verso estendida do algoritmo ELM para redes neurais SLFN (Single-hidden-Layer Feedforward Neural Networks) que implementa um simples critrio de parada na fase de treinamento. Alm disso, esse mtodo usa seis caractersticas espao-temporais de vdeos submetidos a diversas condies de distoro.
Este artigo est dividido da seguinte maneira: a Seo 2 descreve as mtricas para avaliao de qualidade de vdeo. A Seo 3 descreve o mtodo NR proposto para avalio de qualidade de vdeo digital. A Seo 4 apresenta os resultados experimentais, em que so comparados o mtodo NR proposto e duas mtricas FR. Finalmente, a Seo 5 apresenta a concluso do artigo.
2. AVALIAO DE QUALIDADE DE VDEO
O processo de avaliao de qualidade de vdeo
pode ser realizado com a aplicao de mtricas
subjetivas ou objetivas. As mtricas subjetivas
estimam a qualidade do vdeo por meio de avaliadores
humanos. Logo, exigem um alto custo, pois
necessitam de uma grande quantidade de recursos
humanos e apresentam problemas quanto aos
requisitos de imparcialidade e reprodutibilidade,
tornando-se inapropriadas em sistemas de
radiodifuso ou em provedores de contedo [10], [11].
Por outro lado, as mtricas objetivas so baseadas em
modelos matemticos, cujo objetivo produzir um
escore de qualidade que emule a percepo do SVH.
Alm disso, as mtricas objetivas requerem baixo
custo de implementao (quando comparadas com as
mtricas subjetivas) e no apresentam problemas
quanto reprodutibilidade e imparcialidade.
As mtricas objetivas para avaliao de qualidade
de vdeo podem ser classifcadas em trs categorias:
(i) mtricas de referncia completa (Full-Reference
FR); (ii) mtricas de referncia reduzida (Reduced-
Reference RR); (iii) mtricas sem referncia (NR).
2.1. Mtricas FR
As mtricas FR requerem o vdeo de referncia
(fonte) no clculo do escore de qualidade. Estas
mtricas so amplamente utilizadas no processo de
validao de mtricas RR ou NR, por meio da
comparao de desempenho defnida pelas
recomendaes do Grupo de Especialistas em
Qualidade de Vdeo (VQEG Video Quality Experts
Group) que um rgo de padronizao internacional
de mtricas subjetivas e objetivas de qualidade de
vdeo. Dentre as mtricas FR, destacam-se o PSNR
(Peak Signal-to-Noise Ratio), SSIM (Structural
SIMilarity index) [12] e MS-SSIM (Multi-Scale
Structural SIMilarity index) [13].
O PSNR uma mtrica FR baseada no erro pixel a
pixel de fcil implementao. Entretanto, apresenta
baixa correlao com o SVH [14]. A sua medida
processada sobre o erro quadro a quadro, i.e., entre o
quadro original x e o quadro y . A expresso a seguir
defne o PSNR para um conjunto de quadros F .
20
1
1
PSNR 20log ,
F
f
f f
v
F MSE



(1)
com

2
0 0
1
MSE , , , , ,
N M
f
i j
x f i j y f i j
NM

(2)
em que o termo f v igual a (2 1) k , cujo k o
nmero de bits por pixel, i.e., a componente de
luminncia do quadro f . Os termos x f ,i, j e
y f ,i, j so os valores de luminncia do quadro de
origem e degradado, respectivamente. As
componentes bidimensionais so representadas pelo
nmero de colunas N e pelo nmero de linhas M . O
termo f MSE defnido como erro quadrtico mdio
ou MSE (Mean Square Error).
A mtrica SSIM baseia-se no fato de que o SVH
fortemente adaptado para extrair informaes das
caractersticas estruturais de um quadro ou imagem.
Logo, uma medida de similaridade estrutural (ou
distoro) pode prover boa aproximao para a
qualidade perceptual de um vdeo [3, 79]. Sejam x e
y dois sinais no-negativos, em que y o sinal
degradado e x o sinal original (sem perda de
qualidade), a medida de similaridade utilizada como
um ndice quantitativo de qualidade do sinal distorcido,
ou seja, x tomado como a referncia para medir a
qualidade de y . A mtrica SSIM possui diversas
extenses, dentre as quais a verso MS-SSIM,
proposta por Wang et al. [13] que assume uma
abordagem multiescalar.
2.2. Mtricas RR
As mtricas de referncia reduzida retiram certa
quantidade de caractersticas do vdeo original (fonte),
baseadas em componentes espaciais, temporais, no
domnio da frequncia ou no fuxo de bits (bitstream).
Este tipo de mtrica amplamente utilizada no
monitoramento de transmisses em rede [17]. Neste
tipo de cenrio de aplicao, o vdeo transmitido
com uma sequncia de informao codifcada
(overhead) e no lado receptor ocorre a sua
decodifcao, seguido pelo clculo do ndice de
qualidade, o qual obtido por meio da comparao
entre a representao reduzida da informao nos
pares emissor e receptor [18]. Tipicamente, mtricas
RR so implementadas por meio de funes, divididas
em duas etapas [19]: (i) clculo do erro entre os
vdeos original e distorcido, constitudo pela diferena
de suas caractersticas, a fm de compor a
representao reduzida da informao; (ii) funo que
agrupa os erros ou diferenas para obter um ndice de
qualidade global. Algumas mtricas RR exploram
propriedades dos artefatos, por meio da extrao de
caractersticas e um modelo de parametrizao [20]
com foco em tipos especfcos de distores
(artefatos). Esta abordagem encontrada em Silva et
al. [17], cujo clculo do escore de qualidade
baseado na diferena de atividade dos coefcientes
DCT (Discrete Cosine Transform) em um macro bloco
com resoluo de 1616 pixels.
2.3. Mtricas NR
As mtricas NR extraem caractersticas
relacionadas ao SVH do vdeo distorcido, i.e., na
recepo do sinal de vdeo [14]. Tipicamente, h duas
abordagens no desenvolvimento destas mtricas: (i)
extrao dos parmetros sobre o fuxo de bits, tais
como a taxa de compresso, informaes
relacionadas ao GoP (Group of Pictures), estimao
de movimento, perfl e nvel de codifcao, bem como
o parmetro de quantizao ou QP (Quantization
Parameter) [2125]. Mtricas NR apresentam maior
complexidade quando so aplicadas em vdeo, devido
variao temporal dos quadros, contedos das
cenas e difculdade de compreenso das
caractersticas do SVH [26]. Assim, algumas mtricas
dessa categoria exploram caractersticas espaciais e
temporais na estimao de qualidade de vdeo [21].
3. MTODO PROPOSTO
O mtodo proposto, denominado NRVQA-ELMtc
(No-Reference Video Quality Assessment using
Extreme Learning Machine algorithm with termination
criteria) [27] combina caractersticas espaciais e
temporais, por meio de uma rede neural artifcial
SLFNs usando o algoritmo de treinamento ELM [28]
com a implementao de um simples critrio de
parada.
3.1. Caractersticas espao-temporais
As caractersticas espaciais incorporadas no
mtodo proposto so baseadas em medidas de
artefatos em vdeo digital, i.e., distores de blocagem
e borramento desenvolvidas por Wang et al. [20].
Assim, a componente de luminncia do quadro f
representada por y(f , i, j ) com i 1,M e j 1, N ,
em que M e N so os nmeros de linhas e colunas,
respectivamente, de um quadro. Logo, as diferenas
de luminncia ao longo das linhas e colunas so
representadas, respectivamente, pelas expresses a
seguir.


, , , , 1 , , , 1, 1 ,
, , , 1, , , , 1, 1 .
h
v
d f i j y f i j y f i j j N
d f i j y f i j y f i j i M


(3)
O efeito de blocagem pode ser estimado pela
mdia das diferenas entre as bordas dos blocos da
DCT (Discrete Cosine Transform) nas direes
horizontal e vertical para uma sequncia F de
quadros, conforme mostra a Equao (4), com um
macrobloco de dimenso , cujo tamanho tpico
de 8 [20].


1
1
1 1 1
1
1
1 1 1
1
, , 1 ,
1
1
1
, 1 , .
1
1
N
F M
h h
f i j
M
F N
v
i j
v
f
B d f i j
N
F M
B d f i j
M
F N












(4)
A medida de blocagem em uma sequncia de
vdeo com F quadros determinada pela mdia entre
h B e v B , caracterizando a medida B , conforme a
expresso a seguir.
.
2
h v B B
B

(5)
Os efeitos de borramento so estimados pelo
clculo da reduo de atividade entre os blocos ,
em que usada a medida de blocagem nas direes
horizontal e vertical, conforme as expresses




1
1 1 1
1
1 1 1
, , ,
1 1
, ,
1
.
1
F M N
h h h
f i j
F M N
v v
f
v
i j
A d f i j B
F M N
A d f i j B
F N M








(6)
A medida de borramento, representada por A ,
conforme a Equao (7), determinada pela mdia
entre h A e v A .
.
2
h v A A
A

(7)
O segundo fator que contribui para a deteco do
artefato de borramento baseado na taxa de
cruzamento por zero (Zero Crossing ZC) nas
direes horizontal e vertical, conforme as expresses
a seguir.




2
1 1 1
2
1 1 1
1
, , ,
2
1
, , ,
2
F M N
h h
f i j
F M N
v v
f i j
Z z f i j
F M N
Z z f i j
F N M




(8)
em que os termos h z e v z so determinados por


1, na direo horizontal
, , ,
0, caso contrrio
1, na direo vertical
, , .
0, caso contrrio
h
v
z f i j
z f i j



(9)
Assim, a medida de borramento Z determinada
pela mdia entre as componentes h Z e v Z .
.
2
h v Z Z
Z

(10)
O mtodo proposto tambm incorpora trs
caractersticas temporais no treinamento da rede
neural SLFN com o algoritmo ELM.
A primeira caracterstica temporal a diferena de
movimento entre quadros adjacentes, representada
pela varivel TI (Temporal perceptual Information) [31]
que considera os valores de luminncia de pixels
localizados em uma mesma regio de um quadro,
conforme a expresso a seguir.

2
1
, , ,
1
F
f
TI m f i j
F


(11)
em que o nmero total de quadros F e mf ,i, j

o desvio padro da diferena de movimento
(diferena de luminncia) entre o quadro atual
y f ,i, j e o quadro anterior y f 1,i, j .
A segunda caracterstica temporal a mdia da
diferena absoluta (Mean Absolute Diference MAD)
[31] entre quadros sucessivos, representada pela
Equao (12) que defne a medida global da MAD
para todos os quadros de um vdeo.


2 1 1
1
, , 1, , .
1
F M N
f i j
MAD y f i j y f i j
M N F



(12)
A terceira caracterstica temporal a mdia da
diferena absoluta ponderada (weighted Mean
Absolute Diference MADw) [32], a qual mede o grau
de variao das cenas de um vdeo que considera a
cena atual de um quadro f e do quadro anterior f 1,
conforme a expresso:
2 1
1
.
1
F
f
f f
MAD
MADw
F MAD


(13)
Assim, o mtodo proposto combina as
caractersticas espaciais e temporais em uma matriz
, , , , , f f f f f f f x A B Z TI MAD MADw , em que f o
nmero de amostras de vdeo. A Figura 1 apresenta
as caractersticas temporais espaciais de dezessete
bases de dados de vdeos (denominada superconjunto
S) usadas neste trabalho e reportadas em [27]. A
recomendao ITU-T P.910 [31] defne a medida SI
(Spatial perceptual Information) como informao
espacial perceptual. A inspeo visual dessa fgura
mostra que as amostras de vdeo usadas neste
trabalho apresentam uma grande variao espaotemporal.
Fig. 1. Caractersticas espaciais e temporais do superconjunto
S com 216 amostras de referncia
3.2. Mtrica NRVQA-ELMtc
O algoritmo ELM [28] desenvolvido para o
treinamento de uma rede SLFN atribui pesos e
polarizaes (biases) de maneira aleatria, segundo
uma distribuio uniforme. O treinamento compreende
N amostras distintas representadas pela varivel
, , , 1, , n m
f f f f x t x t f N , cujo clculo
conforme a expresso

1
, 1, , ,
K
K i j j f j f
f
f g b f N

x w x o (14)
em que f o a sada (escore objetivo), g(x) a
funo de ativao e j o peso que conecta o jsimo
neurnio da camada oculta ao neurnio de
sada. De acordo com [28], uma rede SLFN com K
ns na camada oculta e uma funo de ativao g(x)
pode apresentar um erro mdio prximo de zero, i.e.,
1
0
K
f f
f
o t . Logo, h parmetros j , j w e j b tal
que

1
, 1, , ,
K
j j f j f
f
g b f N

w x t (15)
em que f t o vetor alvo (escores subjetivos),
T
1, , j j jn w w w o vetor de peso que conecta o jsimo
neurnio da camada oculta ao neurnio da
camada de entrada, j b denota a polarizao (bias) do
j-simo neurnio da camada oculta, j f w x o
produto interno de j w e f x . A Figura 2 ilustra o
algoritmo ELM empregado em uma arquitetura de
rede neural SLFN.
xi
1
j
N
1
j
K
ti
bj
N input neuron K hidden neuron output neuron
1
K
wj
Fig. 2. Arquitetura de uma rede neural SLFN usando algoritmo
de treinamento ELM
O sistema linear da Equao (16) resume o mtodo
do algoritmo ELM.
H T, (16)
em que a matriz da camada oculta representada por
1, , and 1, , f H h f N j K com a primeira
linha da matriz de caractersticas f x igual a
T
1 2 , , , f f f fn x x x x , i.e., a primeira linha igual a
1 1 1 1 1 1 1 , , , , , f f f f f f f x A B Z TI MAD MADw . A matriz de
sada e o vetor alvo (target) so defnidos como
T
1 , K e
T
1, , N T t t , respectivamente. O
termo
T
1 , 1, , j jm j j K denota o vetor de
peso que conecta o j-simo neurnio da camada
oculta e os neurnios de sada. Hung et al. [28]
propuseram a atribuio aleatria de pesos aos
parmetros j w e j b , a fm de seja obtido um pequeno
erro no-nulo durante o treinamento. Considerando o
sistema linear da Equao (17), os pesos da camada
de sada podem ser aproximados por
H T (17)
em que H defnida como matriz inversa
generalizada de Moore-Penrose (MP) [33] da matriz
de sada da camada oculta H . Alm disso, o
conjunto de treinamento , n oculta K e uma
funo de ativao g x , e.g., funo de base radial
(Radial Basis Function RBF), hard-limiting (hardlim),
sigmoidal (sig) e seno (sin). Em resumo, o algoritmo
ELM compreende trs etapas [28]:
i) Atribuio aleatria dos pesos de entrada j w e
polarizaes j b ;
ii) Clculo da matriz da camada de sada H ;
iii) Clculo dos pesos de sada : H T .
O mtodo NRVQA-ELMtc [27] implementa um
simples critrio de parada no treinamento da rede
neural SLFN, quanto atribuio aleatria dos pesos
j w e j b . Embora este critrio no seja direcionado,
busca os pesos relacionados com o menor RMSE
(Root-Mean-Square Error) entre a sada desejada
(escore subjetivo) e o escore objetivo na fase de
treinamento com k iteraes (tipicamente, k 100 ) e
N neurnios na camada oculta. Alm disso, conforme
estudo realizado em [27], caso o RMSE seja menor do
que 0,5 o algoritmo cessa a busca pelos parmetros
j w e j b .
4. RESULTADOS EXPERIMENTAIS
Esta seo apresenta os resultados de acurcia,
i.e., os coefcientes de correlao linear de Pearson
(Pearson Linear Correlation Coefcient PLCC) [34],
[35], entre os escores objetivos e subjetivos de 2627
amostras de vdeo estudadas em [27].
A Figura 3 compara a acurcia (PLCC) entre as
mtricas de referncia completa (FR) PSNR e MSSSIM
com o mtodo proposto (NRVQA-ELMtc) para
as 2627 amostras de vdeo, pertencentes a 17 bases
de dados de vdeo disponibilizadas por diversas
instituies e laboratrios [27]. A funo de ativao
usada na rede neural SLFN foi o seno (sin) com o
nmero de amostras de teste igual ao nmero de
neurnios na camada oculta ( N ). O mtodo de
validao cruzada mltipla (K-fold) foi usado com o
objetivo de gerar uma distribuio de acurcia, a qual
foi analisada por meio do diagrama de caixa (box-plot)
[36], em que o trao, o crculo e o quadrado, ambos
em vermelho, representam a mediana, a mdia e o
desvio padro, respectivamente. Destaca-se que
neste trabalho foi empregada uma validao cruzada
com um grande nmero de amostras de treinamentoteste
com K 100 , i.e., cada caixa do box-plot
comporta 100 experimentos distintos. Tipicamente, a
literatura apresenta trabalhos no campo da avaliao
Fig. 3. Box-plot da predio da acurcia (PLCC) entre as mtricas PSNR, MS-SSIM e o mtodo proposto NRVQA-ELMtc
de qualidade de vdeo com K entre 5 e 10 [37], [38].
Pela inspeo visual da Figura 3 observa-se que o
desempenho do mtodo proposto superior s
mtricas FR, em quaisquer condies de teste, i.e.,
para qualquer quantidade de amostras de teste
(nmero de neurnios na camada oculta) entre 25 e
500. Em especial, para N 50 , o mtodo proposto
apresenta valores de PLCC, em termos da mdia e
mediana, acima de 0,8, denotando uma forte
associao entre os escores objetivos e subjetivos, na
tarefa de predio de qualidade de vdeo. Isto ocorre
devido grande quantidade de amostras de vdeo
usadas no treinamento, e.g., para N 300 foram
usadas 2327 amostras de treinamento, ou seja,
mesmo usando pares de treinamento-teste disjuntos,
o mtodo proposto mostra uma acurcia superior s
mtricas de referncia completa. A assimetria positiva,
i.e., a maior concentrao da acurcia entre o
segundo quartil (mediana) e o terceiro quartil, na
distribuio do box-plot nos testes com 300 e 500
neurnios na camada oculta, indica que o mtodo
proposto apresenta um desempenho expressivo em
comparao com as mtricas FR.
Entretanto, mesmo para N entre 25 e 50, o
mtodo proposto apresentou uma acurcia maior do
que as mtricas FR, cujo melhor resultado foi para
N 25 com o desvio-quartil (amplitude interquartlica)
confnado entre 0,65 e 0,8. Alm disso, este resultado
tambm apresentou assimetria positiva com a mdia
do PLCC em torno de 0,75.
5. CONCLUSO
Este trabalho apresentou uma mtrica NR baseada
em uma rede neural artifcial SLFN, cujo treinamento
determinado pelo algoritmo ELM, o qual considera
caractersticas espao-temporais e os escores
subjetivos (alvos) extrados de 2627 amostras
treinamento. Alm disso, este trabalho prope uma
extenso do algoritmo ELM por meio de um simples
critrio de parada, a fm de que sejam obtidos
parmetros da rede neural artifcial relacionados com
o menor RMSE. Tipicamente, a comparao entre
mtricas FR e NR injusta, devido ausncia do
vdeo de referncia na obteno do escore de
qualidade em mtricas NR. Entretanto, os resultados
experimentais mostram que o mtodo proposto
apresentou desempenho superior s mtricas de
referncia completa PSNR e MS-SSIM, sobretudo,
quando o nmero de amostras de teste e de neurnios
na camada oculta da rede SLFN maior do que 250.
Logo, a mtrica NRVQA-ELMtc pode ser empregada
no monitoramento de qualidade em sistemas de
transmisso e recepo de vdeo digital, tais como
IPTV (Internet Protocol Television), TV digital ou em
dispositivos mveis, tais como ultrabooks,
smartphones, tablets e em aparelhos WiDi (Wireless
Display).
REFERNCIAS
[1] S. Winkler, Issues in vision modeling for perceptual
video quality assessment, Signal Processing, vol. 78,
no. 2, pp. 231252, 1999.
[2] Z. Wang and A. C. Bovik, Modern image quality
assessment. San Rafael, CA: Morgan & Claypool,
2006.
[3] W. Lin and C.-C. Jay Kuo, Perceptual visual quality
metrics: A survey, Journal of Visual Communication
and Image Representation, vol. 22, no. 4, pp. 297312,
May 2011.
[4] S. S. Hemami and A. R. Reibman, No-reference image
and video quality estimation: Applications and humanmotivated
design, Signal Processing: Image
Communication, vol. 25, no. 7, pp. 469481, 2010.
[5] Z. Wang and A. Bovik, Reduced- and No-Reference
Image Quality Assessment, IEEE Signal Processing
Magazine, vol. 28, no. 6, pp. 2940, Nov. 2011.
[6] R. V. Babu, S. Suresh, and A. Perkis, No-reference
JPEG-image quality assessment using GAP-RBF,
Signal Processing, vol. 87, no. 6, pp. 14931503, 2007.
[7] X. Jiang, F. Meng, J. Xu, and W. Zhou, No-Reference
Perceptual Video Quality Measurement for High
Defnition Videos Based on an Artifcial Neural
Network, in Computer and Electrical Engineering,
2008. ICCEE 2008. International Conference on, 2008,
pp. 424427.
[8] J. Choe, K. Lee, C. Lee, and S. Korea, No-reference
video quality measurement using neural networks, in
2009 16th International Conference on Digital Signal
Processing, 2009, pp. 14.
[9] S. Suresh, R. Venkatesh Babu, and H. J. Kim, Noreference
image quality assessment using modifed
extreme learning machine classifer, Applied Soft
Computing, vol. 9, no. 2, pp. 541552, Mar. 2009.
[10] A. M. Eskicioglu and P. S. Fisher, Image quality
measures and their performance, IEEE Transactions
on Communications, vol. 43, no. 12, pp. 29592965,
1995.
[11] U. Engelke and H.-J. Zepernick, Perceptual-based
Quality Metrics for Image and Video Services: A
Survey, in Proceedings EuroNGI Conf. Next
Generation Internet Networks, 2007, pp. 190197.
[12] Z. Wang, A. C. Bovik, H. R. Sheikh, and E. P
Simoncelli, Image quality assessment: from error
visibility to structural similarity., IEEE Transactions on
Image Processing, vol. 13, no. 4, pp. 600612, 2004.
[13] Z. Wang, E. P. Simoncelli, and A. C. Bovik, Multiscale
structural similarity for image quality assessment, in
The Thrity-Seventh Asilomar Conference on Signals,
Systems & Computers, 2003, 2003, vol. 2, no. 1, pp.
13981402.
[14] H. R. Wu, K. R. Rao, and A. A. Kassim, Digital Video
Image Quality and Perceptual Coding, Journal of
Electronic Imaging, vol. 16, no. 3, 2007.
[15] Z. Wang and A. C. Bovik, A universal image quality
index, IEEE Signal Processing Letters, vol. 9, no. 3,
pp. 8184, Mar. 2002.
[16] Y. Shi, Y. Ding, R. Zhang, and J. Li, Structure and Hue
Similarity for Color Image Quality Assessment, in 2009
International Conference on Electronic Computer
Technology, 2009, pp. 329333.
[17] W. B. Silva, A. A. P. Pohl, and K. V. O. Fonseca, A
Reduced-Reference Video Quality Assessment Method
based on the Activity-Diference of DCT Coefcients,
IEICE Transactions on Information and Systems, vol. E96-D, no. 3, 2013.
[18] P. Le Callet, C. Viard-Gaudin, and D. Barba, A Convolutional Neural Network Approach for Objective Video Quality Assessment, IEEE Transactions on Neural Networks, vol. 17, no. 5, pp. 13161327, 2006.
[19] P. Le Callet and D. Barba, Image Quality Assessment: From Sites Errors to a Global Appreciation of Quality, in Proceedings of the Picture Coding Sympsium, 2001, pp. 105108.
[20] M. Miyahara, K. Kotani, and V. R. Algazi, Objective picture quality scale (PQS) for image coding, IEEE Transactions on Communications, vol. 46, no. 9, pp. 12151226, 1998.
[21] M. Slanina, V. Ricny, and R. Forchheimer, A Novel Metric for H.264/AVC No-Reference Quality Assessment, in 14th International Workshop on Systems, Signals and Image Processing and 6th EURASIP Conference focused on Speech and Image Processing, Multimedia Communications and Services, 2007, pp. 114117.
[22] O. Sugimoto, S. Naito, S. Sakazawa, and A. Koike, Objective perceptual video quality measurement method based on hybrid no reference framework, in 16th IEEE International Conference on Image Processing (ICIP09), 2009, pp. 22372240.
[23] T. Oelbaum, C. Keimel, and K. Diepold, Rule-Based No-Reference Video Quality Evaluation Using Additionally Coded Videos, IEEE Journal of Selected Topics in Signal Processing, vol. 3, no. 2, pp. 294303, 2009.
[24] N. Staelens, N. Vercammen, Y. Dhondt, B. Vermeulen, P. Lambert, R. de Walle, and P. Demeester, ViQID: A No-Reference bit stream-based visual quality impairment detector, in Proceedings of the Second Int Quality of Multimedia Experience (QoMEX) Workshop, 2010, pp. 206211.
[25] F. Yang, S. Wan, Q. Xie, and H. R. Wu, No-Reference Quality Assessment for Networked Video via Primary Analysis of Bit Stream, IEEE Transactions on Circuits and Systems for Video Technology, vol. 20, no. 11, pp. 15441554, Nov. 2010.
[26] Z. Wang, H. R. Sheikh, and A. C. Bovik, Objective Video Quality Assessment, in The Handbook of Video Databases: Design and Applications, B. Furht and O. Marques, Eds. Boca Raton, FL, USA: CRC Press, 2003, pp. 10411078.
[27] W. B. da Silva and A. de A. P. Pohl, Mtodos Sem Referncia Baseados em Caractersticas Espao-Temporais para Avaliao Objetiva de Qualidade de Vdeo Digital, Universidade Tecnolgica Federal do Paran (UTFPR), 2013.
[28] G.-B. Huang, Q.-Y. Zhu, and C.-K. Siew, Extreme learning machine: Theory and applications, Neurocomputing, vol. 70, no. 13, pp. 489501, Dec. 2006.
[29] Z. Wang, H. R. Sheikh, and A. C. Bovik, No-reference perceptual quality assessment of JPEG compressed images, in Image Processing. 2002. Proceedings. IEEE International Conference on Image Processing, 2002, vol. 1, pp. vol.1 I477 I480.
[30] W. B. Silva and A. A. P. Pohl, No-Reference Video Quality Assessment Method based on the Levenberg-Marquardt Minimization, in XXX Brazilian Symposium on Telecommunications (SBrT12), 2012.
[31] ITU-T P.910, Subjective video quality assessment methods for multimedia applications, Standardization Sector of ITU, 1999.
[32] W. Ding, Y. Tong, Q. Zhang, and D. Yang, Image and Video Quality Assessment Using Neural Network and SVM, Tsinghua Science &amp; Technology, vol. 13, no. 1, pp. 112116, 2008.
[33] K. S. Banerjee, C. R. Rao, and S. K. Mitra, Generalized Inverse of Matrices and Its Applications, Technometrics, vol. 15, no. 1, p. 197, Feb. 1973.
[34] VQEG, Final report from the video quality experts group on the validation of reduced-reference and no-reference objective models for standard defnition television, Phase I, 2009.
[35] VQEG, Report on the validation of video quality models for high defnition video content, 2010.
[36] J. W. Tukey, Exploratory Data Analysis. New York: Addison-Wesley Publishing Company, 1977.
[37] P. Gastaldo and R. Zunino, Neural networks for the no-reference assessment of perceived quality, J. Electronic Imaging, vol. 14, no. 3, p. 033004, 2005.
[38] R. Herzog, M. adk, T. O. Aydn, K. I. Kim, K. Myszkowski, and H.-P. Seidel, NoRM: No-Reference Image Quality Metric for Realistic Image Synthesis, Comp. Graph. Forum, vol. 31, no. 2pt4, pp. 545554, 2012.
2

No Brasil dois fatores que influenciam
consideravelmente so o horrio de vero e
propagandas eleitorais. No entanto, atualmente no
existem pesquisas regulares sobre a composio da
audincia disponvel [1].

Caractersticas individuais da audincia
Do ponto de vista micro, o maior impacto na
exposio originado pelas preferncias pessoais das
pessoas. neste ponto que reside a maior dificuldade
em explicar e analisar os ndices de audincia.
Hbitos, costumes, gostos, e demais preferncias
podem mudar com o passar do tempo ou
simplesmente no ter nenhum padro mensurvel [1].
O segundo ponto a audincia em grupo, onde a
escolha da programao normalmente feita por
lderes (entre amigos) ou chefes (famlia), podendo
gerar atritos. Dificilmente a opinio de todos ser a
mesma referente programao disponvel. Por falar
em programao disponvel, o terceiro e ltimo item
que interfere sob a tica micro a conscincia sobre a
programao que pode ser sintonizada. Pessoas se
acostumam a ver determinada programao e no
buscam mais informaes sobre outras opes,
limitando ou mesmo acabando com as escolhas.
2.2 Fatores da mdia
Caractersticas estruturais da mdia
A primeira caracterstica estrutural est relacionada
cobertura. Ou seja, ela que vai definir se uma
pessoa est apta ou no para sintonizar determinado
canal. Alm disso, o horrio da programao tambm
interfere nas escolhas. Programas transmitidos em
horrios onde a audincia no est disponvel, como
nas madrugadas ou horrios de trabalho, dificultam a
obteno de bons ndices. Alm disso, uma pessoa
pode ter interesse em dois programas que esto
passando no mesmo horrio, em canais diferentes.
Nesse caso, por imposio da grade de programao,
ela ter que escolher um dos dois para assistir.

Ambientes individuais da mdia
A cobertura e a grade de programao esto fora
do controle dos telespectadores. No entanto, novas
tecnologias permitem interferir um pouco nesse
ambiente, aceitando audincias fora do tempo de
transmisso (time-shift) e oferecidos por outros meios,
como a internet.
Dessa forma, a primeira considerao sobre este
ambiente se refere s tecnologias que o telespectador
possui. Acesso internet, dispositivos de acesso
mvel, gravadores digitais, entre outros, podem
determinar uma exposio diferente quela esperada
pela emissora. Efeito semelhante aconteceu com a
introduo do controle remoto, que incentivou o
zapping, reduzindo a exposio aos intervalos
comerciais, e consequentemente, s chamadas.
Atualmente, tecnologias digitais de gravao permitem
que os intervalos comerciais sejam pulados,
aumentando a importncia do apelo dos comerciais,
que comeou a ser questionado com a difuso dos
videocassetes.
Alm disso, a disseminao de receptores HDTV
tende a fazer com que os telespectadores prefiram
programas gerados nesta resoluo. Isso reduz o
leque de opes e de escolhas. O mesmo ocorre com
TVs conectadas internet, que oferecem opes
adicionais de contedos, provenientes de portais de
internet e de sites de compartilhamento de vdeos
gerados pelos usurios.
Outro fator determinante o acesso a servios de
TV por assinatura e outras formas de lazer e de
informao, como revistas, jornais e livros. So
tecnologias e servios que competem pelo tempo
disponvel das pessoas. Enquanto uma pessoa est
lendo ou navegando, a ateno no est totalmente
voltada TV, mesmo que ela esteja ligada. Opes de
programas em pay per view, ao vivo ou lanados
recentemente, tendem a ser mais atrativos,
despertando interesse maior do que contedos e
grades com programao gravada e mais antiga.
O Instituto Nielsen divulgou um estudo sobre o
comportamento dos telespectadores nos EUA em
2010, onde 60% deles usam a internet enquanto
assistem TV. Na verdade, eles gastam, em mdia, trs
horas e meia por ms fazendo as duas atividades
simultaneamente; um aumento de 35% em relao ao
ano anterior. Muitos telespectadores enviam
mensagens de texto pelo celular ou postam em redes
sociais, como Twitter, enquanto esto vendo a
programao. Como exemplo, durante o MTV Video
Music Awards, em setembro, 2,3 milhes de tweets se
referiam a artistas recebendo prmios [2].
Finalmente, na TV por assinatura, um dado
relevante est no repertrio de canais favoritos criado
pelos assinantes. Cada telespectador tem uma
seleo de canais mais assistidos, que varia conforme
o nmero de canais disponvel. Quanto maior a
disponibilidade, maior a lista de canais favoritos. Esse
repertrio limita o zapping e o acesso a programas de
canais fora da lista.
O acesso a tecnologias e outros servios de laser e
informao, como TV por assinatura, jornais, revistas
e internet est diretamente relacionado ao poder
aquisitivo da populao. A primeira vista, pode-se
concluir que pessoas com maior poder aquisitivo
tendem a ver menos televiso. No entanto, essa
relao no fica clara nos ndices de audincia.
Sintetizando o raciocnio, a Figura 1 apresenta o
modelo descrito pelos autores [1].
3. Problemas e limitaes do modelo
Este modelo, baseado na exposio, guia as
medies de audincia atualmente. No entanto, os
prprios autores reconhecem que o modelo limitado,
pois define a exposio como resultado, mas no as
causas, os fatores [1]. Alm disso, h uma
contradio quando os autores apontam a importncia
em conhecer as motivaes que movem a audincia,
mas no indicam como identific-las. O modelo no
64 Revista de Radiodifuso v. 07 n. 08 2013
Pesquisas em ambientes digitais - TV Internet Radio Cinema

compreende o que gera interesse no entretenimento e
demanda na informao.


Figura 1: Modelo baseado na exposio [1].

O modelo falha ao simplesmente apontar fatores
estruturais e individuais que podem interferir na
exposio. A partir das hipteses levantadas, no
possvel criar relaes de causa e efeito sobre os
aspectos individuais. Por exemplo, a disponibilidade
afeta as opes de escolha, mas no guia a
audincia. Se por um lado, canais indisponveis no
podem ser sintonizados, por outro, a presena deles
no significa que sejam vistos. No Brasil os canais
mais assistidos na TV paga so os abertos. Ou seja, o
oferecimento de um leque maior de escolhas no
repercute diretamente em alteraes significativas nos
ndices de audincia.
A localizao mencionada superficialmente, mas
sem entrar no mrito das necessidades comerciais e
publicitrias de dirigir uma mensagem a um pblico
especfico, delimitado geograficamente. Essa
localizao fica mais importante com a recepo
mvel e porttil, onde o movimento pode afetar os
interesses sobre a programao. Pessoas em trnsito
podem ter interesse em programas sobre situao das
ruas; se estiverem dentro de um metr ou nibus o
interesse pode estar voltado para programas de
variedades ou novelas, que ajudem a passar o tempo
rapidamente.
Finalmente, se compararmos a previso deste
modelo com as tcnicas e anlises utilizadas,
podemos perceber que os problemas so ainda
maiores. H um espao grande entre o que prope o
modelo e o que praticado no mercado. H modelos
tericos no compreendidos pelas anlises, e
mtodos no explicados teoricamente. A forma como
os dados do Ibope so utilizados pelas agncias de
publicidade e pelos diretores de programao das
emissoras no consta nos livros. O que considerado
importante nesta anlise mantido em sigilo dentro
das empresas, justificado muitas vezes como feeling
do publicitrio ou do diretor.
4 Modelo baseado no contexto
O objetivo maior da pesquisa de audincia
identificar o tamanho, visando estabelecer preos. A
composio fica em segundo plano. J a motivao
descartada completamente. Hoje, o simples fato da TV
estar ligada resulta em ndices de audincia. Ou seja,
a pessoa que chega em casa e liga a TV
simplesmente para evitar o silncio tem o mesmo
peso nos ndices do que o telespectador assduo, que
no perde sequer um intervalo comercial durante a
novela.
Alm disso, telespectadores engajados na
audincia, que comentam sobre o contedo e trazem
mais pessoas para a programao, no so
identificados. Ns deveramos perguntar no o que a
mdia faz com as pessoas, mas o que as pessoas
fazem com a mdia [3]. Poderamos incluir nesta
sugesto como elas fazem. A forma como as
pessoas assistem televiso altera a percepo de
valor do contedo. Sobre esse aspecto, ver TV em
casa, na sala de estar, no quarto ou no nibus
desperta nveis de interesse diferentes em cada
situao. Conhecer e quantificar essa diferena
importante para anunciantes e diretores de
programao.
4.1 A TV como mediadora
A televiso conta histrias. Ao contar histrias, ela
dialoga, conversa com as pessoas. Toda programao
televisiva baseada no dilogo com a audincia,
predominando uma busca por uma aproximao e
identificao da vida retratada na tela com o
quotidiano das pessoas. A tecnologia, seja o aparelho,
o controle remoto ou o computador utilizado para ver
vdeos, simplesmente media essas histrias, fazendo
a ponte entre o que o diretor quer contar e como o
telespectador percebe e entende o enredo.
Os telejornais so organizados para que despertem
a ateno no incio, com manchetes de notcias
chocantes, seguidas de informaes mais suaves. As
notcias so formatadas a partir de uma histria
central, onde pessoas afetadas desempenham o papel
de personagens envoltos na situao. Temas
distantes da compreenso da mdia das pessoas,
como problemas no oriente mdio ou economia
norteamericana, so tratados como simples relaes
de personagens, afetados por uma bomba ou pela
perda da casa, algo comum de ser compreendido por
qualquer pessoa.
Se o foco da notcia for local, como um acidente de
trnsito ou o resultado de algum jogo de futebol, os
personagens so apresentados como velhos
conhecidos. A emoo predomina, com pessoas
chorando, tristes ou comemorando alegremente.
Afinal, todos conhecem algum envolvido em um
acidente ou tem familiaridade com a sensao de
vitria ou de derrota em uma competio esportiva.
O mesmo vlido para documentrios e grandes
reportagens, que partem de boas histrias para
ancorar uma linha de raciocnio. Seja com temas
naturais ou dramas sociais, a sequncia narrativa
Fatores de Audincia

Estrutural
Audincia Potencial
Audincia Disponvel
Individual
Preferncias
Configuraes de
Grupos Vs. Uso
Solitrio
Conscincia das
Opes
Exposio
Medies Brutas
ndices de Audincia
Market Share
Circulao
Acessos a websites
Vendas Totais
Cumulativas
Cume
Alcance
Frequncia
Audincia
duplicada
Fatores de Mdia

Estrutural
Cobertura
Opes de
Contedo
Individual
Tecnologias
possudas
Assinaturas
Repertrios
Desenvolvimento de tecnologias, programao e estratgias, a longo prazo
Desenvolvimento de gostos, expectativas e hbitos, a longo prazo
Pesquisas em ambientes digitais - TV Internet Radio Cinema
Revista de Radiodifuso v. 07 n. 08 2013 65
MTRICA SEM REFERNCIA BASEADA EM REDES NEURAIS
PARA AVALIAO OBJETIVA DE QUALIDADE DE VDEO DIGITAL
Wyllian Bezerra da Silva, Alexandre de Almeida Prado Pohl
Programa de Ps-Graduao em Engenharia Eltrica e Informtica Industrial (CPGEI) UTFPR, Curitiba, Brasil
wyllianbs@gmail.com, pohl@utfpr.edu.br
Resumo: Este trabalho apresenta uma mtrica sem referncia para avaliao de qualidade de vdeo digital baseada em uma rede neural artifcial que usa uma verso estendida do algoritmo de aprendizado ELM (Extreme Learning Machine). O mtodo proposto realiza o treinamento da rede neural a partir de seis caractersticas espao-temporais. Os resultados experimentais mostram que o mtodo proposto apresenta desempenho superior s mtricas de referncia completa PSNR e MS-SSIM na tarefa de predio de qualidade de vdeo. Logo, o mtodo proposto pode ser usado no monitoramento de qualidade em sistemas de transmisso e recepo de vdeo digital, tais como IPTV e TV digital.
Palavras chave: algoritmo ELM, avaliao objetiva de vdeo, mtrica sem referncia, rede neural artifcial.
1. INTRODUO
Durante os ltimos anos, a literatura tem apresentado um nmero crescente publicaes acerca de mtricas objetivas para avaliao de qualidade de vdeo para diversas aplicaes em radiodifuso ou no processamento de vdeo digital, seja na aquisio do sinal, codifcao e decodifcao, compresso, transmisso, restaurao, armazenamento, segmentao e exibio de sinais de vdeo digital [14]. A avaliao de qualidade de vdeo digital pode ser realizada por meio de mtricas subjetiva e objetiva. A primeira requer uma grande quantidade de recursos humanos e apresenta elevado custo em sua implementao [13]. Porm, as mtricas objetivas so vantajosas quando apresentam um determinado grau de correlao com as mtricas subjetivas. Logo, o desenvolvimento destas um desafo no campo de avaliao de qualidade de vdeo e imagem. Alm disso, as mtricas objetivas, devido natureza de seu critrio objetivo, independem de interao humana e so facilmente reprodutveis [3]. Dentre as mtricas objetivas destacam-se as mtricas sem referncia (No-Reference NR), pois no necessitam do vdeo de referncia no clculo de sua medida. Entretanto, estas requerem um conhecimento a priori sobre as distores em vdeo digital para que seja estabelecida uma correlao com os resultados subjetivos [3].
A maioria das mtricas NR encontradas na literatura so baseadas na avaliao de qualidade de imagens e em caractersticas relacionadas ao Sistema Visual Humano (SVH). Assim, o desenvolvimento de mtricas NR difcil, devido necessidade de emular a percepo do SVH que envolve aspectos cognitivos, emocionais e estticos relacionados ao contedo do vdeo e que so altamente dependentes do observador [4], [5].
A literatura reporta diversos esforos no desenvolvimento de mtricas para avaliao de qualidade de vdeo baseadas em redes neurais e em algoritmos de aprendizado. Babu et al. [6] apresentam uma mtrica para avaliar a qualidade de imagens comprimidas em JPEG (Joint Photographic Experts Group) por meio de um algoritmo de aprendizado de crescimento e propem o uso de uma rede neural GAP-RBF (Growing and Pruning Radial Basis Function) que usa caractersticas relacionadas ao SVH. Jiang et al. [7] desenvolveram uma mtrica NR para avaliao de qualidade de vdeo em HD (High Defnition) baseada em uma rede neural treinada pelo algoritmo BP (Back-Propagation) que usa seis caractersticas espao-temporais e a RoI (Region of Interest). Choe et al. [8] desenvolveram uma mtrica NR baseada no fuxo de bits para avaliao de qualidade de vdeo codifcado em H.264. Esta mtrica extrai caractersticas quadro a quadro e usa uma rede neural alimentada adiante (feedforward) com trs camadas. Suresh et al. [9] apresentaram uma extenso do algoritmo ELM na tarefa de avaliar a qualidade de imagens comprimidas em JPEG com base no esquema de seleo mltipla KS-ELM (K-fold selection Scheme using ELM) e no algoritmo RCGA-ELM (Real-Coded Genetic Algorithm using ELM) para seleo dos pesos de entrada e polarizaes.
Este trabalho apresenta uma verso estendida do algoritmo ELM para redes neurais SLFN (Single-hidden-Layer Feedforward Neural Networks) que implementa um simples critrio de parada na fase de treinamento. Alm disso, esse mtodo usa seis caractersticas espao-temporais de vdeos submetidos a diversas condies de distoro.
Este artigo est dividido da seguinte maneira: a Seo 2 descreve as mtricas para avaliao de qualidade de vdeo. A Seo 3 descreve o mtodo NR proposto para avalio de qualidade de vdeo digital. A Seo 4 apresenta os resultados experimentais, em que so comparados o mtodo NR proposto e duas mtricas FR. Finalmente, a Seo 5 apresenta a concluso do artigo.
2. AVALIAO DE QUALIDADE DE VDEO
O processo de avaliao de qualidade de vdeo
pode ser realizado com a aplicao de mtricas
subjetivas ou objetivas. As mtricas subjetivas
estimam a qualidade do vdeo por meio de avaliadores
humanos. Logo, exigem um alto custo, pois
necessitam de uma grande quantidade de recursos
humanos e apresentam problemas quanto aos
requisitos de imparcialidade e reprodutibilidade,
tornando-se inapropriadas em sistemas de
radiodifuso ou em provedores de contedo [10], [11].
Por outro lado, as mtricas objetivas so baseadas em
modelos matemticos, cujo objetivo produzir um
escore de qualidade que emule a percepo do SVH.
Alm disso, as mtricas objetivas requerem baixo
custo de implementao (quando comparadas com as
mtricas subjetivas) e no apresentam problemas
quanto reprodutibilidade e imparcialidade.
As mtricas objetivas para avaliao de qualidade
de vdeo podem ser classifcadas em trs categorias:
(i) mtricas de referncia completa (Full-Reference
FR); (ii) mtricas de referncia reduzida (Reduced-
Reference RR); (iii) mtricas sem referncia (NR).
2.1. Mtricas FR
As mtricas FR requerem o vdeo de referncia
(fonte) no clculo do escore de qualidade. Estas
mtricas so amplamente utilizadas no processo de
validao de mtricas RR ou NR, por meio da
comparao de desempenho defnida pelas
recomendaes do Grupo de Especialistas em
Qualidade de Vdeo (VQEG Video Quality Experts
Group) que um rgo de padronizao internacional
de mtricas subjetivas e objetivas de qualidade de
vdeo. Dentre as mtricas FR, destacam-se o PSNR
(Peak Signal-to-Noise Ratio), SSIM (Structural
SIMilarity index) [12] e MS-SSIM (Multi-Scale
Structural SIMilarity index) [13].
O PSNR uma mtrica FR baseada no erro pixel a
pixel de fcil implementao. Entretanto, apresenta
baixa correlao com o SVH [14]. A sua medida
processada sobre o erro quadro a quadro, i.e., entre o
quadro original x e o quadro y . A expresso a seguir
defne o PSNR para um conjunto de quadros F .
20
1
1
PSNR 20log ,
F
f
f f
v
F MSE



(1)
com

2
0 0
1
MSE , , , , ,
N M
f
i j
x f i j y f i j
NM

(2)
em que o termo f v igual a (2 1) k , cujo k o
nmero de bits por pixel, i.e., a componente de
luminncia do quadro f . Os termos x f ,i, j e
y f ,i, j so os valores de luminncia do quadro de
origem e degradado, respectivamente. As
componentes bidimensionais so representadas pelo
nmero de colunas N e pelo nmero de linhas M . O
termo f MSE defnido como erro quadrtico mdio
ou MSE (Mean Square Error).
A mtrica SSIM baseia-se no fato de que o SVH
fortemente adaptado para extrair informaes das
caractersticas estruturais de um quadro ou imagem.
Logo, uma medida de similaridade estrutural (ou
distoro) pode prover boa aproximao para a
qualidade perceptual de um vdeo [3, 79]. Sejam x e
y dois sinais no-negativos, em que y o sinal
degradado e x o sinal original (sem perda de
qualidade), a medida de similaridade utilizada como
um ndice quantitativo de qualidade do sinal distorcido,
ou seja, x tomado como a referncia para medir a
qualidade de y . A mtrica SSIM possui diversas
extenses, dentre as quais a verso MS-SSIM,
proposta por Wang et al. [13] que assume uma
abordagem multiescalar.
2.2. Mtricas RR
As mtricas de referncia reduzida retiram certa
quantidade de caractersticas do vdeo original (fonte),
baseadas em componentes espaciais, temporais, no
domnio da frequncia ou no fuxo de bits (bitstream).
Este tipo de mtrica amplamente utilizada no
monitoramento de transmisses em rede [17]. Neste
tipo de cenrio de aplicao, o vdeo transmitido
com uma sequncia de informao codifcada
(overhead) e no lado receptor ocorre a sua
decodifcao, seguido pelo clculo do ndice de
qualidade, o qual obtido por meio da comparao
entre a representao reduzida da informao nos
pares emissor e receptor [18]. Tipicamente, mtricas
RR so implementadas por meio de funes, divididas
em duas etapas [19]: (i) clculo do erro entre os
vdeos original e distorcido, constitudo pela diferena
de suas caractersticas, a fm de compor a
representao reduzida da informao; (ii) funo que
agrupa os erros ou diferenas para obter um ndice de
qualidade global. Algumas mtricas RR exploram
propriedades dos artefatos, por meio da extrao de
caractersticas e um modelo de parametrizao [20]
com foco em tipos especfcos de distores
(artefatos). Esta abordagem encontrada em Silva et
al. [17], cujo clculo do escore de qualidade
baseado na diferena de atividade dos coefcientes
DCT (Discrete Cosine Transform) em um macro bloco
com resoluo de 1616 pixels.
2.3. Mtricas NR
As mtricas NR extraem caractersticas
relacionadas ao SVH do vdeo distorcido, i.e., na
recepo do sinal de vdeo [14]. Tipicamente, h duas
abordagens no desenvolvimento destas mtricas: (i)
extrao dos parmetros sobre o fuxo de bits, tais
como a taxa de compresso, informaes
relacionadas ao GoP (Group of Pictures), estimao
de movimento, perfl e nvel de codifcao, bem como
o parmetro de quantizao ou QP (Quantization
Parameter) [2125]. Mtricas NR apresentam maior
complexidade quando so aplicadas em vdeo, devido
variao temporal dos quadros, contedos das
cenas e difculdade de compreenso das
caractersticas do SVH [26]. Assim, algumas mtricas
dessa categoria exploram caractersticas espaciais e
temporais na estimao de qualidade de vdeo [21].
3. MTODO PROPOSTO
O mtodo proposto, denominado NRVQA-ELMtc
(No-Reference Video Quality Assessment using
Extreme Learning Machine algorithm with termination
criteria) [27] combina caractersticas espaciais e
temporais, por meio de uma rede neural artifcial
SLFNs usando o algoritmo de treinamento ELM [28]
com a implementao de um simples critrio de
parada.
3.1. Caractersticas espao-temporais
As caractersticas espaciais incorporadas no
mtodo proposto so baseadas em medidas de
artefatos em vdeo digital, i.e., distores de blocagem
e borramento desenvolvidas por Wang et al. [20].
Assim, a componente de luminncia do quadro f
representada por y(f , i, j ) com i 1,M e j 1, N ,
em que M e N so os nmeros de linhas e colunas,
respectivamente, de um quadro. Logo, as diferenas
de luminncia ao longo das linhas e colunas so
representadas, respectivamente, pelas expresses a
seguir.


, , , , 1 , , , 1, 1 ,
, , , 1, , , , 1, 1 .
h
v
d f i j y f i j y f i j j N
d f i j y f i j y f i j i M


(3)
O efeito de blocagem pode ser estimado pela
mdia das diferenas entre as bordas dos blocos da
DCT (Discrete Cosine Transform) nas direes
horizontal e vertical para uma sequncia F de
quadros, conforme mostra a Equao (4), com um
macrobloco de dimenso , cujo tamanho tpico
de 8 [20].


1
1
1 1 1
1
1
1 1 1
1
, , 1 ,
1
1
1
, 1 , .
1
1
N
F M
h h
f i j
M
F N
v
i j
v
f
B d f i j
N
F M
B d f i j
M
F N












(4)
A medida de blocagem em uma sequncia de
vdeo com F quadros determinada pela mdia entre
h B e v B , caracterizando a medida B , conforme a
expresso a seguir.
.
2
h v B B
B

(5)
Os efeitos de borramento so estimados pelo
clculo da reduo de atividade entre os blocos ,
em que usada a medida de blocagem nas direes
horizontal e vertical, conforme as expresses




1
1 1 1
1
1 1 1
, , ,
1 1
, ,
1
.
1
F M N
h h h
f i j
F M N
v v
f
v
i j
A d f i j B
F M N
A d f i j B
F N M








(6)
A medida de borramento, representada por A ,
conforme a Equao (7), determinada pela mdia
entre h A e v A .
.
2
h v A A
A

(7)
O segundo fator que contribui para a deteco do
artefato de borramento baseado na taxa de
cruzamento por zero (Zero Crossing ZC) nas
direes horizontal e vertical, conforme as expresses
a seguir.




2
1 1 1
2
1 1 1
1
, , ,
2
1
, , ,
2
F M N
h h
f i j
F M N
v v
f i j
Z z f i j
F M N
Z z f i j
F N M




(8)
em que os termos h z e v z so determinados por


1, na direo horizontal
, , ,
0, caso contrrio
1, na direo vertical
, , .
0, caso contrrio
h
v
z f i j
z f i j



(9)
Assim, a medida de borramento Z determinada
pela mdia entre as componentes h Z e v Z .
.
2
h v Z Z
Z

(10)
O mtodo proposto tambm incorpora trs
caractersticas temporais no treinamento da rede
neural SLFN com o algoritmo ELM.
A primeira caracterstica temporal a diferena de
movimento entre quadros adjacentes, representada
pela varivel TI (Temporal perceptual Information) [31]
que considera os valores de luminncia de pixels
localizados em uma mesma regio de um quadro,
conforme a expresso a seguir.

2
1
, , ,
1
F
f
TI m f i j
F


(11)
em que o nmero total de quadros F e mf ,i, j

o desvio padro da diferena de movimento
(diferena de luminncia) entre o quadro atual
y f ,i, j e o quadro anterior y f 1,i, j .
A segunda caracterstica temporal a mdia da
diferena absoluta (Mean Absolute Diference MAD)
[31] entre quadros sucessivos, representada pela
Equao (12) que defne a medida global da MAD
para todos os quadros de um vdeo.


2 1 1
1
, , 1, , .
1
F M N
f i j
MAD y f i j y f i j
M N F



(12)
A terceira caracterstica temporal a mdia da
diferena absoluta ponderada (weighted Mean
Absolute Diference MADw) [32], a qual mede o grau
de variao das cenas de um vdeo que considera a
cena atual de um quadro f e do quadro anterior f 1,
conforme a expresso:
2 1
1
.
1
F
f
f f
MAD
MADw
F MAD


(13)
Assim, o mtodo proposto combina as
caractersticas espaciais e temporais em uma matriz
, , , , , f f f f f f f x A B Z TI MAD MADw , em que f o
nmero de amostras de vdeo. A Figura 1 apresenta
as caractersticas temporais espaciais de dezessete
bases de dados de vdeos (denominada superconjunto
S) usadas neste trabalho e reportadas em [27]. A
recomendao ITU-T P.910 [31] defne a medida SI
(Spatial perceptual Information) como informao
espacial perceptual. A inspeo visual dessa fgura
mostra que as amostras de vdeo usadas neste
trabalho apresentam uma grande variao espaotemporal.
Fig. 1. Caractersticas espaciais e temporais do superconjunto
S com 216 amostras de referncia
3.2. Mtrica NRVQA-ELMtc
O algoritmo ELM [28] desenvolvido para o
treinamento de uma rede SLFN atribui pesos e
polarizaes (biases) de maneira aleatria, segundo
uma distribuio uniforme. O treinamento compreende
N amostras distintas representadas pela varivel
, , , 1, , n m
f f f f x t x t f N , cujo clculo
conforme a expresso

1
, 1, , ,
K
K i j j f j f
f
f g b f N

x w x o (14)
em que f o a sada (escore objetivo), g(x) a
funo de ativao e j o peso que conecta o jsimo
neurnio da camada oculta ao neurnio de
sada. De acordo com [28], uma rede SLFN com K
ns na camada oculta e uma funo de ativao g(x)
pode apresentar um erro mdio prximo de zero, i.e.,
1
0
K
f f
f
o t . Logo, h parmetros j , j w e j b tal
que

1
, 1, , ,
K
j j f j f
f
g b f N

w x t (15)
em que f t o vetor alvo (escores subjetivos),
T
1, , j j jn w w w o vetor de peso que conecta o jsimo
neurnio da camada oculta ao neurnio da
camada de entrada, j b denota a polarizao (bias) do
j-simo neurnio da camada oculta, j f w x o
produto interno de j w e f x . A Figura 2 ilustra o
algoritmo ELM empregado em uma arquitetura de
rede neural SLFN.
xi
1
j
N
1
j
K
ti
bj
N input neuron K hidden neuron output neuron
1
K
wj
Fig. 2. Arquitetura de uma rede neural SLFN usando algoritmo
de treinamento ELM
O sistema linear da Equao (16) resume o mtodo
do algoritmo ELM.
H T, (16)
em que a matriz da camada oculta representada por
1, , and 1, , f H h f N j K com a primeira
linha da matriz de caractersticas f x igual a
T
1 2 , , , f f f fn x x x x , i.e., a primeira linha igual a
1 1 1 1 1 1 1 , , , , , f f f f f f f x A B Z TI MAD MADw . A matriz de
sada e o vetor alvo (target) so defnidos como
T
1 , K e
T
1, , N T t t , respectivamente. O
termo
T
1 , 1, , j jm j j K denota o vetor de
peso que conecta o j-simo neurnio da camada
oculta e os neurnios de sada. Hung et al. [28]
propuseram a atribuio aleatria de pesos aos
parmetros j w e j b , a fm de seja obtido um pequeno
erro no-nulo durante o treinamento. Considerando o
sistema linear da Equao (17), os pesos da camada
de sada podem ser aproximados por
H T (17)
em que H defnida como matriz inversa
generalizada de Moore-Penrose (MP) [33] da matriz
de sada da camada oculta H . Alm disso, o
conjunto de treinamento , n oculta K e uma
funo de ativao g x , e.g., funo de base radial
(Radial Basis Function RBF), hard-limiting (hardlim),
sigmoidal (sig) e seno (sin). Em resumo, o algoritmo
ELM compreende trs etapas [28]:
i) Atribuio aleatria dos pesos de entrada j w e
polarizaes j b ;
ii) Clculo da matriz da camada de sada H ;
iii) Clculo dos pesos de sada : H T .
O mtodo NRVQA-ELMtc [27] implementa um
simples critrio de parada no treinamento da rede
neural SLFN, quanto atribuio aleatria dos pesos
j w e j b . Embora este critrio no seja direcionado,
busca os pesos relacionados com o menor RMSE
(Root-Mean-Square Error) entre a sada desejada
(escore subjetivo) e o escore objetivo na fase de
treinamento com k iteraes (tipicamente, k 100 ) e
N neurnios na camada oculta. Alm disso, conforme
estudo realizado em [27], caso o RMSE seja menor do
que 0,5 o algoritmo cessa a busca pelos parmetros
j w e j b .
4. RESULTADOS EXPERIMENTAIS
Esta seo apresenta os resultados de acurcia,
i.e., os coefcientes de correlao linear de Pearson
(Pearson Linear Correlation Coefcient PLCC) [34],
[35], entre os escores objetivos e subjetivos de 2627
amostras de vdeo estudadas em [27].
A Figura 3 compara a acurcia (PLCC) entre as
mtricas de referncia completa (FR) PSNR e MSSSIM
com o mtodo proposto (NRVQA-ELMtc) para
as 2627 amostras de vdeo, pertencentes a 17 bases
de dados de vdeo disponibilizadas por diversas
instituies e laboratrios [27]. A funo de ativao
usada na rede neural SLFN foi o seno (sin) com o
nmero de amostras de teste igual ao nmero de
neurnios na camada oculta ( N ). O mtodo de
validao cruzada mltipla (K-fold) foi usado com o
objetivo de gerar uma distribuio de acurcia, a qual
foi analisada por meio do diagrama de caixa (box-plot)
[36], em que o trao, o crculo e o quadrado, ambos
em vermelho, representam a mediana, a mdia e o
desvio padro, respectivamente. Destaca-se que
neste trabalho foi empregada uma validao cruzada
com um grande nmero de amostras de treinamentoteste
com K 100 , i.e., cada caixa do box-plot
comporta 100 experimentos distintos. Tipicamente, a
literatura apresenta trabalhos no campo da avaliao
Fig. 3. Box-plot da predio da acurcia (PLCC) entre as mtricas PSNR, MS-SSIM e o mtodo proposto NRVQA-ELMtc
de qualidade de vdeo com K entre 5 e 10 [37], [38].
Pela inspeo visual da Figura 3 observa-se que o
desempenho do mtodo proposto superior s
mtricas FR, em quaisquer condies de teste, i.e.,
para qualquer quantidade de amostras de teste
(nmero de neurnios na camada oculta) entre 25 e
500. Em especial, para N 50 , o mtodo proposto
apresenta valores de PLCC, em termos da mdia e
mediana, acima de 0,8, denotando uma forte
associao entre os escores objetivos e subjetivos, na
tarefa de predio de qualidade de vdeo. Isto ocorre
devido grande quantidade de amostras de vdeo
usadas no treinamento, e.g., para N 300 foram
usadas 2327 amostras de treinamento, ou seja,
mesmo usando pares de treinamento-teste disjuntos,
o mtodo proposto mostra uma acurcia superior s
mtricas de referncia completa. A assimetria positiva,
i.e., a maior concentrao da acurcia entre o
segundo quartil (mediana) e o terceiro quartil, na
distribuio do box-plot nos testes com 300 e 500
neurnios na camada oculta, indica que o mtodo
proposto apresenta um desempenho expressivo em
comparao com as mtricas FR.
Entretanto, mesmo para N entre 25 e 50, o
mtodo proposto apresentou uma acurcia maior do
que as mtricas FR, cujo melhor resultado foi para
N 25 com o desvio-quartil (amplitude interquartlica)
confnado entre 0,65 e 0,8. Alm disso, este resultado
tambm apresentou assimetria positiva com a mdia
do PLCC em torno de 0,75.
5. CONCLUSO
Este trabalho apresentou uma mtrica NR baseada
em uma rede neural artifcial SLFN, cujo treinamento
determinado pelo algoritmo ELM, o qual considera
caractersticas espao-temporais e os escores
subjetivos (alvos) extrados de 2627 amostras
treinamento. Alm disso, este trabalho prope uma
extenso do algoritmo ELM por meio de um simples
critrio de parada, a fm de que sejam obtidos
parmetros da rede neural artifcial relacionados com
o menor RMSE. Tipicamente, a comparao entre
mtricas FR e NR injusta, devido ausncia do
vdeo de referncia na obteno do escore de
qualidade em mtricas NR. Entretanto, os resultados
experimentais mostram que o mtodo proposto
apresentou desempenho superior s mtricas de
referncia completa PSNR e MS-SSIM, sobretudo,
quando o nmero de amostras de teste e de neurnios
na camada oculta da rede SLFN maior do que 250.
Logo, a mtrica NRVQA-ELMtc pode ser empregada
no monitoramento de qualidade em sistemas de
transmisso e recepo de vdeo digital, tais como
IPTV (Internet Protocol Television), TV digital ou em
dispositivos mveis, tais como ultrabooks,
smartphones, tablets e em aparelhos WiDi (Wireless
Display).
REFERNCIAS
[1] S. Winkler, Issues in vision modeling for perceptual
video quality assessment, Signal Processing, vol. 78,
no. 2, pp. 231252, 1999.
[2] Z. Wang and A. C. Bovik, Modern image quality
assessment. San Rafael, CA: Morgan & Claypool,
2006.
[3] W. Lin and C.-C. Jay Kuo, Perceptual visual quality
metrics: A survey, Journal of Visual Communication
and Image Representation, vol. 22, no. 4, pp. 297312,
May 2011.
[4] S. S. Hemami and A. R. Reibman, No-reference image
and video quality estimation: Applications and humanmotivated
design, Signal Processing: Image
Communication, vol. 25, no. 7, pp. 469481, 2010.
[5] Z. Wang and A. Bovik, Reduced- and No-Reference
Image Quality Assessment, IEEE Signal Processing
Magazine, vol. 28, no. 6, pp. 2940, Nov. 2011.
[6] R. V. Babu, S. Suresh, and A. Perkis, No-reference
JPEG-image quality assessment using GAP-RBF,
Signal Processing, vol. 87, no. 6, pp. 14931503, 2007.
[7] X. Jiang, F. Meng, J. Xu, and W. Zhou, No-Reference
Perceptual Video Quality Measurement for High
Defnition Videos Based on an Artifcial Neural
Network, in Computer and Electrical Engineering,
2008. ICCEE 2008. International Conference on, 2008,
pp. 424427.
[8] J. Choe, K. Lee, C. Lee, and S. Korea, No-reference
video quality measurement using neural networks, in
2009 16th International Conference on Digital Signal
Processing, 2009, pp. 14.
[9] S. Suresh, R. Venkatesh Babu, and H. J. Kim, Noreference
image quality assessment using modifed
extreme learning machine classifer, Applied Soft
Computing, vol. 9, no. 2, pp. 541552, Mar. 2009.
[10] A. M. Eskicioglu and P. S. Fisher, Image quality
measures and their performance, IEEE Transactions
on Communications, vol. 43, no. 12, pp. 29592965,
1995.
[11] U. Engelke and H.-J. Zepernick, Perceptual-based
Quality Metrics for Image and Video Services: A
Survey, in Proceedings EuroNGI Conf. Next
Generation Internet Networks, 2007, pp. 190197.
[12] Z. Wang, A. C. Bovik, H. R. Sheikh, and E. P
Simoncelli, Image quality assessment: from error
visibility to structural similarity., IEEE Transactions on
Image Processing, vol. 13, no. 4, pp. 600612, 2004.
[13] Z. Wang, E. P. Simoncelli, and A. C. Bovik, Multiscale
structural similarity for image quality assessment, in
The Thrity-Seventh Asilomar Conference on Signals,
Systems & Computers, 2003, 2003, vol. 2, no. 1, pp.
13981402.
[14] H. R. Wu, K. R. Rao, and A. A. Kassim, Digital Video
Image Quality and Perceptual Coding, Journal of
Electronic Imaging, vol. 16, no. 3, 2007.
[15] Z. Wang and A. C. Bovik, A universal image quality
index, IEEE Signal Processing Letters, vol. 9, no. 3,
pp. 8184, Mar. 2002.
[16] Y. Shi, Y. Ding, R. Zhang, and J. Li, Structure and Hue
Similarity for Color Image Quality Assessment, in 2009
International Conference on Electronic Computer
Technology, 2009, pp. 329333.
[17] W. B. Silva, A. A. P. Pohl, and K. V. O. Fonseca, A
Reduced-Reference Video Quality Assessment Method
based on the Activity-Diference of DCT Coefcients,
IEICE Transactions on Information and Systems, vol. E96-D, no. 3, 2013.
[18] P. Le Callet, C. Viard-Gaudin, and D. Barba, A Convolutional Neural Network Approach for Objective Video Quality Assessment, IEEE Transactions on Neural Networks, vol. 17, no. 5, pp. 13161327, 2006.
[19] P. Le Callet and D. Barba, Image Quality Assessment: From Sites Errors to a Global Appreciation of Quality, in Proceedings of the Picture Coding Sympsium, 2001, pp. 105108.
[20] M. Miyahara, K. Kotani, and V. R. Algazi, Objective picture quality scale (PQS) for image coding, IEEE Transactions on Communications, vol. 46, no. 9, pp. 12151226, 1998.
[21] M. Slanina, V. Ricny, and R. Forchheimer, A Novel Metric for H.264/AVC No-Reference Quality Assessment, in 14th International Workshop on Systems, Signals and Image Processing and 6th EURASIP Conference focused on Speech and Image Processing, Multimedia Communications and Services, 2007, pp. 114117.
[22] O. Sugimoto, S. Naito, S. Sakazawa, and A. Koike, Objective perceptual video quality measurement method based on hybrid no reference framework, in 16th IEEE International Conference on Image Processing (ICIP09), 2009, pp. 22372240.
[23] T. Oelbaum, C. Keimel, and K. Diepold, Rule-Based No-Reference Video Quality Evaluation Using Additionally Coded Videos, IEEE Journal of Selected Topics in Signal Processing, vol. 3, no. 2, pp. 294303, 2009.
[24] N. Staelens, N. Vercammen, Y. Dhondt, B. Vermeulen, P. Lambert, R. de Walle, and P. Demeester, ViQID: A No-Reference bit stream-based visual quality impairment detector, in Proceedings of the Second Int Quality of Multimedia Experience (QoMEX) Workshop, 2010, pp. 206211.
[25] F. Yang, S. Wan, Q. Xie, and H. R. Wu, No-Reference Quality Assessment for Networked Video via Primary Analysis of Bit Stream, IEEE Transactions on Circuits and Systems for Video Technology, vol. 20, no. 11, pp. 15441554, Nov. 2010.
[26] Z. Wang, H. R. Sheikh, and A. C. Bovik, Objective Video Quality Assessment, in The Handbook of Video Databases: Design and Applications, B. Furht and O. Marques, Eds. Boca Raton, FL, USA: CRC Press, 2003, pp. 10411078.
[27] W. B. da Silva and A. de A. P. Pohl, Mtodos Sem Referncia Baseados em Caractersticas Espao-Temporais para Avaliao Objetiva de Qualidade de Vdeo Digital, Universidade Tecnolgica Federal do Paran (UTFPR), 2013.
[28] G.-B. Huang, Q.-Y. Zhu, and C.-K. Siew, Extreme learning machine: Theory and applications, Neurocomputing, vol. 70, no. 13, pp. 489501, Dec. 2006.
[29] Z. Wang, H. R. Sheikh, and A. C. Bovik, No-reference perceptual quality assessment of JPEG compressed images, in Image Processing. 2002. Proceedings. IEEE International Conference on Image Processing, 2002, vol. 1, pp. vol.1 I477 I480.
[30] W. B. Silva and A. A. P. Pohl, No-Reference Video Quality Assessment Method based on the Levenberg-Marquardt Minimization, in XXX Brazilian Symposium on Telecommunications (SBrT12), 2012.
[31] ITU-T P.910, Subjective video quality assessment methods for multimedia applications, Standardization Sector of ITU, 1999.
[32] W. Ding, Y. Tong, Q. Zhang, and D. Yang, Image and Video Quality Assessment Using Neural Network and SVM, Tsinghua Science &amp; Technology, vol. 13, no. 1, pp. 112116, 2008.
[33] K. S. Banerjee, C. R. Rao, and S. K. Mitra, Generalized Inverse of Matrices and Its Applications, Technometrics, vol. 15, no. 1, p. 197, Feb. 1973.
[34] VQEG, Final report from the video quality experts group on the validation of reduced-reference and no-reference objective models for standard defnition television, Phase I, 2009.
[35] VQEG, Report on the validation of video quality models for high defnition video content, 2010.
[36] J. W. Tukey, Exploratory Data Analysis. New York: Addison-Wesley Publishing Company, 1977.
[37] P. Gastaldo and R. Zunino, Neural networks for the no-reference assessment of perceived quality, J. Electronic Imaging, vol. 14, no. 3, p. 033004, 2005.
[38] R. Herzog, M. adk, T. O. Aydn, K. I. Kim, K. Myszkowski, and H.-P. Seidel, NoRM: No-Reference Image Quality Metric for Realistic Image Synthesis, Comp. Graph. Forum, vol. 31, no. 2pt4, pp. 545554, 2012.
4

busca envolver o raciocnio da audincia. So comuns
mistrios, suspenses e promessas de realizaes
pessoais para encadear blocos e temas no mesmo
programa.
No caso das telenovelas, filmes, programas de
auditrio ou reality shows, os prprios programas so
estruturados de forma a contarem histrias. Uma
histria com desdobramentos mais rpidos, no caso
do filme, e vrias histrias entrelaadas, no caso das
telenovelas. J programas de auditrio e reality shows
dividem os horrios em quadros e atraes, onde
histrias e competies de curta durao do a
dinmica a partir de incentivos e direcionamentos do
apresentador.
Inclusive programas religiosos de diferentes
designaes usam histrias para transmitir as
mensagens. A partir de leituras bblicas, bispos e
pastores envolvem a audincia, seja ela presencial ou
pela televiso, fazendo-a pensar sobre a prpria vida
em busca de salvao. Em casos mais extremos, so
apresentados quadros onde, aparentemente, pessoas
so curadas diante das cmeras.
Em sntese, uma boa programao de TV depende
de boas histrias e da forma como elas so
relacionadas com a audincia. Esse processo gera um
envolvimento das pessoas com o tema apresentado e
discutido pela televiso. O sucesso de um programa,
representado pelos ndices de audincia, depende
desse envolvimento. Quanto mais a audincia
acreditar na histria, mais representativa ela ser nos
ndices.
Essa dinmica cria muito mais do que um passa
tempo ou uma sensao de estar bem informado.
Gera relaes ntimas de confiana. As pessoas se
sentem parte da programao, chegando inclusive a
responder aos tradicionais bom dia, ou boa noite,
dos apresentadores de telejornais.
As pessoas enxergam uma representao da
realidade atravs da TV. Trata-se de uma
representao justamente por ser mediada pela TV,
com todos os elementos tecnolgicos e pessoais que
compe a programao. Tomar contato com uma
notcia pela TV diferente de presenciar o fato ou ver
algo acontecer pela janela.
A ponte, ou mediao, que a televiso faz entre a
pessoa diante da tela com realidades distantes,
inacessveis para a mdia da audincia, cria uma
experincia mental que desloca a percepo
consciente. As pessoas deixam de pensar na prpria
vida para se envolverem nas histrias contadas na
telinha. Esse deslocamento, e a imerso nas histrias,
que no so exclusivos da televiso, geram a
sensao de que o tempo passa mais rpido e que as
informaes so compreendidas facilmente.
Dessa forma, a TV media experincias. Ela
mediadora de dois mundos, onde o real, tanto da
prpria vida, quanto o apresentado na TV, se encontra
com o imaginrio, representado mentalmente. As
pessoas criam iluses, sonham, desenvolvem
opinies com base no que a TV, simbolicamente,
conta. Por isso, as pessoas assistem televiso. A
estrutura organizacional da televiso d suporte para
que a mensagem, ou a histria, tenha o efeito
desejado.

4.2 A teoria da atividade como base da anlise
Considerando a TV como mediadora, Becker e
Zuffo desenvolveram um modelo terico para anlise
do comportamento da audincia baseado na teoria da
atividade, criada por Leontiev, a partir dos estudos de
Vigotsky [4].
A teoria da atividade busca entender a unidade da
conscincia e a atividade. uma teoria social da
conscincia humana, construindo conscincia como o
produto de uma interao individual com pessoas e
artefatos num contexto de prtica das atividades
cotidianas. Para tanto, considera a atividade como a
categoria mais bsica. A anlise da atividade abre a
possibilidade de entender adequadamente tanto
assuntos quanto objetos [5].
As atividades humanas, mesmo que realizadas
individualmente, esto relacionadas com prticas
estabelecidas histrica e coletivamente na sociedade.
Uma atividade sempre responde a necessidades e
direcionada por motivaes especficas. Dessa forma,
uma atividade, que se baseia em uma necessidade ou
uma motivao, desencadeia uma ao, que tem um
objetivo. A ao demanda uma operao, inserida em
um contexto de restries e condies [4].
4.3 Funes psicolgicas superiores
A noo de mediao foi inicialmente desenvolvida
por Vigotsky, ao analisar a insero do ser humano na
natureza e sociedade, quando desenvolveu a
abordagem histrico-cultural para definir a mente
humana [6,7,8]. Para Vigotsky, a mente dividida em
funes psicolgicas superiores e funes mentais
naturais. As funes psicolgicas superiores foram
desenvolvidas pelos seres humanos a partir de
ambientes sociais e culturais. Atravs delas o ser
humano desenvolveu a habilidade de usar artefatos
para interagir com o mundo. Esses artefatos so
mediadores da mente com o mundo [8].
Portanto, Vigotsky criou a noo de mediao, que
pode acontecer atravs de duas ferramentas:
tcnicas, como um martelo, que afeta algo, e
psicolgicas, como um mapa, que afeta outras
pessoas ou a si mesmo. As ferramentas atingem a
estrutura da atividade. Tanto o uso de um martelo
para mudar a posio de um prego, quanto
identificao do melhor caminho no mapa, alteram a
atividade. As ferramentas psicolgicas transformam os
processos mentais em atos instrumentais, mediados
por significados desenvolvidos culturalmente.
Estendendo essa viso teoria da atividade, a
mediao pode ser psicolgica ou fsica. Na mediao
no plano mental o crebro cria imagens que permitem
relacionar o mundo real com o mundo psquico. J na
66 Revista de Radiodifuso v. 07 n. 08 2013
Pesquisas em ambientes digitais - TV Internet Radio Cinema

mediao fsica, so utilizadas ferramentas, que
geram mudanas, tanto no mundo real, quanto na
percepo que os seres humanos tm dele.
Dessa forma, a mediao possui dois nveis, mas
apenas para efeitos de anlise. As mediaes esto
relacionadas e no podem ser definidas
individualmente. A atividade perceber algo gera uma
ao. Neste caso, estamos relacionando uma criao
imagtica, puramente mental. No entanto, ao gerar
uma ao, ferramentas so necessrias. Se
deslocarmos o ponto central da anlise para o uso
dessas ferramentas, estamos estabelecendo uma
nova atividade, que possui um novo motivo, guiado
por uma nova necessidade.
Para Vigotsky, a cultura e a sociedade no so
elementos externos influenciando a mente, mas foras
que produzem e moldam o ser humano. Ou seja, no
possvel desassociar o desenvolvimento mental da
percepo cultura e social que a pessoa cria. Ambas
caminham juntas, compondo a mente, que s pode
ser compreendida atravs de uma anlise histrica e
evolutiva dessa relao [8].
A mente humana est intrinsecamente relacionada
com todo contexto da interao do ser humano com o
mundo exterior. Alteraes na mente refletem na
percepo sobre o mundo e na forma como a
interao acontece. Por outro lado, qualquer mudana
no mundo altera a percepo que o ser humano tem
dele. Isso inclui desde aes objetivas (comprar um
carro), at emoes e sentimentos, como a sensao
de bem estar ou felicidade.
A TV tem papel central na construo dessa
mente. Na cultura brasileira a TV o maior e mais
importante meio de informao, consequentemente,
de contato com o mundo distante. Como a mente o
resultado de uma relao complexa entre interno e
externo, individual e coletivo, a TV ajuda o indivduo a
se posicionar no mundo, gerando informaes e
moldando relaes.
Boa parte dos valores familiares e sociais
influenciada pela programao das TVs. Desde a
infncia, as crianas acompanham desenhos e
programas infantis, que trabalham o desenvolvimento
mental infantil a partir de elementos fantasiosos, que
se misturam com a imaginao. O desenvolvimento
das funes psicolgicas superiores facilmente
impactado por mensagens subliminares presentes na
programao.
4.4 Nveis de mediao
A TV media a percepo que as pessoas tm com
uma realidade externa, longe do quotidiano delas. De
certa forma, a TV faz a mediao e a insero das
pessoas na sociedade, ao trazer a realidade de outros
locais, outras culturas e outros ambientes para dentro
de casa. Essa relao diferente, que envolve e
relaciona a tecnologia com a informao, demanda
uma anlise mais ampla, que vai muito alm das
tarefas realizadas durante o ato ver TV. O pensar
sobre o contedo e o impacto dele no dia a dia, to,
ou mais importante, do que o comportamento da
pessoa diante da televiso.
Portanto, a TV gera modelos mentais sobre
sociedade, cultura e famlia, que vo muito alm dos
quatro elementos propostos por Engestrm relativos
ao aprendizado e uso de artefatos em ambientes
laborais [9]
1
. Como Engestrm focou a anlise no uso
da tecnologia, os impactos gerados na atividade so
subestimados. Consequncias da interpretao e
viso pessoal sobre uma atividade, que geram um
leque variado de opes para ao, no so
compreendidos pelo elemento where to artifacts.
Exemplificando, uma informao adquirida em um
telejornal pode definir um comportamento. Uma notcia
animadora sobre financiamento ou evoluo da
economia pode determinar a compra de um carro ou
uma viagem de frias.
Neste caso, a unidade da anlise no se restringe
interao da pessoa com a tecnologia, mas
compreende tambm os objetos no mundo com os
quais as pessoas interagem indiretamente usando
tecnologia. No caso da TV, h uma interao com a
informao (uma representao mental seguida de um
julgamento ou anlise de pertinncia e importncia),
que gera uma ao (comprar o carro ou a viagem).
Deste ponto de vista, possvel perceber porque
tradicionalmente notcias relacionadas ao dia a dia das
pessoas despertam mais interesse do que os fatos
polticos ou econmicos de pases distantes. A
atividade demanda uma interao, ou seja, uma
consequncia. A crise na economia tem poucas
consequncias para a maioria da populao, fazendo
com que noticirios locais ou regionais sequer
abordem o tema.
Dessa forma, a experincia ver TV s ser
totalmente passiva em casos onde a histria no
desperta nenhum interesse ou curiosidade. Por mais
que a pessoa permanea indiferente, h pensamentos
relacionando as informaes com experincia prvia
da pessoa.
A nica exceo ocorre enquanto a televiso no
objeto da atividade e nem objetivo da ao. No caso
da televiso representar a operao, compondo uma
atividade ter barulho, a ateno est deslocada. Neste
caso, no so geradas imagens mentais sobre a
programao, uma vez que o objeto da atividade
outro.
Nesse processo, h dois aspectos importantes de
serem analisados: aspectos fsicos, relacionados a

1
Estudando como as pessoas aprendem o uso de novas tecnologias,
Engestrm criou um modelo baseado em quatro elementos relativos ao
aprendizado e uso dos artefatos: what, how, why, e where to artifacts. Os
artefatos what so os artefatos propriamente ditos, com as limitaes e
condies inerentes a sua natureza. J os artefatos how e why esto
relacionados formao das aes e dos objetivos. O artefato why um
modelo genrico sobre os princpios de funcionamento. J o artefato how
um modelo especfico, com detalhes de uso. Finalmente, o artefato where to
refere-se imagem mental do artefato, suas vises e mudanas que
redefinem a atividade como um todo. Pode ser resumido como expectativa
anterior ao uso do artefato. Mais detalhes sobre a aplicao desse modelo
esto em [4,9].

Pesquisas em ambientes digitais - TV Internet Radio Cinema
Revista de Radiodifuso v. 07 n. 08 2013 67
MTRICA SEM REFERNCIA BASEADA EM REDES NEURAIS
PARA AVALIAO OBJETIVA DE QUALIDADE DE VDEO DIGITAL
Wyllian Bezerra da Silva, Alexandre de Almeida Prado Pohl
Programa de Ps-Graduao em Engenharia Eltrica e Informtica Industrial (CPGEI) UTFPR, Curitiba, Brasil
wyllianbs@gmail.com, pohl@utfpr.edu.br
Resumo: Este trabalho apresenta uma mtrica sem referncia para avaliao de qualidade de vdeo digital baseada em uma rede neural artifcial que usa uma verso estendida do algoritmo de aprendizado ELM (Extreme Learning Machine). O mtodo proposto realiza o treinamento da rede neural a partir de seis caractersticas espao-temporais. Os resultados experimentais mostram que o mtodo proposto apresenta desempenho superior s mtricas de referncia completa PSNR e MS-SSIM na tarefa de predio de qualidade de vdeo. Logo, o mtodo proposto pode ser usado no monitoramento de qualidade em sistemas de transmisso e recepo de vdeo digital, tais como IPTV e TV digital.
Palavras chave: algoritmo ELM, avaliao objetiva de vdeo, mtrica sem referncia, rede neural artifcial.
1. INTRODUO
Durante os ltimos anos, a literatura tem apresentado um nmero crescente publicaes acerca de mtricas objetivas para avaliao de qualidade de vdeo para diversas aplicaes em radiodifuso ou no processamento de vdeo digital, seja na aquisio do sinal, codifcao e decodifcao, compresso, transmisso, restaurao, armazenamento, segmentao e exibio de sinais de vdeo digital [14]. A avaliao de qualidade de vdeo digital pode ser realizada por meio de mtricas subjetiva e objetiva. A primeira requer uma grande quantidade de recursos humanos e apresenta elevado custo em sua implementao [13]. Porm, as mtricas objetivas so vantajosas quando apresentam um determinado grau de correlao com as mtricas subjetivas. Logo, o desenvolvimento destas um desafo no campo de avaliao de qualidade de vdeo e imagem. Alm disso, as mtricas objetivas, devido natureza de seu critrio objetivo, independem de interao humana e so facilmente reprodutveis [3]. Dentre as mtricas objetivas destacam-se as mtricas sem referncia (No-Reference NR), pois no necessitam do vdeo de referncia no clculo de sua medida. Entretanto, estas requerem um conhecimento a priori sobre as distores em vdeo digital para que seja estabelecida uma correlao com os resultados subjetivos [3].
A maioria das mtricas NR encontradas na literatura so baseadas na avaliao de qualidade de imagens e em caractersticas relacionadas ao Sistema Visual Humano (SVH). Assim, o desenvolvimento de mtricas NR difcil, devido necessidade de emular a percepo do SVH que envolve aspectos cognitivos, emocionais e estticos relacionados ao contedo do vdeo e que so altamente dependentes do observador [4], [5].
A literatura reporta diversos esforos no desenvolvimento de mtricas para avaliao de qualidade de vdeo baseadas em redes neurais e em algoritmos de aprendizado. Babu et al. [6] apresentam uma mtrica para avaliar a qualidade de imagens comprimidas em JPEG (Joint Photographic Experts Group) por meio de um algoritmo de aprendizado de crescimento e propem o uso de uma rede neural GAP-RBF (Growing and Pruning Radial Basis Function) que usa caractersticas relacionadas ao SVH. Jiang et al. [7] desenvolveram uma mtrica NR para avaliao de qualidade de vdeo em HD (High Defnition) baseada em uma rede neural treinada pelo algoritmo BP (Back-Propagation) que usa seis caractersticas espao-temporais e a RoI (Region of Interest). Choe et al. [8] desenvolveram uma mtrica NR baseada no fuxo de bits para avaliao de qualidade de vdeo codifcado em H.264. Esta mtrica extrai caractersticas quadro a quadro e usa uma rede neural alimentada adiante (feedforward) com trs camadas. Suresh et al. [9] apresentaram uma extenso do algoritmo ELM na tarefa de avaliar a qualidade de imagens comprimidas em JPEG com base no esquema de seleo mltipla KS-ELM (K-fold selection Scheme using ELM) e no algoritmo RCGA-ELM (Real-Coded Genetic Algorithm using ELM) para seleo dos pesos de entrada e polarizaes.
Este trabalho apresenta uma verso estendida do algoritmo ELM para redes neurais SLFN (Single-hidden-Layer Feedforward Neural Networks) que implementa um simples critrio de parada na fase de treinamento. Alm disso, esse mtodo usa seis caractersticas espao-temporais de vdeos submetidos a diversas condies de distoro.
Este artigo est dividido da seguinte maneira: a Seo 2 descreve as mtricas para avaliao de qualidade de vdeo. A Seo 3 descreve o mtodo NR proposto para avalio de qualidade de vdeo digital. A Seo 4 apresenta os resultados experimentais, em que so comparados o mtodo NR proposto e duas mtricas FR. Finalmente, a Seo 5 apresenta a concluso do artigo.
2. AVALIAO DE QUALIDADE DE VDEO
O processo de avaliao de qualidade de vdeo
pode ser realizado com a aplicao de mtricas
subjetivas ou objetivas. As mtricas subjetivas
estimam a qualidade do vdeo por meio de avaliadores
humanos. Logo, exigem um alto custo, pois
necessitam de uma grande quantidade de recursos
humanos e apresentam problemas quanto aos
requisitos de imparcialidade e reprodutibilidade,
tornando-se inapropriadas em sistemas de
radiodifuso ou em provedores de contedo [10], [11].
Por outro lado, as mtricas objetivas so baseadas em
modelos matemticos, cujo objetivo produzir um
escore de qualidade que emule a percepo do SVH.
Alm disso, as mtricas objetivas requerem baixo
custo de implementao (quando comparadas com as
mtricas subjetivas) e no apresentam problemas
quanto reprodutibilidade e imparcialidade.
As mtricas objetivas para avaliao de qualidade
de vdeo podem ser classifcadas em trs categorias:
(i) mtricas de referncia completa (Full-Reference
FR); (ii) mtricas de referncia reduzida (Reduced-
Reference RR); (iii) mtricas sem referncia (NR).
2.1. Mtricas FR
As mtricas FR requerem o vdeo de referncia
(fonte) no clculo do escore de qualidade. Estas
mtricas so amplamente utilizadas no processo de
validao de mtricas RR ou NR, por meio da
comparao de desempenho defnida pelas
recomendaes do Grupo de Especialistas em
Qualidade de Vdeo (VQEG Video Quality Experts
Group) que um rgo de padronizao internacional
de mtricas subjetivas e objetivas de qualidade de
vdeo. Dentre as mtricas FR, destacam-se o PSNR
(Peak Signal-to-Noise Ratio), SSIM (Structural
SIMilarity index) [12] e MS-SSIM (Multi-Scale
Structural SIMilarity index) [13].
O PSNR uma mtrica FR baseada no erro pixel a
pixel de fcil implementao. Entretanto, apresenta
baixa correlao com o SVH [14]. A sua medida
processada sobre o erro quadro a quadro, i.e., entre o
quadro original x e o quadro y . A expresso a seguir
defne o PSNR para um conjunto de quadros F .
20
1
1
PSNR 20log ,
F
f
f f
v
F MSE



(1)
com

2
0 0
1
MSE , , , , ,
N M
f
i j
x f i j y f i j
NM

(2)
em que o termo f v igual a (2 1) k , cujo k o
nmero de bits por pixel, i.e., a componente de
luminncia do quadro f . Os termos x f ,i, j e
y f ,i, j so os valores de luminncia do quadro de
origem e degradado, respectivamente. As
componentes bidimensionais so representadas pelo
nmero de colunas N e pelo nmero de linhas M . O
termo f MSE defnido como erro quadrtico mdio
ou MSE (Mean Square Error).
A mtrica SSIM baseia-se no fato de que o SVH
fortemente adaptado para extrair informaes das
caractersticas estruturais de um quadro ou imagem.
Logo, uma medida de similaridade estrutural (ou
distoro) pode prover boa aproximao para a
qualidade perceptual de um vdeo [3, 79]. Sejam x e
y dois sinais no-negativos, em que y o sinal
degradado e x o sinal original (sem perda de
qualidade), a medida de similaridade utilizada como
um ndice quantitativo de qualidade do sinal distorcido,
ou seja, x tomado como a referncia para medir a
qualidade de y . A mtrica SSIM possui diversas
extenses, dentre as quais a verso MS-SSIM,
proposta por Wang et al. [13] que assume uma
abordagem multiescalar.
2.2. Mtricas RR
As mtricas de referncia reduzida retiram certa
quantidade de caractersticas do vdeo original (fonte),
baseadas em componentes espaciais, temporais, no
domnio da frequncia ou no fuxo de bits (bitstream).
Este tipo de mtrica amplamente utilizada no
monitoramento de transmisses em rede [17]. Neste
tipo de cenrio de aplicao, o vdeo transmitido
com uma sequncia de informao codifcada
(overhead) e no lado receptor ocorre a sua
decodifcao, seguido pelo clculo do ndice de
qualidade, o qual obtido por meio da comparao
entre a representao reduzida da informao nos
pares emissor e receptor [18]. Tipicamente, mtricas
RR so implementadas por meio de funes, divididas
em duas etapas [19]: (i) clculo do erro entre os
vdeos original e distorcido, constitudo pela diferena
de suas caractersticas, a fm de compor a
representao reduzida da informao; (ii) funo que
agrupa os erros ou diferenas para obter um ndice de
qualidade global. Algumas mtricas RR exploram
propriedades dos artefatos, por meio da extrao de
caractersticas e um modelo de parametrizao [20]
com foco em tipos especfcos de distores
(artefatos). Esta abordagem encontrada em Silva et
al. [17], cujo clculo do escore de qualidade
baseado na diferena de atividade dos coefcientes
DCT (Discrete Cosine Transform) em um macro bloco
com resoluo de 1616 pixels.
2.3. Mtricas NR
As mtricas NR extraem caractersticas
relacionadas ao SVH do vdeo distorcido, i.e., na
recepo do sinal de vdeo [14]. Tipicamente, h duas
abordagens no desenvolvimento destas mtricas: (i)
extrao dos parmetros sobre o fuxo de bits, tais
como a taxa de compresso, informaes
relacionadas ao GoP (Group of Pictures), estimao
de movimento, perfl e nvel de codifcao, bem como
o parmetro de quantizao ou QP (Quantization
Parameter) [2125]. Mtricas NR apresentam maior
complexidade quando so aplicadas em vdeo, devido
variao temporal dos quadros, contedos das
cenas e difculdade de compreenso das
caractersticas do SVH [26]. Assim, algumas mtricas
dessa categoria exploram caractersticas espaciais e
temporais na estimao de qualidade de vdeo [21].
3. MTODO PROPOSTO
O mtodo proposto, denominado NRVQA-ELMtc
(No-Reference Video Quality Assessment using
Extreme Learning Machine algorithm with termination
criteria) [27] combina caractersticas espaciais e
temporais, por meio de uma rede neural artifcial
SLFNs usando o algoritmo de treinamento ELM [28]
com a implementao de um simples critrio de
parada.
3.1. Caractersticas espao-temporais
As caractersticas espaciais incorporadas no
mtodo proposto so baseadas em medidas de
artefatos em vdeo digital, i.e., distores de blocagem
e borramento desenvolvidas por Wang et al. [20].
Assim, a componente de luminncia do quadro f
representada por y(f , i, j ) com i 1,M e j 1, N ,
em que M e N so os nmeros de linhas e colunas,
respectivamente, de um quadro. Logo, as diferenas
de luminncia ao longo das linhas e colunas so
representadas, respectivamente, pelas expresses a
seguir.


, , , , 1 , , , 1, 1 ,
, , , 1, , , , 1, 1 .
h
v
d f i j y f i j y f i j j N
d f i j y f i j y f i j i M


(3)
O efeito de blocagem pode ser estimado pela
mdia das diferenas entre as bordas dos blocos da
DCT (Discrete Cosine Transform) nas direes
horizontal e vertical para uma sequncia F de
quadros, conforme mostra a Equao (4), com um
macrobloco de dimenso , cujo tamanho tpico
de 8 [20].


1
1
1 1 1
1
1
1 1 1
1
, , 1 ,
1
1
1
, 1 , .
1
1
N
F M
h h
f i j
M
F N
v
i j
v
f
B d f i j
N
F M
B d f i j
M
F N












(4)
A medida de blocagem em uma sequncia de
vdeo com F quadros determinada pela mdia entre
h B e v B , caracterizando a medida B , conforme a
expresso a seguir.
.
2
h v B B
B

(5)
Os efeitos de borramento so estimados pelo
clculo da reduo de atividade entre os blocos ,
em que usada a medida de blocagem nas direes
horizontal e vertical, conforme as expresses




1
1 1 1
1
1 1 1
, , ,
1 1
, ,
1
.
1
F M N
h h h
f i j
F M N
v v
f
v
i j
A d f i j B
F M N
A d f i j B
F N M








(6)
A medida de borramento, representada por A ,
conforme a Equao (7), determinada pela mdia
entre h A e v A .
.
2
h v A A
A

(7)
O segundo fator que contribui para a deteco do
artefato de borramento baseado na taxa de
cruzamento por zero (Zero Crossing ZC) nas
direes horizontal e vertical, conforme as expresses
a seguir.




2
1 1 1
2
1 1 1
1
, , ,
2
1
, , ,
2
F M N
h h
f i j
F M N
v v
f i j
Z z f i j
F M N
Z z f i j
F N M




(8)
em que os termos h z e v z so determinados por


1, na direo horizontal
, , ,
0, caso contrrio
1, na direo vertical
, , .
0, caso contrrio
h
v
z f i j
z f i j



(9)
Assim, a medida de borramento Z determinada
pela mdia entre as componentes h Z e v Z .
.
2
h v Z Z
Z

(10)
O mtodo proposto tambm incorpora trs
caractersticas temporais no treinamento da rede
neural SLFN com o algoritmo ELM.
A primeira caracterstica temporal a diferena de
movimento entre quadros adjacentes, representada
pela varivel TI (Temporal perceptual Information) [31]
que considera os valores de luminncia de pixels
localizados em uma mesma regio de um quadro,
conforme a expresso a seguir.

2
1
, , ,
1
F
f
TI m f i j
F


(11)
em que o nmero total de quadros F e mf ,i, j

o desvio padro da diferena de movimento
(diferena de luminncia) entre o quadro atual
y f ,i, j e o quadro anterior y f 1,i, j .
A segunda caracterstica temporal a mdia da
diferena absoluta (Mean Absolute Diference MAD)
[31] entre quadros sucessivos, representada pela
Equao (12) que defne a medida global da MAD
para todos os quadros de um vdeo.


2 1 1
1
, , 1, , .
1
F M N
f i j
MAD y f i j y f i j
M N F



(12)
A terceira caracterstica temporal a mdia da
diferena absoluta ponderada (weighted Mean
Absolute Diference MADw) [32], a qual mede o grau
de variao das cenas de um vdeo que considera a
cena atual de um quadro f e do quadro anterior f 1,
conforme a expresso:
2 1
1
.
1
F
f
f f
MAD
MADw
F MAD


(13)
Assim, o mtodo proposto combina as
caractersticas espaciais e temporais em uma matriz
, , , , , f f f f f f f x A B Z TI MAD MADw , em que f o
nmero de amostras de vdeo. A Figura 1 apresenta
as caractersticas temporais espaciais de dezessete
bases de dados de vdeos (denominada superconjunto
S) usadas neste trabalho e reportadas em [27]. A
recomendao ITU-T P.910 [31] defne a medida SI
(Spatial perceptual Information) como informao
espacial perceptual. A inspeo visual dessa fgura
mostra que as amostras de vdeo usadas neste
trabalho apresentam uma grande variao espaotemporal.
Fig. 1. Caractersticas espaciais e temporais do superconjunto
S com 216 amostras de referncia
3.2. Mtrica NRVQA-ELMtc
O algoritmo ELM [28] desenvolvido para o
treinamento de uma rede SLFN atribui pesos e
polarizaes (biases) de maneira aleatria, segundo
uma distribuio uniforme. O treinamento compreende
N amostras distintas representadas pela varivel
, , , 1, , n m
f f f f x t x t f N , cujo clculo
conforme a expresso

1
, 1, , ,
K
K i j j f j f
f
f g b f N

x w x o (14)
em que f o a sada (escore objetivo), g(x) a
funo de ativao e j o peso que conecta o jsimo
neurnio da camada oculta ao neurnio de
sada. De acordo com [28], uma rede SLFN com K
ns na camada oculta e uma funo de ativao g(x)
pode apresentar um erro mdio prximo de zero, i.e.,
1
0
K
f f
f
o t . Logo, h parmetros j , j w e j b tal
que

1
, 1, , ,
K
j j f j f
f
g b f N

w x t (15)
em que f t o vetor alvo (escores subjetivos),
T
1, , j j jn w w w o vetor de peso que conecta o jsimo
neurnio da camada oculta ao neurnio da
camada de entrada, j b denota a polarizao (bias) do
j-simo neurnio da camada oculta, j f w x o
produto interno de j w e f x . A Figura 2 ilustra o
algoritmo ELM empregado em uma arquitetura de
rede neural SLFN.
xi
1
j
N
1
j
K
ti
bj
N input neuron K hidden neuron output neuron
1
K
wj
Fig. 2. Arquitetura de uma rede neural SLFN usando algoritmo
de treinamento ELM
O sistema linear da Equao (16) resume o mtodo
do algoritmo ELM.
H T, (16)
em que a matriz da camada oculta representada por
1, , and 1, , f H h f N j K com a primeira
linha da matriz de caractersticas f x igual a
T
1 2 , , , f f f fn x x x x , i.e., a primeira linha igual a
1 1 1 1 1 1 1 , , , , , f f f f f f f x A B Z TI MAD MADw . A matriz de
sada e o vetor alvo (target) so defnidos como
T
1 , K e
T
1, , N T t t , respectivamente. O
termo
T
1 , 1, , j jm j j K denota o vetor de
peso que conecta o j-simo neurnio da camada
oculta e os neurnios de sada. Hung et al. [28]
propuseram a atribuio aleatria de pesos aos
parmetros j w e j b , a fm de seja obtido um pequeno
erro no-nulo durante o treinamento. Considerando o
sistema linear da Equao (17), os pesos da camada
de sada podem ser aproximados por
H T (17)
em que H defnida como matriz inversa
generalizada de Moore-Penrose (MP) [33] da matriz
de sada da camada oculta H . Alm disso, o
conjunto de treinamento , n oculta K e uma
funo de ativao g x , e.g., funo de base radial
(Radial Basis Function RBF), hard-limiting (hardlim),
sigmoidal (sig) e seno (sin). Em resumo, o algoritmo
ELM compreende trs etapas [28]:
i) Atribuio aleatria dos pesos de entrada j w e
polarizaes j b ;
ii) Clculo da matriz da camada de sada H ;
iii) Clculo dos pesos de sada : H T .
O mtodo NRVQA-ELMtc [27] implementa um
simples critrio de parada no treinamento da rede
neural SLFN, quanto atribuio aleatria dos pesos
j w e j b . Embora este critrio no seja direcionado,
busca os pesos relacionados com o menor RMSE
(Root-Mean-Square Error) entre a sada desejada
(escore subjetivo) e o escore objetivo na fase de
treinamento com k iteraes (tipicamente, k 100 ) e
N neurnios na camada oculta. Alm disso, conforme
estudo realizado em [27], caso o RMSE seja menor do
que 0,5 o algoritmo cessa a busca pelos parmetros
j w e j b .
4. RESULTADOS EXPERIMENTAIS
Esta seo apresenta os resultados de acurcia,
i.e., os coefcientes de correlao linear de Pearson
(Pearson Linear Correlation Coefcient PLCC) [34],
[35], entre os escores objetivos e subjetivos de 2627
amostras de vdeo estudadas em [27].
A Figura 3 compara a acurcia (PLCC) entre as
mtricas de referncia completa (FR) PSNR e MSSSIM
com o mtodo proposto (NRVQA-ELMtc) para
as 2627 amostras de vdeo, pertencentes a 17 bases
de dados de vdeo disponibilizadas por diversas
instituies e laboratrios [27]. A funo de ativao
usada na rede neural SLFN foi o seno (sin) com o
nmero de amostras de teste igual ao nmero de
neurnios na camada oculta ( N ). O mtodo de
validao cruzada mltipla (K-fold) foi usado com o
objetivo de gerar uma distribuio de acurcia, a qual
foi analisada por meio do diagrama de caixa (box-plot)
[36], em que o trao, o crculo e o quadrado, ambos
em vermelho, representam a mediana, a mdia e o
desvio padro, respectivamente. Destaca-se que
neste trabalho foi empregada uma validao cruzada
com um grande nmero de amostras de treinamentoteste
com K 100 , i.e., cada caixa do box-plot
comporta 100 experimentos distintos. Tipicamente, a
literatura apresenta trabalhos no campo da avaliao
Fig. 3. Box-plot da predio da acurcia (PLCC) entre as mtricas PSNR, MS-SSIM e o mtodo proposto NRVQA-ELMtc
de qualidade de vdeo com K entre 5 e 10 [37], [38].
Pela inspeo visual da Figura 3 observa-se que o
desempenho do mtodo proposto superior s
mtricas FR, em quaisquer condies de teste, i.e.,
para qualquer quantidade de amostras de teste
(nmero de neurnios na camada oculta) entre 25 e
500. Em especial, para N 50 , o mtodo proposto
apresenta valores de PLCC, em termos da mdia e
mediana, acima de 0,8, denotando uma forte
associao entre os escores objetivos e subjetivos, na
tarefa de predio de qualidade de vdeo. Isto ocorre
devido grande quantidade de amostras de vdeo
usadas no treinamento, e.g., para N 300 foram
usadas 2327 amostras de treinamento, ou seja,
mesmo usando pares de treinamento-teste disjuntos,
o mtodo proposto mostra uma acurcia superior s
mtricas de referncia completa. A assimetria positiva,
i.e., a maior concentrao da acurcia entre o
segundo quartil (mediana) e o terceiro quartil, na
distribuio do box-plot nos testes com 300 e 500
neurnios na camada oculta, indica que o mtodo
proposto apresenta um desempenho expressivo em
comparao com as mtricas FR.
Entretanto, mesmo para N entre 25 e 50, o
mtodo proposto apresentou uma acurcia maior do
que as mtricas FR, cujo melhor resultado foi para
N 25 com o desvio-quartil (amplitude interquartlica)
confnado entre 0,65 e 0,8. Alm disso, este resultado
tambm apresentou assimetria positiva com a mdia
do PLCC em torno de 0,75.
5. CONCLUSO
Este trabalho apresentou uma mtrica NR baseada
em uma rede neural artifcial SLFN, cujo treinamento
determinado pelo algoritmo ELM, o qual considera
caractersticas espao-temporais e os escores
subjetivos (alvos) extrados de 2627 amostras
treinamento. Alm disso, este trabalho prope uma
extenso do algoritmo ELM por meio de um simples
critrio de parada, a fm de que sejam obtidos
parmetros da rede neural artifcial relacionados com
o menor RMSE. Tipicamente, a comparao entre
mtricas FR e NR injusta, devido ausncia do
vdeo de referncia na obteno do escore de
qualidade em mtricas NR. Entretanto, os resultados
experimentais mostram que o mtodo proposto
apresentou desempenho superior s mtricas de
referncia completa PSNR e MS-SSIM, sobretudo,
quando o nmero de amostras de teste e de neurnios
na camada oculta da rede SLFN maior do que 250.
Logo, a mtrica NRVQA-ELMtc pode ser empregada
no monitoramento de qualidade em sistemas de
transmisso e recepo de vdeo digital, tais como
IPTV (Internet Protocol Television), TV digital ou em
dispositivos mveis, tais como ultrabooks,
smartphones, tablets e em aparelhos WiDi (Wireless
Display).
REFERNCIAS
[1] S. Winkler, Issues in vision modeling for perceptual
video quality assessment, Signal Processing, vol. 78,
no. 2, pp. 231252, 1999.
[2] Z. Wang and A. C. Bovik, Modern image quality
assessment. San Rafael, CA: Morgan & Claypool,
2006.
[3] W. Lin and C.-C. Jay Kuo, Perceptual visual quality
metrics: A survey, Journal of Visual Communication
and Image Representation, vol. 22, no. 4, pp. 297312,
May 2011.
[4] S. S. Hemami and A. R. Reibman, No-reference image
and video quality estimation: Applications and humanmotivated
design, Signal Processing: Image
Communication, vol. 25, no. 7, pp. 469481, 2010.
[5] Z. Wang and A. Bovik, Reduced- and No-Reference
Image Quality Assessment, IEEE Signal Processing
Magazine, vol. 28, no. 6, pp. 2940, Nov. 2011.
[6] R. V. Babu, S. Suresh, and A. Perkis, No-reference
JPEG-image quality assessment using GAP-RBF,
Signal Processing, vol. 87, no. 6, pp. 14931503, 2007.
[7] X. Jiang, F. Meng, J. Xu, and W. Zhou, No-Reference
Perceptual Video Quality Measurement for High
Defnition Videos Based on an Artifcial Neural
Network, in Computer and Electrical Engineering,
2008. ICCEE 2008. International Conference on, 2008,
pp. 424427.
[8] J. Choe, K. Lee, C. Lee, and S. Korea, No-reference
video quality measurement using neural networks, in
2009 16th International Conference on Digital Signal
Processing, 2009, pp. 14.
[9] S. Suresh, R. Venkatesh Babu, and H. J. Kim, Noreference
image quality assessment using modifed
extreme learning machine classifer, Applied Soft
Computing, vol. 9, no. 2, pp. 541552, Mar. 2009.
[10] A. M. Eskicioglu and P. S. Fisher, Image quality
measures and their performance, IEEE Transactions
on Communications, vol. 43, no. 12, pp. 29592965,
1995.
[11] U. Engelke and H.-J. Zepernick, Perceptual-based
Quality Metrics for Image and Video Services: A
Survey, in Proceedings EuroNGI Conf. Next
Generation Internet Networks, 2007, pp. 190197.
[12] Z. Wang, A. C. Bovik, H. R. Sheikh, and E. P
Simoncelli, Image quality assessment: from error
visibility to structural similarity., IEEE Transactions on
Image Processing, vol. 13, no. 4, pp. 600612, 2004.
[13] Z. Wang, E. P. Simoncelli, and A. C. Bovik, Multiscale
structural similarity for image quality assessment, in
The Thrity-Seventh Asilomar Conference on Signals,
Systems & Computers, 2003, 2003, vol. 2, no. 1, pp.
13981402.
[14] H. R. Wu, K. R. Rao, and A. A. Kassim, Digital Video
Image Quality and Perceptual Coding, Journal of
Electronic Imaging, vol. 16, no. 3, 2007.
[15] Z. Wang and A. C. Bovik, A universal image quality
index, IEEE Signal Processing Letters, vol. 9, no. 3,
pp. 8184, Mar. 2002.
[16] Y. Shi, Y. Ding, R. Zhang, and J. Li, Structure and Hue
Similarity for Color Image Quality Assessment, in 2009
International Conference on Electronic Computer
Technology, 2009, pp. 329333.
[17] W. B. Silva, A. A. P. Pohl, and K. V. O. Fonseca, A
Reduced-Reference Video Quality Assessment Method
based on the Activity-Diference of DCT Coefcients,
IEICE Transactions on Information and Systems, vol. E96-D, no. 3, 2013.
[18] P. Le Callet, C. Viard-Gaudin, and D. Barba, A Convolutional Neural Network Approach for Objective Video Quality Assessment, IEEE Transactions on Neural Networks, vol. 17, no. 5, pp. 13161327, 2006.
[19] P. Le Callet and D. Barba, Image Quality Assessment: From Sites Errors to a Global Appreciation of Quality, in Proceedings of the Picture Coding Sympsium, 2001, pp. 105108.
[20] M. Miyahara, K. Kotani, and V. R. Algazi, Objective picture quality scale (PQS) for image coding, IEEE Transactions on Communications, vol. 46, no. 9, pp. 12151226, 1998.
[21] M. Slanina, V. Ricny, and R. Forchheimer, A Novel Metric for H.264/AVC No-Reference Quality Assessment, in 14th International Workshop on Systems, Signals and Image Processing and 6th EURASIP Conference focused on Speech and Image Processing, Multimedia Communications and Services, 2007, pp. 114117.
[22] O. Sugimoto, S. Naito, S. Sakazawa, and A. Koike, Objective perceptual video quality measurement method based on hybrid no reference framework, in 16th IEEE International Conference on Image Processing (ICIP09), 2009, pp. 22372240.
[23] T. Oelbaum, C. Keimel, and K. Diepold, Rule-Based No-Reference Video Quality Evaluation Using Additionally Coded Videos, IEEE Journal of Selected Topics in Signal Processing, vol. 3, no. 2, pp. 294303, 2009.
[24] N. Staelens, N. Vercammen, Y. Dhondt, B. Vermeulen, P. Lambert, R. de Walle, and P. Demeester, ViQID: A No-Reference bit stream-based visual quality impairment detector, in Proceedings of the Second Int Quality of Multimedia Experience (QoMEX) Workshop, 2010, pp. 206211.
[25] F. Yang, S. Wan, Q. Xie, and H. R. Wu, No-Reference Quality Assessment for Networked Video via Primary Analysis of Bit Stream, IEEE Transactions on Circuits and Systems for Video Technology, vol. 20, no. 11, pp. 15441554, Nov. 2010.
[26] Z. Wang, H. R. Sheikh, and A. C. Bovik, Objective Video Quality Assessment, in The Handbook of Video Databases: Design and Applications, B. Furht and O. Marques, Eds. Boca Raton, FL, USA: CRC Press, 2003, pp. 10411078.
[27] W. B. da Silva and A. de A. P. Pohl, Mtodos Sem Referncia Baseados em Caractersticas Espao-Temporais para Avaliao Objetiva de Qualidade de Vdeo Digital, Universidade Tecnolgica Federal do Paran (UTFPR), 2013.
[28] G.-B. Huang, Q.-Y. Zhu, and C.-K. Siew, Extreme learning machine: Theory and applications, Neurocomputing, vol. 70, no. 13, pp. 489501, Dec. 2006.
[29] Z. Wang, H. R. Sheikh, and A. C. Bovik, No-reference perceptual quality assessment of JPEG compressed images, in Image Processing. 2002. Proceedings. IEEE International Conference on Image Processing, 2002, vol. 1, pp. vol.1 I477 I480.
[30] W. B. Silva and A. A. P. Pohl, No-Reference Video Quality Assessment Method based on the Levenberg-Marquardt Minimization, in XXX Brazilian Symposium on Telecommunications (SBrT12), 2012.
[31] ITU-T P.910, Subjective video quality assessment methods for multimedia applications, Standardization Sector of ITU, 1999.
[32] W. Ding, Y. Tong, Q. Zhang, and D. Yang, Image and Video Quality Assessment Using Neural Network and SVM, Tsinghua Science &amp; Technology, vol. 13, no. 1, pp. 112116, 2008.
[33] K. S. Banerjee, C. R. Rao, and S. K. Mitra, Generalized Inverse of Matrices and Its Applications, Technometrics, vol. 15, no. 1, p. 197, Feb. 1973.
[34] VQEG, Final report from the video quality experts group on the validation of reduced-reference and no-reference objective models for standard defnition television, Phase I, 2009.
[35] VQEG, Report on the validation of video quality models for high defnition video content, 2010.
[36] J. W. Tukey, Exploratory Data Analysis. New York: Addison-Wesley Publishing Company, 1977.
[37] P. Gastaldo and R. Zunino, Neural networks for the no-reference assessment of perceived quality, J. Electronic Imaging, vol. 14, no. 3, p. 033004, 2005.
[38] R. Herzog, M. adk, T. O. Aydn, K. I. Kim, K. Myszkowski, and H.-P. Seidel, NoRM: No-Reference Image Quality Metric for Realistic Image Synthesis, Comp. Graph. Forum, vol. 31, no. 2pt4, pp. 545554, 2012.
6

tecnologia, e psicolgicos, relacionados construo
do imaginrio e sensao de envolvimento. Segundo
a teoria da atividade, a relao desses dois aspectos,
que em outros termos podem compor tanto a atividade
quanto a ao ver TV, pode ser detalhada em uma
atividade de comunicao humana que envolve
sujeito, objeto, ferramenta e comunidade, dentro de
um contexto social, mediado por tecnologias.
Os sujeitos so pessoas ou grupos de pessoas
desenvolvendo a atividade ver TV. A comunidade
um grupo de pessoas que compartilha os mesmos
objetivos. Os objetos so objetivos ou motivos que
levam as pessoas a agirem. Neste caso, ver TV. As
ferramentas so a TV e a programao, que mediam a
atividade da comunicao, a nvel fsico e psicolgico,
respectivamente. J o contexto social o ambiente
onde tanto as pessoas, quanto a TV, alm da
programao, esto inseridos, influenciando e sendo
influenciados.
A atividade ver TV s pode ser compreendida
dentro deste contexto, onde todos esses fatores esto
relacionados e analisados. Essa relao
apresentada na Figura 2.


Figura 2: Estrutura e relaes da atividade ver TV.

Analisando os desdobramentos da teoria da
atividade na rea da Interao Humano Computador,
Kaptelinin concluiu que os seres humanos
usualmente usam computadores no porque querem
interagir com eles, mas porque querem atingir um
objetivo para alm da situao 'dialogar' com o
computador [10].
De forma similar, podemos considerar que as
pessoas assistem televiso com um determinado
propsito, seja ele se informar, passar o tempo, ou
simplesmente pela companhia e de acabar com o
silncio. Usar a TV vai alm dos atos de ligar, trocar
de canal ou desligar. H um objetivo maior guiado por
uma necessidade.
O prprio termo TV, ou televiso, confunde
programao e tecnologia. Mentalmente as pessoas
se programam para ver TV, pensando no contedo ou
na programao. Ningum pensaria na atividade ver
TV como o ato de ficar olhando para uma tela de vidro
projetando imagens sequencialmente e gerando a
iluso de continuidade. Neste caso, a mediao
mental, atravs das imagens criadas para identificar o
contedo e relacion-lo a experincias prprias,
gerando a identidade com a histria.
Por outro lado, as atividades comprar uma TV ou
trocar a TV de lugar esto relacionadas ferramenta
TV, ou seja, ao aparelho. Neste caso, a mediao
fsica, com alteraes no mundo real. Apesar desta
aparente separao, no possvel separar as duas
atividades. A atividade comprar uma TV est
diretamente relacionada com o objetivo ver TV, que
neste caso, ganha status de necessidade, guiando a
compra ou o posicionamento do aparelho na sala.
4.5 A origem da necessidade
No plano psicolgico, ou seja, em uma viso mais
restrita, a atividade a unidade da vida, mediada por
uma imagem, cuja funo orientar o sujeito no
mundo objetivo [6]. O objeto da atividade aparece de
duas formas: primeiro, na sua existncia
independente, comandando a atividade do sujeito e,
segundo, como a imagem mental do objeto, como
produto de identificao do sujeito e de suas
propriedades, que efetuada apenas pela atividade
do sujeito.
Ou seja, o objeto existe, independente da pessoa
perceb-lo ou no. A atividade se concretiza quando
um sujeito encontra esse objeto e o percebe, gerando
uma imagem mental dele. Essa imagem mental e seus
significados so definidos e formatados pela vivncia
pessoal, social e insero cultural da pessoa.
O mesmo acontece com a televiso. Ela, como
tecnologia e como programao, existe, independente
da percepo que o indivduo tenha. No entanto, a
atividade ver TV acontece no momento em que o
sujeito encontra o objeto. O valor do contedo e as
escolhas sobre a programao dependem dos
interesses e gostos da pessoa. Essa viso pessoal
desenvolvida durante toda vida, influenciada pela
famlia, por amigos, desejos de reconhecimento e
valorizao em grupo, necessidades profissionais,
entre outros.
De acordo com Leontiev, as aes usualmente
possuem vrias motivaes, sendo que duas ou mais
atividades podem estar voltadas para a mesma ao.
Ou seja, vrias atividades podem ter o mesmo
objetivo. No caso da atividade ver TV, a ao
resultante pode ser olhar para a tela da TV. Outras
atividades relacionadas podem ser passar o tempo, se
informar, dividir um contedo, ter barulho em casa.
O ato ver TV pode ser uma atividade, uma ao
ou uma operao. No caso da necessidade ser se
informar, a ao pode ser procurar um canal de
notcias, e a operao, prestar ateno no noticirio.
J no caso da necessidade ser a companhia, com
barulho em casa, a atividade se completa com o
objeto TV. Neste caso a ao ligar a TV, e a
operao, acompanhar inconscientemente a
programao, independente do programa que estiver
passando. Enquanto isso, a pessoa faz outras coisas,
como cozinhar ou limpar o quarto.
Neste caso, a necessidade define a atividade. O
papel da televiso muda de acordo com a
necessidade, impactando a ao e a operao. A
representao mental, ou seja, a imagem mental dos
objetos mostrados na tela da TV, tem significado a
TV/Contedo
Comunidade
Sociedade Pessoas
68 Revista de Radiodifuso v. 07 n. 08 2013
Pesquisas em ambientes digitais - TV Internet Radio Cinema

partir da operao, incluindo as condies e
restries. No caso da atividade ver TV, a ateno
est no contedo da programao, e
consequentemente, as imagens mentais acompanham
esse contedo. J no caso da necessidade ter
barulho em casa, a operao passa por outras
atividades, como a cozinha ou a limpeza.
5. Novo foco da medio
A partir da viso de que a TV a mediadora entre
o pessoal e o acesso informao e ao
entretenimento, o centro da anlise para a medio da
audincia precisa ser deslocado um pouco. Alm da
exposio, os ndices de audincia precisam
contemplar interesse e engajamento.
Neste caso da televiso, acontecem vrias
mediaes, desde a tecnolgica, que define e limita a
qualidade da imagem, at o reprter ou cinegrafista
que define o que ir compor a notcia. Sob a tica da
teoria da atividade, so vrias atividades intercaladas,
impossveis de serem separadas ou definidas
individualmente.
Pode-se considerar a mediao em diferentes
nveis, onde o mais bsico gera uma atividade de ligar
a TV, mediada pelo controle remoto, e o mais
avanado, a percepo de valor na programao,
mediada pelo prprio contedo dos programas, que
em ltima anlise, guia a atividade como um todo. O
nvel mais avanado inclui a mediao psicolgica,
com a construo de imagens mentais representando
as histrias apresentadas na TV.
Do ponto de vista tecnolgico, a atividade mais
bsica mediada pelo controle remoto. Em outras
palavras, o controle remoto a ferramenta que media
a pessoa e a TV, facilitando a escolha da
programao. A atividade trocar de canal usando o
controle remoto mais cmoda do que levantar e
mudar o canal no painel da TV.
Considerando o modelo baseado na exposio,
sua aplicao e limitao, e agregando a reflexo
acima, so trs os fatores que interferem na medio
e anlise da audincia. Neste novo modelo, o que
importa o comportamento da pessoa, mas este est
limitado pelos fatores de mdia e inserido dentro da
sociedade. Dessa forma, como tecnologia, a TV media
ambos: o individual e o social, limitado pelos fatores
de mdia.
Tem-se a seguir uma anlise mais detalhada
destes trs fatores.
5.1 Fatores de mdia e de emissoras
Retomando o modelo de [1], os fatores estruturais,
tanto de audincia quanto de mdia, compem as
principais limitaes para a exposio da audincia
mdia. Dessa forma, a cobertura, as opes de
contedo, a audincia potencial e a audincia
disponvel mantm a importncia.
Alm destes fatores, tcnicas de medio
interferem no resultado da medio e podem induzir
as anlises dos dados. As tcnicas de medio no
interferem na exposio, mas limitam ou expandem o
alcance dos dados gerados. Ou seja, a prpria
medio, com metodologias de coleta de dados e
disponibilizao das informaes, limita as anlises. A
partir dos dados coletados, so gerados ndices e
pesquisas, que dependem das informaes
existentes. No possvel analisar objetivamente um
dado que no est disponvel. Por exemplo, na
metodologia do Ibope impossvel determinar a
composio da audincia em relao ao uso
simultneo de tecnologias, pelo simples fato dessa
informao no ser coletada.
5.2 Fatores sociais e culturais
A televiso tem um papel importante na insero
social das pessoas. Alm das histrias representadas
na tela, que geram assuntos e discusses, a
programao incentiva e desenvolve gostos, estilos de
vida, de comportamento e de moda. Dependendo dos
referenciais pessoais e familiares, a pessoa segue
rigorosamente estilos apresentados por personagens
de programas televisivos.
Os relacionamentos so moldados a partir de
valores que as pessoas tm em comum. A percepo
do mundo e das relaes passa pela valorizao da
vivncia em grupo e em sociedade. As pessoas se
inserem em grupos de interesse comum para
compartilhar e vivenciar experincias.
Da mesma forma como a televiso gera assunto e
determina, em certo nvel, os temas das conversas
entre grupos, posturas e argumentos so derivados de
opinies e posies de dolos, seja no esporte ou na
dramaturgia. A opinio de um comentarista esportivo
amplamente repercutida, positiva ou negativamente,
dependendo das preferncias clubsticas pessoais.
No dominar o assunto ou no ter opinio sobre o
resultado do jogo, isola o indivduo do grupo. O
mesmo vlido para telenovelas, reality shows e
programas de auditrio, que despertam o interesse
pelo enredo das histrias, tramas e aes dos
personagens.
Antes das tecnologias digitais de comunicao, a
TV monopolizava os dilogos. Com a internet e o
acesso a contedos audiovisuais atravs dela, esse
monoplio foi quebrado. Hoje h concorrncia com
outras fontes. No caso de sries de TV, que possuem
janela de exibio brasileira diferente em relao aos
Estados Unidos, os fs baixam episdios e comentam,
seja pessoalmente, ou em redes sociais, gerando
debates que no fazem parte das grades de
programao.
Neste aspecto a concorrncia de contedos da
internet ganha maior relevncia em alguns crculos de
amigos do que a programao televisiva. Descobrir
um vdeo interessante na internet e repassar o mesmo
para a lista de amigos pode gerar um reconhecimento
maior do que dominar os temas de programas da TV.
Ao aceitar que h uma grande variedade de
contedos disponveis, e que basta localiz-los, a
dinmica das conversas em grupo se altera, sendo
Pesquisas em ambientes digitais - TV Internet Radio Cinema
Revista de Radiodifuso v. 07 n. 08 2013 69
MTRICA SEM REFERNCIA BASEADA EM REDES NEURAIS
PARA AVALIAO OBJETIVA DE QUALIDADE DE VDEO DIGITAL
Wyllian Bezerra da Silva, Alexandre de Almeida Prado Pohl
Programa de Ps-Graduao em Engenharia Eltrica e Informtica Industrial (CPGEI) UTFPR, Curitiba, Brasil
wyllianbs@gmail.com, pohl@utfpr.edu.br
Resumo: Este trabalho apresenta uma mtrica sem referncia para avaliao de qualidade de vdeo digital baseada em uma rede neural artifcial que usa uma verso estendida do algoritmo de aprendizado ELM (Extreme Learning Machine). O mtodo proposto realiza o treinamento da rede neural a partir de seis caractersticas espao-temporais. Os resultados experimentais mostram que o mtodo proposto apresenta desempenho superior s mtricas de referncia completa PSNR e MS-SSIM na tarefa de predio de qualidade de vdeo. Logo, o mtodo proposto pode ser usado no monitoramento de qualidade em sistemas de transmisso e recepo de vdeo digital, tais como IPTV e TV digital.
Palavras chave: algoritmo ELM, avaliao objetiva de vdeo, mtrica sem referncia, rede neural artifcial.
1. INTRODUO
Durante os ltimos anos, a literatura tem apresentado um nmero crescente publicaes acerca de mtricas objetivas para avaliao de qualidade de vdeo para diversas aplicaes em radiodifuso ou no processamento de vdeo digital, seja na aquisio do sinal, codifcao e decodifcao, compresso, transmisso, restaurao, armazenamento, segmentao e exibio de sinais de vdeo digital [14]. A avaliao de qualidade de vdeo digital pode ser realizada por meio de mtricas subjetiva e objetiva. A primeira requer uma grande quantidade de recursos humanos e apresenta elevado custo em sua implementao [13]. Porm, as mtricas objetivas so vantajosas quando apresentam um determinado grau de correlao com as mtricas subjetivas. Logo, o desenvolvimento destas um desafo no campo de avaliao de qualidade de vdeo e imagem. Alm disso, as mtricas objetivas, devido natureza de seu critrio objetivo, independem de interao humana e so facilmente reprodutveis [3]. Dentre as mtricas objetivas destacam-se as mtricas sem referncia (No-Reference NR), pois no necessitam do vdeo de referncia no clculo de sua medida. Entretanto, estas requerem um conhecimento a priori sobre as distores em vdeo digital para que seja estabelecida uma correlao com os resultados subjetivos [3].
A maioria das mtricas NR encontradas na literatura so baseadas na avaliao de qualidade de imagens e em caractersticas relacionadas ao Sistema Visual Humano (SVH). Assim, o desenvolvimento de mtricas NR difcil, devido necessidade de emular a percepo do SVH que envolve aspectos cognitivos, emocionais e estticos relacionados ao contedo do vdeo e que so altamente dependentes do observador [4], [5].
A literatura reporta diversos esforos no desenvolvimento de mtricas para avaliao de qualidade de vdeo baseadas em redes neurais e em algoritmos de aprendizado. Babu et al. [6] apresentam uma mtrica para avaliar a qualidade de imagens comprimidas em JPEG (Joint Photographic Experts Group) por meio de um algoritmo de aprendizado de crescimento e propem o uso de uma rede neural GAP-RBF (Growing and Pruning Radial Basis Function) que usa caractersticas relacionadas ao SVH. Jiang et al. [7] desenvolveram uma mtrica NR para avaliao de qualidade de vdeo em HD (High Defnition) baseada em uma rede neural treinada pelo algoritmo BP (Back-Propagation) que usa seis caractersticas espao-temporais e a RoI (Region of Interest). Choe et al. [8] desenvolveram uma mtrica NR baseada no fuxo de bits para avaliao de qualidade de vdeo codifcado em H.264. Esta mtrica extrai caractersticas quadro a quadro e usa uma rede neural alimentada adiante (feedforward) com trs camadas. Suresh et al. [9] apresentaram uma extenso do algoritmo ELM na tarefa de avaliar a qualidade de imagens comprimidas em JPEG com base no esquema de seleo mltipla KS-ELM (K-fold selection Scheme using ELM) e no algoritmo RCGA-ELM (Real-Coded Genetic Algorithm using ELM) para seleo dos pesos de entrada e polarizaes.
Este trabalho apresenta uma verso estendida do algoritmo ELM para redes neurais SLFN (Single-hidden-Layer Feedforward Neural Networks) que implementa um simples critrio de parada na fase de treinamento. Alm disso, esse mtodo usa seis caractersticas espao-temporais de vdeos submetidos a diversas condies de distoro.
Este artigo est dividido da seguinte maneira: a Seo 2 descreve as mtricas para avaliao de qualidade de vdeo. A Seo 3 descreve o mtodo NR proposto para avalio de qualidade de vdeo digital. A Seo 4 apresenta os resultados experimentais, em que so comparados o mtodo NR proposto e duas mtricas FR. Finalmente, a Seo 5 apresenta a concluso do artigo.
2. AVALIAO DE QUALIDADE DE VDEO
O processo de avaliao de qualidade de vdeo
pode ser realizado com a aplicao de mtricas
subjetivas ou objetivas. As mtricas subjetivas
estimam a qualidade do vdeo por meio de avaliadores
humanos. Logo, exigem um alto custo, pois
necessitam de uma grande quantidade de recursos
humanos e apresentam problemas quanto aos
requisitos de imparcialidade e reprodutibilidade,
tornando-se inapropriadas em sistemas de
radiodifuso ou em provedores de contedo [10], [11].
Por outro lado, as mtricas objetivas so baseadas em
modelos matemticos, cujo objetivo produzir um
escore de qualidade que emule a percepo do SVH.
Alm disso, as mtricas objetivas requerem baixo
custo de implementao (quando comparadas com as
mtricas subjetivas) e no apresentam problemas
quanto reprodutibilidade e imparcialidade.
As mtricas objetivas para avaliao de qualidade
de vdeo podem ser classifcadas em trs categorias:
(i) mtricas de referncia completa (Full-Reference
FR); (ii) mtricas de referncia reduzida (Reduced-
Reference RR); (iii) mtricas sem referncia (NR).
2.1. Mtricas FR
As mtricas FR requerem o vdeo de referncia
(fonte) no clculo do escore de qualidade. Estas
mtricas so amplamente utilizadas no processo de
validao de mtricas RR ou NR, por meio da
comparao de desempenho defnida pelas
recomendaes do Grupo de Especialistas em
Qualidade de Vdeo (VQEG Video Quality Experts
Group) que um rgo de padronizao internacional
de mtricas subjetivas e objetivas de qualidade de
vdeo. Dentre as mtricas FR, destacam-se o PSNR
(Peak Signal-to-Noise Ratio), SSIM (Structural
SIMilarity index) [12] e MS-SSIM (Multi-Scale
Structural SIMilarity index) [13].
O PSNR uma mtrica FR baseada no erro pixel a
pixel de fcil implementao. Entretanto, apresenta
baixa correlao com o SVH [14]. A sua medida
processada sobre o erro quadro a quadro, i.e., entre o
quadro original x e o quadro y . A expresso a seguir
defne o PSNR para um conjunto de quadros F .
20
1
1
PSNR 20log ,
F
f
f f
v
F MSE



(1)
com

2
0 0
1
MSE , , , , ,
N M
f
i j
x f i j y f i j
NM

(2)
em que o termo f v igual a (2 1) k , cujo k o
nmero de bits por pixel, i.e., a componente de
luminncia do quadro f . Os termos x f ,i, j e
y f ,i, j so os valores de luminncia do quadro de
origem e degradado, respectivamente. As
componentes bidimensionais so representadas pelo
nmero de colunas N e pelo nmero de linhas M . O
termo f MSE defnido como erro quadrtico mdio
ou MSE (Mean Square Error).
A mtrica SSIM baseia-se no fato de que o SVH
fortemente adaptado para extrair informaes das
caractersticas estruturais de um quadro ou imagem.
Logo, uma medida de similaridade estrutural (ou
distoro) pode prover boa aproximao para a
qualidade perceptual de um vdeo [3, 79]. Sejam x e
y dois sinais no-negativos, em que y o sinal
degradado e x o sinal original (sem perda de
qualidade), a medida de similaridade utilizada como
um ndice quantitativo de qualidade do sinal distorcido,
ou seja, x tomado como a referncia para medir a
qualidade de y . A mtrica SSIM possui diversas
extenses, dentre as quais a verso MS-SSIM,
proposta por Wang et al. [13] que assume uma
abordagem multiescalar.
2.2. Mtricas RR
As mtricas de referncia reduzida retiram certa
quantidade de caractersticas do vdeo original (fonte),
baseadas em componentes espaciais, temporais, no
domnio da frequncia ou no fuxo de bits (bitstream).
Este tipo de mtrica amplamente utilizada no
monitoramento de transmisses em rede [17]. Neste
tipo de cenrio de aplicao, o vdeo transmitido
com uma sequncia de informao codifcada
(overhead) e no lado receptor ocorre a sua
decodifcao, seguido pelo clculo do ndice de
qualidade, o qual obtido por meio da comparao
entre a representao reduzida da informao nos
pares emissor e receptor [18]. Tipicamente, mtricas
RR so implementadas por meio de funes, divididas
em duas etapas [19]: (i) clculo do erro entre os
vdeos original e distorcido, constitudo pela diferena
de suas caractersticas, a fm de compor a
representao reduzida da informao; (ii) funo que
agrupa os erros ou diferenas para obter um ndice de
qualidade global. Algumas mtricas RR exploram
propriedades dos artefatos, por meio da extrao de
caractersticas e um modelo de parametrizao [20]
com foco em tipos especfcos de distores
(artefatos). Esta abordagem encontrada em Silva et
al. [17], cujo clculo do escore de qualidade
baseado na diferena de atividade dos coefcientes
DCT (Discrete Cosine Transform) em um macro bloco
com resoluo de 1616 pixels.
2.3. Mtricas NR
As mtricas NR extraem caractersticas
relacionadas ao SVH do vdeo distorcido, i.e., na
recepo do sinal de vdeo [14]. Tipicamente, h duas
abordagens no desenvolvimento destas mtricas: (i)
extrao dos parmetros sobre o fuxo de bits, tais
como a taxa de compresso, informaes
relacionadas ao GoP (Group of Pictures), estimao
de movimento, perfl e nvel de codifcao, bem como
o parmetro de quantizao ou QP (Quantization
Parameter) [2125]. Mtricas NR apresentam maior
complexidade quando so aplicadas em vdeo, devido
variao temporal dos quadros, contedos das
cenas e difculdade de compreenso das
caractersticas do SVH [26]. Assim, algumas mtricas
dessa categoria exploram caractersticas espaciais e
temporais na estimao de qualidade de vdeo [21].
3. MTODO PROPOSTO
O mtodo proposto, denominado NRVQA-ELMtc
(No-Reference Video Quality Assessment using
Extreme Learning Machine algorithm with termination
criteria) [27] combina caractersticas espaciais e
temporais, por meio de uma rede neural artifcial
SLFNs usando o algoritmo de treinamento ELM [28]
com a implementao de um simples critrio de
parada.
3.1. Caractersticas espao-temporais
As caractersticas espaciais incorporadas no
mtodo proposto so baseadas em medidas de
artefatos em vdeo digital, i.e., distores de blocagem
e borramento desenvolvidas por Wang et al. [20].
Assim, a componente de luminncia do quadro f
representada por y(f , i, j ) com i 1,M e j 1, N ,
em que M e N so os nmeros de linhas e colunas,
respectivamente, de um quadro. Logo, as diferenas
de luminncia ao longo das linhas e colunas so
representadas, respectivamente, pelas expresses a
seguir.


, , , , 1 , , , 1, 1 ,
, , , 1, , , , 1, 1 .
h
v
d f i j y f i j y f i j j N
d f i j y f i j y f i j i M


(3)
O efeito de blocagem pode ser estimado pela
mdia das diferenas entre as bordas dos blocos da
DCT (Discrete Cosine Transform) nas direes
horizontal e vertical para uma sequncia F de
quadros, conforme mostra a Equao (4), com um
macrobloco de dimenso , cujo tamanho tpico
de 8 [20].


1
1
1 1 1
1
1
1 1 1
1
, , 1 ,
1
1
1
, 1 , .
1
1
N
F M
h h
f i j
M
F N
v
i j
v
f
B d f i j
N
F M
B d f i j
M
F N












(4)
A medida de blocagem em uma sequncia de
vdeo com F quadros determinada pela mdia entre
h B e v B , caracterizando a medida B , conforme a
expresso a seguir.
.
2
h v B B
B

(5)
Os efeitos de borramento so estimados pelo
clculo da reduo de atividade entre os blocos ,
em que usada a medida de blocagem nas direes
horizontal e vertical, conforme as expresses




1
1 1 1
1
1 1 1
, , ,
1 1
, ,
1
.
1
F M N
h h h
f i j
F M N
v v
f
v
i j
A d f i j B
F M N
A d f i j B
F N M








(6)
A medida de borramento, representada por A ,
conforme a Equao (7), determinada pela mdia
entre h A e v A .
.
2
h v A A
A

(7)
O segundo fator que contribui para a deteco do
artefato de borramento baseado na taxa de
cruzamento por zero (Zero Crossing ZC) nas
direes horizontal e vertical, conforme as expresses
a seguir.




2
1 1 1
2
1 1 1
1
, , ,
2
1
, , ,
2
F M N
h h
f i j
F M N
v v
f i j
Z z f i j
F M N
Z z f i j
F N M




(8)
em que os termos h z e v z so determinados por


1, na direo horizontal
, , ,
0, caso contrrio
1, na direo vertical
, , .
0, caso contrrio
h
v
z f i j
z f i j



(9)
Assim, a medida de borramento Z determinada
pela mdia entre as componentes h Z e v Z .
.
2
h v Z Z
Z

(10)
O mtodo proposto tambm incorpora trs
caractersticas temporais no treinamento da rede
neural SLFN com o algoritmo ELM.
A primeira caracterstica temporal a diferena de
movimento entre quadros adjacentes, representada
pela varivel TI (Temporal perceptual Information) [31]
que considera os valores de luminncia de pixels
localizados em uma mesma regio de um quadro,
conforme a expresso a seguir.

2
1
, , ,
1
F
f
TI m f i j
F


(11)
em que o nmero total de quadros F e mf ,i, j

o desvio padro da diferena de movimento
(diferena de luminncia) entre o quadro atual
y f ,i, j e o quadro anterior y f 1,i, j .
A segunda caracterstica temporal a mdia da
diferena absoluta (Mean Absolute Diference MAD)
[31] entre quadros sucessivos, representada pela
Equao (12) que defne a medida global da MAD
para todos os quadros de um vdeo.


2 1 1
1
, , 1, , .
1
F M N
f i j
MAD y f i j y f i j
M N F



(12)
A terceira caracterstica temporal a mdia da
diferena absoluta ponderada (weighted Mean
Absolute Diference MADw) [32], a qual mede o grau
de variao das cenas de um vdeo que considera a
cena atual de um quadro f e do quadro anterior f 1,
conforme a expresso:
2 1
1
.
1
F
f
f f
MAD
MADw
F MAD


(13)
Assim, o mtodo proposto combina as
caractersticas espaciais e temporais em uma matriz
, , , , , f f f f f f f x A B Z TI MAD MADw , em que f o
nmero de amostras de vdeo. A Figura 1 apresenta
as caractersticas temporais espaciais de dezessete
bases de dados de vdeos (denominada superconjunto
S) usadas neste trabalho e reportadas em [27]. A
recomendao ITU-T P.910 [31] defne a medida SI
(Spatial perceptual Information) como informao
espacial perceptual. A inspeo visual dessa fgura
mostra que as amostras de vdeo usadas neste
trabalho apresentam uma grande variao espaotemporal.
Fig. 1. Caractersticas espaciais e temporais do superconjunto
S com 216 amostras de referncia
3.2. Mtrica NRVQA-ELMtc
O algoritmo ELM [28] desenvolvido para o
treinamento de uma rede SLFN atribui pesos e
polarizaes (biases) de maneira aleatria, segundo
uma distribuio uniforme. O treinamento compreende
N amostras distintas representadas pela varivel
, , , 1, , n m
f f f f x t x t f N , cujo clculo
conforme a expresso

1
, 1, , ,
K
K i j j f j f
f
f g b f N

x w x o (14)
em que f o a sada (escore objetivo), g(x) a
funo de ativao e j o peso que conecta o jsimo
neurnio da camada oculta ao neurnio de
sada. De acordo com [28], uma rede SLFN com K
ns na camada oculta e uma funo de ativao g(x)
pode apresentar um erro mdio prximo de zero, i.e.,
1
0
K
f f
f
o t . Logo, h parmetros j , j w e j b tal
que

1
, 1, , ,
K
j j f j f
f
g b f N

w x t (15)
em que f t o vetor alvo (escores subjetivos),
T
1, , j j jn w w w o vetor de peso que conecta o jsimo
neurnio da camada oculta ao neurnio da
camada de entrada, j b denota a polarizao (bias) do
j-simo neurnio da camada oculta, j f w x o
produto interno de j w e f x . A Figura 2 ilustra o
algoritmo ELM empregado em uma arquitetura de
rede neural SLFN.
xi
1
j
N
1
j
K
ti
bj
N input neuron K hidden neuron output neuron
1
K
wj
Fig. 2. Arquitetura de uma rede neural SLFN usando algoritmo
de treinamento ELM
O sistema linear da Equao (16) resume o mtodo
do algoritmo ELM.
H T, (16)
em que a matriz da camada oculta representada por
1, , and 1, , f H h f N j K com a primeira
linha da matriz de caractersticas f x igual a
T
1 2 , , , f f f fn x x x x , i.e., a primeira linha igual a
1 1 1 1 1 1 1 , , , , , f f f f f f f x A B Z TI MAD MADw . A matriz de
sada e o vetor alvo (target) so defnidos como
T
1 , K e
T
1, , N T t t , respectivamente. O
termo
T
1 , 1, , j jm j j K denota o vetor de
peso que conecta o j-simo neurnio da camada
oculta e os neurnios de sada. Hung et al. [28]
propuseram a atribuio aleatria de pesos aos
parmetros j w e j b , a fm de seja obtido um pequeno
erro no-nulo durante o treinamento. Considerando o
sistema linear da Equao (17), os pesos da camada
de sada podem ser aproximados por
H T (17)
em que H defnida como matriz inversa
generalizada de Moore-Penrose (MP) [33] da matriz
de sada da camada oculta H . Alm disso, o
conjunto de treinamento , n oculta K e uma
funo de ativao g x , e.g., funo de base radial
(Radial Basis Function RBF), hard-limiting (hardlim),
sigmoidal (sig) e seno (sin). Em resumo, o algoritmo
ELM compreende trs etapas [28]:
i) Atribuio aleatria dos pesos de entrada j w e
polarizaes j b ;
ii) Clculo da matriz da camada de sada H ;
iii) Clculo dos pesos de sada : H T .
O mtodo NRVQA-ELMtc [27] implementa um
simples critrio de parada no treinamento da rede
neural SLFN, quanto atribuio aleatria dos pesos
j w e j b . Embora este critrio no seja direcionado,
busca os pesos relacionados com o menor RMSE
(Root-Mean-Square Error) entre a sada desejada
(escore subjetivo) e o escore objetivo na fase de
treinamento com k iteraes (tipicamente, k 100 ) e
N neurnios na camada oculta. Alm disso, conforme
estudo realizado em [27], caso o RMSE seja menor do
que 0,5 o algoritmo cessa a busca pelos parmetros
j w e j b .
4. RESULTADOS EXPERIMENTAIS
Esta seo apresenta os resultados de acurcia,
i.e., os coefcientes de correlao linear de Pearson
(Pearson Linear Correlation Coefcient PLCC) [34],
[35], entre os escores objetivos e subjetivos de 2627
amostras de vdeo estudadas em [27].
A Figura 3 compara a acurcia (PLCC) entre as
mtricas de referncia completa (FR) PSNR e MSSSIM
com o mtodo proposto (NRVQA-ELMtc) para
as 2627 amostras de vdeo, pertencentes a 17 bases
de dados de vdeo disponibilizadas por diversas
instituies e laboratrios [27]. A funo de ativao
usada na rede neural SLFN foi o seno (sin) com o
nmero de amostras de teste igual ao nmero de
neurnios na camada oculta ( N ). O mtodo de
validao cruzada mltipla (K-fold) foi usado com o
objetivo de gerar uma distribuio de acurcia, a qual
foi analisada por meio do diagrama de caixa (box-plot)
[36], em que o trao, o crculo e o quadrado, ambos
em vermelho, representam a mediana, a mdia e o
desvio padro, respectivamente. Destaca-se que
neste trabalho foi empregada uma validao cruzada
com um grande nmero de amostras de treinamentoteste
com K 100 , i.e., cada caixa do box-plot
comporta 100 experimentos distintos. Tipicamente, a
literatura apresenta trabalhos no campo da avaliao
Fig. 3. Box-plot da predio da acurcia (PLCC) entre as mtricas PSNR, MS-SSIM e o mtodo proposto NRVQA-ELMtc
de qualidade de vdeo com K entre 5 e 10 [37], [38].
Pela inspeo visual da Figura 3 observa-se que o
desempenho do mtodo proposto superior s
mtricas FR, em quaisquer condies de teste, i.e.,
para qualquer quantidade de amostras de teste
(nmero de neurnios na camada oculta) entre 25 e
500. Em especial, para N 50 , o mtodo proposto
apresenta valores de PLCC, em termos da mdia e
mediana, acima de 0,8, denotando uma forte
associao entre os escores objetivos e subjetivos, na
tarefa de predio de qualidade de vdeo. Isto ocorre
devido grande quantidade de amostras de vdeo
usadas no treinamento, e.g., para N 300 foram
usadas 2327 amostras de treinamento, ou seja,
mesmo usando pares de treinamento-teste disjuntos,
o mtodo proposto mostra uma acurcia superior s
mtricas de referncia completa. A assimetria positiva,
i.e., a maior concentrao da acurcia entre o
segundo quartil (mediana) e o terceiro quartil, na
distribuio do box-plot nos testes com 300 e 500
neurnios na camada oculta, indica que o mtodo
proposto apresenta um desempenho expressivo em
comparao com as mtricas FR.
Entretanto, mesmo para N entre 25 e 50, o
mtodo proposto apresentou uma acurcia maior do
que as mtricas FR, cujo melhor resultado foi para
N 25 com o desvio-quartil (amplitude interquartlica)
confnado entre 0,65 e 0,8. Alm disso, este resultado
tambm apresentou assimetria positiva com a mdia
do PLCC em torno de 0,75.
5. CONCLUSO
Este trabalho apresentou uma mtrica NR baseada
em uma rede neural artifcial SLFN, cujo treinamento
determinado pelo algoritmo ELM, o qual considera
caractersticas espao-temporais e os escores
subjetivos (alvos) extrados de 2627 amostras
treinamento. Alm disso, este trabalho prope uma
extenso do algoritmo ELM por meio de um simples
critrio de parada, a fm de que sejam obtidos
parmetros da rede neural artifcial relacionados com
o menor RMSE. Tipicamente, a comparao entre
mtricas FR e NR injusta, devido ausncia do
vdeo de referncia na obteno do escore de
qualidade em mtricas NR. Entretanto, os resultados
experimentais mostram que o mtodo proposto
apresentou desempenho superior s mtricas de
referncia completa PSNR e MS-SSIM, sobretudo,
quando o nmero de amostras de teste e de neurnios
na camada oculta da rede SLFN maior do que 250.
Logo, a mtrica NRVQA-ELMtc pode ser empregada
no monitoramento de qualidade em sistemas de
transmisso e recepo de vdeo digital, tais como
IPTV (Internet Protocol Television), TV digital ou em
dispositivos mveis, tais como ultrabooks,
smartphones, tablets e em aparelhos WiDi (Wireless
Display).
REFERNCIAS
[1] S. Winkler, Issues in vision modeling for perceptual
video quality assessment, Signal Processing, vol. 78,
no. 2, pp. 231252, 1999.
[2] Z. Wang and A. C. Bovik, Modern image quality
assessment. San Rafael, CA: Morgan & Claypool,
2006.
[3] W. Lin and C.-C. Jay Kuo, Perceptual visual quality
metrics: A survey, Journal of Visual Communication
and Image Representation, vol. 22, no. 4, pp. 297312,
May 2011.
[4] S. S. Hemami and A. R. Reibman, No-reference image
and video quality estimation: Applications and humanmotivated
design, Signal Processing: Image
Communication, vol. 25, no. 7, pp. 469481, 2010.
[5] Z. Wang and A. Bovik, Reduced- and No-Reference
Image Quality Assessment, IEEE Signal Processing
Magazine, vol. 28, no. 6, pp. 2940, Nov. 2011.
[6] R. V. Babu, S. Suresh, and A. Perkis, No-reference
JPEG-image quality assessment using GAP-RBF,
Signal Processing, vol. 87, no. 6, pp. 14931503, 2007.
[7] X. Jiang, F. Meng, J. Xu, and W. Zhou, No-Reference
Perceptual Video Quality Measurement for High
Defnition Videos Based on an Artifcial Neural
Network, in Computer and Electrical Engineering,
2008. ICCEE 2008. International Conference on, 2008,
pp. 424427.
[8] J. Choe, K. Lee, C. Lee, and S. Korea, No-reference
video quality measurement using neural networks, in
2009 16th International Conference on Digital Signal
Processing, 2009, pp. 14.
[9] S. Suresh, R. Venkatesh Babu, and H. J. Kim, Noreference
image quality assessment using modifed
extreme learning machine classifer, Applied Soft
Computing, vol. 9, no. 2, pp. 541552, Mar. 2009.
[10] A. M. Eskicioglu and P. S. Fisher, Image quality
measures and their performance, IEEE Transactions
on Communications, vol. 43, no. 12, pp. 29592965,
1995.
[11] U. Engelke and H.-J. Zepernick, Perceptual-based
Quality Metrics for Image and Video Services: A
Survey, in Proceedings EuroNGI Conf. Next
Generation Internet Networks, 2007, pp. 190197.
[12] Z. Wang, A. C. Bovik, H. R. Sheikh, and E. P
Simoncelli, Image quality assessment: from error
visibility to structural similarity., IEEE Transactions on
Image Processing, vol. 13, no. 4, pp. 600612, 2004.
[13] Z. Wang, E. P. Simoncelli, and A. C. Bovik, Multiscale
structural similarity for image quality assessment, in
The Thrity-Seventh Asilomar Conference on Signals,
Systems & Computers, 2003, 2003, vol. 2, no. 1, pp.
13981402.
[14] H. R. Wu, K. R. Rao, and A. A. Kassim, Digital Video
Image Quality and Perceptual Coding, Journal of
Electronic Imaging, vol. 16, no. 3, 2007.
[15] Z. Wang and A. C. Bovik, A universal image quality
index, IEEE Signal Processing Letters, vol. 9, no. 3,
pp. 8184, Mar. 2002.
[16] Y. Shi, Y. Ding, R. Zhang, and J. Li, Structure and Hue
Similarity for Color Image Quality Assessment, in 2009
International Conference on Electronic Computer
Technology, 2009, pp. 329333.
[17] W. B. Silva, A. A. P. Pohl, and K. V. O. Fonseca, A
Reduced-Reference Video Quality Assessment Method
based on the Activity-Diference of DCT Coefcients,
IEICE Transactions on Information and Systems, vol. E96-D, no. 3, 2013.
[18] P. Le Callet, C. Viard-Gaudin, and D. Barba, A Convolutional Neural Network Approach for Objective Video Quality Assessment, IEEE Transactions on Neural Networks, vol. 17, no. 5, pp. 13161327, 2006.
[19] P. Le Callet and D. Barba, Image Quality Assessment: From Sites Errors to a Global Appreciation of Quality, in Proceedings of the Picture Coding Sympsium, 2001, pp. 105108.
[20] M. Miyahara, K. Kotani, and V. R. Algazi, Objective picture quality scale (PQS) for image coding, IEEE Transactions on Communications, vol. 46, no. 9, pp. 12151226, 1998.
[21] M. Slanina, V. Ricny, and R. Forchheimer, A Novel Metric for H.264/AVC No-Reference Quality Assessment, in 14th International Workshop on Systems, Signals and Image Processing and 6th EURASIP Conference focused on Speech and Image Processing, Multimedia Communications and Services, 2007, pp. 114117.
[22] O. Sugimoto, S. Naito, S. Sakazawa, and A. Koike, Objective perceptual video quality measurement method based on hybrid no reference framework, in 16th IEEE International Conference on Image Processing (ICIP09), 2009, pp. 22372240.
[23] T. Oelbaum, C. Keimel, and K. Diepold, Rule-Based No-Reference Video Quality Evaluation Using Additionally Coded Videos, IEEE Journal of Selected Topics in Signal Processing, vol. 3, no. 2, pp. 294303, 2009.
[24] N. Staelens, N. Vercammen, Y. Dhondt, B. Vermeulen, P. Lambert, R. de Walle, and P. Demeester, ViQID: A No-Reference bit stream-based visual quality impairment detector, in Proceedings of the Second Int Quality of Multimedia Experience (QoMEX) Workshop, 2010, pp. 206211.
[25] F. Yang, S. Wan, Q. Xie, and H. R. Wu, No-Reference Quality Assessment for Networked Video via Primary Analysis of Bit Stream, IEEE Transactions on Circuits and Systems for Video Technology, vol. 20, no. 11, pp. 15441554, Nov. 2010.
[26] Z. Wang, H. R. Sheikh, and A. C. Bovik, Objective Video Quality Assessment, in The Handbook of Video Databases: Design and Applications, B. Furht and O. Marques, Eds. Boca Raton, FL, USA: CRC Press, 2003, pp. 10411078.
[27] W. B. da Silva and A. de A. P. Pohl, Mtodos Sem Referncia Baseados em Caractersticas Espao-Temporais para Avaliao Objetiva de Qualidade de Vdeo Digital, Universidade Tecnolgica Federal do Paran (UTFPR), 2013.
[28] G.-B. Huang, Q.-Y. Zhu, and C.-K. Siew, Extreme learning machine: Theory and applications, Neurocomputing, vol. 70, no. 13, pp. 489501, Dec. 2006.
[29] Z. Wang, H. R. Sheikh, and A. C. Bovik, No-reference perceptual quality assessment of JPEG compressed images, in Image Processing. 2002. Proceedings. IEEE International Conference on Image Processing, 2002, vol. 1, pp. vol.1 I477 I480.
[30] W. B. Silva and A. A. P. Pohl, No-Reference Video Quality Assessment Method based on the Levenberg-Marquardt Minimization, in XXX Brazilian Symposium on Telecommunications (SBrT12), 2012.
[31] ITU-T P.910, Subjective video quality assessment methods for multimedia applications, Standardization Sector of ITU, 1999.
[32] W. Ding, Y. Tong, Q. Zhang, and D. Yang, Image and Video Quality Assessment Using Neural Network and SVM, Tsinghua Science &amp; Technology, vol. 13, no. 1, pp. 112116, 2008.
[33] K. S. Banerjee, C. R. Rao, and S. K. Mitra, Generalized Inverse of Matrices and Its Applications, Technometrics, vol. 15, no. 1, p. 197, Feb. 1973.
[34] VQEG, Final report from the video quality experts group on the validation of reduced-reference and no-reference objective models for standard defnition television, Phase I, 2009.
[35] VQEG, Report on the validation of video quality models for high defnition video content, 2010.
[36] J. W. Tukey, Exploratory Data Analysis. New York: Addison-Wesley Publishing Company, 1977.
[37] P. Gastaldo and R. Zunino, Neural networks for the no-reference assessment of perceived quality, J. Electronic Imaging, vol. 14, no. 3, p. 033004, 2005.
[38] R. Herzog, M. adk, T. O. Aydn, K. I. Kim, K. Myszkowski, and H.-P. Seidel, NoRM: No-Reference Image Quality Metric for Realistic Image Synthesis, Comp. Graph. Forum, vol. 31, no. 2pt4, pp. 545554, 2012.
8

gerida no mais pelo comportamento de um
personagem da TV, mas pelo que um integrante do
grupo considerou legal e conseguiu convencer os
demais sobre isso.
Esse processo acentuado com a oferta cada vez
maior de TVs conectadas internet e celulares com
acesso a contedos audiovisuais. Acrescentando as
redes de banda larga, temos os ingredientes de um
meio alternativo TV, de desenvolvimento das
habilidades de insero social.
Ao permitir o acesso internet, a TV liberta a
imaginao e a ao do usurio, ao contrrio da
televiso, que busca o monoplio da ateno.
Lembrando que mudanas na tecnologia geram
mudanas de uso e de percepo de valor, o que,
consequentemente, afeta a atividade [9]. Dessa forma,
uma pessoa com acesso a recursos digitais assiste TV
e valoriza o contedo de uma forma totalmente
diferente de outra pessoa com acesso apenas TV
analgica. H uma retroalimentao, onde a pessoa
vai alterando as expectativas e a forma de uso
conforme aprende.
Isso mais perceptvel nas geraes mais novas.
Ao inclurem tecnologias como celulares,
computadores portteis e insero social atravs de
redes sociais, a atividade ver TV deixa de ser
exclusiva. O jovem usa todas as tecnologias
acessveis simultaneamente, sem comprometer a
atividade principal, que pode ser estudar ou conversar
com amigos on line. O uso simultneo das tecnologias
meramente a ao necessria para gerar a
operao.
A percepo que o jovem tem da tecnologia
diferente de uma pessoa adulta, que no conviveu a
vida toda com o digital. A pessoa que aprendeu a usar
uma tecnologia por necessidade faz um determinado
tipo de uso, normalmente consciente. Ou seja, a
tecnologia ainda o objeto da atividade. Quando
muito, representa a ao.
No caso de pessoas que foram educadas com
tecnologias digitais, o uso inconsciente,
representando geralmente a operao. A pessoa quer
enviar uma mensagem (necessidade), pensa e
visualiza o texto (objeto), digita e anexa uma foto
(ao), e espera o retorno. As rotinas para
desenvolver a ao (pegar o celular, abrir nova
mensagem, buscar as letras corretas e apertar o boto
enviar) foram totalmente inconscientes.
Ou seja, o uso de vrias tecnologias digitais a nvel
de operao da ao da atividade no compromete o
desempenho, pelo contrrio. Ao no precisar pensar
sobre as rotinas, a pessoa ganha agilidade e eficincia
na comunicao. Neste caso, a percepo de valor e
de importncia da comunicao se restringe
mensagem, no tecnologia.
Apesar disso, a tecnologia tem valor no convvio,
onde ela tema de discusses e trocas de
informaes. A atividade conversar pode ter como
foco, e objeto, as tecnologias envolvidas e que
subsidiam a comunicao distncia. O tipo de
tecnologia e a forma de uso so influenciados por
integrantes mais familiarizados com os recursos e
limitaes.
5.3 Fatores pessoais
Os fatores pessoais que influenciam a atividade
ver TV so: tecnologias disponveis, assinaturas,
conhecimento da oferta, preferncias, tomada de
deciso, condies de uso, demanda e
mobilidade/localizao. Na sequncia feita uma
anlise detalhada de cada um destes fatores.
Tecnologias disponveis
H alguns anos, a experincia ver TV estava
restrita sala de estar, onde ficava a TV, com lugar de
destaque. A audincia era predominantemente
coletiva. Com o passar do tempo e com o
barateamento dos equipamentos, a presena de
televisores nos quartos se acentuou, iniciando um
processo de assistncia individual.
Alm disso, a internet, gravadores digitais,
videogames, entre outros, podem ter dois impactos
opostos na audincia. Se por um lado h concorrncia
pelo tempo disponvel, por outro essas tecnologias
podem completar a experincia, e consequentemente,
a atividade, ver TV. O resgate na internet de
programas perdidos, ou a gravao das atraes,
mantm a audincia, mas no contabilizada pelas
medies.
As novas tecnologias de gravao no tm
abordagem unnime entre os institutos de pesquisa. O
Instituto Nielsen no considera o momento da
gravao do programa para os ndices de audincia,
mesmo que tenha algum assistindo. J o Ibope
considera os programas gravados dentro do item
outros, com o mesmo peso de DVDs ou videogames.
Assinaturas
Assim como as tecnologias, servios e assinaturas
de jornais e revistas competem pelo tempo disponvel
das pessoas. Enquanto uma pessoa est lendo, a
ateno no est totalmente voltada TV, mesmo que
ela esteja ligada. Dessa forma, o recebimento de
materiais impressos pode afetar o tempo dedicado
televiso.
Conhecimento da oferta
A digitalizao dos meios de comunicao
aumenta a oferta quantitativa de contedos. A TV
digital possui sinal mais robusto do que a analgica, o
que leva o sinal para mais residncias. J a TV por
assinatura e a internet tornam as ofertas praticamente
ilimitadas. Por um lado, o telespectador precisa
conhecer os canais e a programao oferecida pela
televiso para poder usufruir plenamente de todos os
contedos. Por outro lado, quanto maior o
conhecimento sobre a oferta de contedos na internet,
maior a possibilidade de reduzir o tempo diante da TV.
Ou seja, a anlise da oferta de contedos perpassa
a radiodifuso. O recente lanamento de TVs
70 Revista de Radiodifuso v. 07 n. 08 2013
Pesquisas em ambientes digitais - TV Internet Radio Cinema

conectadas internet traz novos desafios para a
programao da TV, com maior concorrncia pelo
tempo disponvel.
Preferncias
As preferncias em relao programao da TV
so desenvolvidas e alteradas durante toda a vida.
Neste caso h interferncias familiares, sociais e
culturais, que contribuem para estabelecer gostos e
expectativas sobre a programao. No entanto, a
necessidade de acompanhar preferncias impostas
socialmente no exclui gostos pessoais que vo na
contramo do que os amigos induzem. Neste caso, as
escolhas podem ser opostas quando definidas em
grupo ou isoladamente. A possibilidade de
individualizar a audincia permite que as preferncias
pessoais se sobreponham, baseada no isolamento e
anonimato.
Tomada de deciso
No caso da audincia individualizada, a escolha
pautada por uma relao entre as preferncias
pessoais, necessidades pessoais e profissionais, e a
programao disponvel. J na audincia coletiva,
onde mais de uma pessoa assiste mesma TV, h
vrios fatores que interferem na escolha. Critrios
como idade, poder econmico e preferncias da
maioria, podem se sobrepor a um interesse pessoal.
Neste caso, a convivncia familiar pode ser mais
importante do que a preferncia por determinado
programa.
Condies de uso
Limitaes fsicas e psicolgicas podem interferir
tanto na exposio mdia, quanto na compreenso
do contedo. Pessoas com deficincia visual ou
auditiva preferem programas com menos informaes
textuais e efeitos sonoros reduzidos, respectivamente.
Alm disso, programaes com recursos de
acessibilidade adequados e compreensveis, como
audiodescrio, closed caption e traduo simultnea
para Libras, tendem a ser escolhidos, independente
das preferncias pessoais.
Demanda
A demanda pode ser analisada tambm pelo fator
que move a audincia, seja ele interesse na
informao, no entretenimento, experincia religiosa,
ou em ter barulho/companhia na casa. Como visto
anteriormente, este ltimo item est mais relacionado
a hbitos do que a necessidades objetivas. Em todo
caso, um fator que define se a TV estar ligada ou
no. A ateno dedicada TV tambm est
relacionada este fator. A demanda por informaes
tende a exigir concentrao mental maior do que um
entretenimento para passar o tempo.
Mobilidade
A localizao e mobilidade esto relacionadas a
fatores pessoais, uma vez que as tecnologias de
recepo, como celulares e mini TVs, so de uso
pessoal. Apesar disso, h elementos sociais que
interferem diretamente na escolha da programao e
na demanda pelo tipo de informao. Este fator
tambm poderia ser analisado sob a tica das
tecnologias disponveis, o que no foi feito por duas
razes. Primeiro, o contexto em que a audincia
consome TV mvel ou porttil difere da TV fixa.
Segundo, est se desenvolvendo no Brasil um novo
mercado de televiso, baseado na transmisso 1-Seg,
para dispositivos portteis. Este mercado ainda carece
de anlises aprofundadas sobre impactos e usos.
Na recepo mvel e porttil, as esferas pblicas,
do trabalho e da casa se misturam [11]. O uso de
telefones celulares na recepo da TV digital
transcende seus papeis originais como simples
ferramentas de comunicao interpessoal um para
um.
O telefone celular no apenas uma ferramenta
pessoal, mas interfere na convivncia com outras
pessoas de vrias formas. O principal uso manter
contatos profissionais e pessoais, independente do
tempo e do espao [12]. No entanto, a recepo do
sinal de TV expande consideravelmente esse uso,
agregando fatores de entretenimento e informao
oferecidos por um canal de broadcast, ou seja, de um
para muitos.
[13] estudaram os motivos e contextos em que
vdeos no celular so assistidos e apresentam
limitaes para uso da recepo mvel. Segundo os
autores, a TV digital mvel considerada uma grande
promessa na distribuio de contedo, podendo
chegar a consumidores que atualmente no tm
condies de consumir televiso tradicional.
O estudo apontou trs motivos principais que
levam as pessoas a assistirem TV mvel: passar o
tempo, principalmente em situaes de espera;
acompanhar as novidades e se informar sobre
eventos populares, como msica e esportes. Apesar
do foco na informao, notcias no foram citadas.
Outro interesse citado na pesquisa foi o canal de
jogos.
J em relao ao contexto em que a TV mvel
assistida, os autores descobriram que o maior uso
dentro de casa, para individualizar a audincia. Outros
momentos compreendem o transporte, alm de
pequenos e grandes intervalos, onde passar o tempo
importante. O uso secreto tambm foi apontado no
estudo, onde os jovens assistem TV em ambientes em
que ela proibida, ou consomem contedo no
autorizados pelos pais. Finalmente, a pesquisa
mostrou que os jovens compartilham os telefones
celulares, e assistem coletivamente alguns programas
de TV, e no tem receio em emprestar os aparelhos
para os amigos.
Se na televiso fixa h limites como alcance do
sinal e audincia disponvel, na recepo mvel e
porttil os limitadores para a composio da audincia
so outros. Inicialmente, do ponto de vista estrutural,
disponibilidade do sinal sem quedas durante o
Pesquisas em ambientes digitais - TV Internet Radio Cinema
Revista de Radiodifuso v. 07 n. 08 2013 71
MTRICA SEM REFERNCIA BASEADA EM REDES NEURAIS
PARA AVALIAO OBJETIVA DE QUALIDADE DE VDEO DIGITAL
Wyllian Bezerra da Silva, Alexandre de Almeida Prado Pohl
Programa de Ps-Graduao em Engenharia Eltrica e Informtica Industrial (CPGEI) UTFPR, Curitiba, Brasil
wyllianbs@gmail.com, pohl@utfpr.edu.br
Resumo: Este trabalho apresenta uma mtrica sem referncia para avaliao de qualidade de vdeo digital baseada em uma rede neural artifcial que usa uma verso estendida do algoritmo de aprendizado ELM (Extreme Learning Machine). O mtodo proposto realiza o treinamento da rede neural a partir de seis caractersticas espao-temporais. Os resultados experimentais mostram que o mtodo proposto apresenta desempenho superior s mtricas de referncia completa PSNR e MS-SSIM na tarefa de predio de qualidade de vdeo. Logo, o mtodo proposto pode ser usado no monitoramento de qualidade em sistemas de transmisso e recepo de vdeo digital, tais como IPTV e TV digital.
Palavras chave: algoritmo ELM, avaliao objetiva de vdeo, mtrica sem referncia, rede neural artifcial.
1. INTRODUO
Durante os ltimos anos, a literatura tem apresentado um nmero crescente publicaes acerca de mtricas objetivas para avaliao de qualidade de vdeo para diversas aplicaes em radiodifuso ou no processamento de vdeo digital, seja na aquisio do sinal, codifcao e decodifcao, compresso, transmisso, restaurao, armazenamento, segmentao e exibio de sinais de vdeo digital [14]. A avaliao de qualidade de vdeo digital pode ser realizada por meio de mtricas subjetiva e objetiva. A primeira requer uma grande quantidade de recursos humanos e apresenta elevado custo em sua implementao [13]. Porm, as mtricas objetivas so vantajosas quando apresentam um determinado grau de correlao com as mtricas subjetivas. Logo, o desenvolvimento destas um desafo no campo de avaliao de qualidade de vdeo e imagem. Alm disso, as mtricas objetivas, devido natureza de seu critrio objetivo, independem de interao humana e so facilmente reprodutveis [3]. Dentre as mtricas objetivas destacam-se as mtricas sem referncia (No-Reference NR), pois no necessitam do vdeo de referncia no clculo de sua medida. Entretanto, estas requerem um conhecimento a priori sobre as distores em vdeo digital para que seja estabelecida uma correlao com os resultados subjetivos [3].
A maioria das mtricas NR encontradas na literatura so baseadas na avaliao de qualidade de imagens e em caractersticas relacionadas ao Sistema Visual Humano (SVH). Assim, o desenvolvimento de mtricas NR difcil, devido necessidade de emular a percepo do SVH que envolve aspectos cognitivos, emocionais e estticos relacionados ao contedo do vdeo e que so altamente dependentes do observador [4], [5].
A literatura reporta diversos esforos no desenvolvimento de mtricas para avaliao de qualidade de vdeo baseadas em redes neurais e em algoritmos de aprendizado. Babu et al. [6] apresentam uma mtrica para avaliar a qualidade de imagens comprimidas em JPEG (Joint Photographic Experts Group) por meio de um algoritmo de aprendizado de crescimento e propem o uso de uma rede neural GAP-RBF (Growing and Pruning Radial Basis Function) que usa caractersticas relacionadas ao SVH. Jiang et al. [7] desenvolveram uma mtrica NR para avaliao de qualidade de vdeo em HD (High Defnition) baseada em uma rede neural treinada pelo algoritmo BP (Back-Propagation) que usa seis caractersticas espao-temporais e a RoI (Region of Interest). Choe et al. [8] desenvolveram uma mtrica NR baseada no fuxo de bits para avaliao de qualidade de vdeo codifcado em H.264. Esta mtrica extrai caractersticas quadro a quadro e usa uma rede neural alimentada adiante (feedforward) com trs camadas. Suresh et al. [9] apresentaram uma extenso do algoritmo ELM na tarefa de avaliar a qualidade de imagens comprimidas em JPEG com base no esquema de seleo mltipla KS-ELM (K-fold selection Scheme using ELM) e no algoritmo RCGA-ELM (Real-Coded Genetic Algorithm using ELM) para seleo dos pesos de entrada e polarizaes.
Este trabalho apresenta uma verso estendida do algoritmo ELM para redes neurais SLFN (Single-hidden-Layer Feedforward Neural Networks) que implementa um simples critrio de parada na fase de treinamento. Alm disso, esse mtodo usa seis caractersticas espao-temporais de vdeos submetidos a diversas condies de distoro.
Este artigo est dividido da seguinte maneira: a Seo 2 descreve as mtricas para avaliao de qualidade de vdeo. A Seo 3 descreve o mtodo NR proposto para avalio de qualidade de vdeo digital. A Seo 4 apresenta os resultados experimentais, em que so comparados o mtodo NR proposto e duas mtricas FR. Finalmente, a Seo 5 apresenta a concluso do artigo.
2. AVALIAO DE QUALIDADE DE VDEO
O processo de avaliao de qualidade de vdeo
pode ser realizado com a aplicao de mtricas
subjetivas ou objetivas. As mtricas subjetivas
estimam a qualidade do vdeo por meio de avaliadores
humanos. Logo, exigem um alto custo, pois
necessitam de uma grande quantidade de recursos
humanos e apresentam problemas quanto aos
requisitos de imparcialidade e reprodutibilidade,
tornando-se inapropriadas em sistemas de
radiodifuso ou em provedores de contedo [10], [11].
Por outro lado, as mtricas objetivas so baseadas em
modelos matemticos, cujo objetivo produzir um
escore de qualidade que emule a percepo do SVH.
Alm disso, as mtricas objetivas requerem baixo
custo de implementao (quando comparadas com as
mtricas subjetivas) e no apresentam problemas
quanto reprodutibilidade e imparcialidade.
As mtricas objetivas para avaliao de qualidade
de vdeo podem ser classifcadas em trs categorias:
(i) mtricas de referncia completa (Full-Reference
FR); (ii) mtricas de referncia reduzida (Reduced-
Reference RR); (iii) mtricas sem referncia (NR).
2.1. Mtricas FR
As mtricas FR requerem o vdeo de referncia
(fonte) no clculo do escore de qualidade. Estas
mtricas so amplamente utilizadas no processo de
validao de mtricas RR ou NR, por meio da
comparao de desempenho defnida pelas
recomendaes do Grupo de Especialistas em
Qualidade de Vdeo (VQEG Video Quality Experts
Group) que um rgo de padronizao internacional
de mtricas subjetivas e objetivas de qualidade de
vdeo. Dentre as mtricas FR, destacam-se o PSNR
(Peak Signal-to-Noise Ratio), SSIM (Structural
SIMilarity index) [12] e MS-SSIM (Multi-Scale
Structural SIMilarity index) [13].
O PSNR uma mtrica FR baseada no erro pixel a
pixel de fcil implementao. Entretanto, apresenta
baixa correlao com o SVH [14]. A sua medida
processada sobre o erro quadro a quadro, i.e., entre o
quadro original x e o quadro y . A expresso a seguir
defne o PSNR para um conjunto de quadros F .
20
1
1
PSNR 20log ,
F
f
f f
v
F MSE



(1)
com

2
0 0
1
MSE , , , , ,
N M
f
i j
x f i j y f i j
NM

(2)
em que o termo f v igual a (2 1) k , cujo k o
nmero de bits por pixel, i.e., a componente de
luminncia do quadro f . Os termos x f ,i, j e
y f ,i, j so os valores de luminncia do quadro de
origem e degradado, respectivamente. As
componentes bidimensionais so representadas pelo
nmero de colunas N e pelo nmero de linhas M . O
termo f MSE defnido como erro quadrtico mdio
ou MSE (Mean Square Error).
A mtrica SSIM baseia-se no fato de que o SVH
fortemente adaptado para extrair informaes das
caractersticas estruturais de um quadro ou imagem.
Logo, uma medida de similaridade estrutural (ou
distoro) pode prover boa aproximao para a
qualidade perceptual de um vdeo [3, 79]. Sejam x e
y dois sinais no-negativos, em que y o sinal
degradado e x o sinal original (sem perda de
qualidade), a medida de similaridade utilizada como
um ndice quantitativo de qualidade do sinal distorcido,
ou seja, x tomado como a referncia para medir a
qualidade de y . A mtrica SSIM possui diversas
extenses, dentre as quais a verso MS-SSIM,
proposta por Wang et al. [13] que assume uma
abordagem multiescalar.
2.2. Mtricas RR
As mtricas de referncia reduzida retiram certa
quantidade de caractersticas do vdeo original (fonte),
baseadas em componentes espaciais, temporais, no
domnio da frequncia ou no fuxo de bits (bitstream).
Este tipo de mtrica amplamente utilizada no
monitoramento de transmisses em rede [17]. Neste
tipo de cenrio de aplicao, o vdeo transmitido
com uma sequncia de informao codifcada
(overhead) e no lado receptor ocorre a sua
decodifcao, seguido pelo clculo do ndice de
qualidade, o qual obtido por meio da comparao
entre a representao reduzida da informao nos
pares emissor e receptor [18]. Tipicamente, mtricas
RR so implementadas por meio de funes, divididas
em duas etapas [19]: (i) clculo do erro entre os
vdeos original e distorcido, constitudo pela diferena
de suas caractersticas, a fm de compor a
representao reduzida da informao; (ii) funo que
agrupa os erros ou diferenas para obter um ndice de
qualidade global. Algumas mtricas RR exploram
propriedades dos artefatos, por meio da extrao de
caractersticas e um modelo de parametrizao [20]
com foco em tipos especfcos de distores
(artefatos). Esta abordagem encontrada em Silva et
al. [17], cujo clculo do escore de qualidade
baseado na diferena de atividade dos coefcientes
DCT (Discrete Cosine Transform) em um macro bloco
com resoluo de 1616 pixels.
2.3. Mtricas NR
As mtricas NR extraem caractersticas
relacionadas ao SVH do vdeo distorcido, i.e., na
recepo do sinal de vdeo [14]. Tipicamente, h duas
abordagens no desenvolvimento destas mtricas: (i)
extrao dos parmetros sobre o fuxo de bits, tais
como a taxa de compresso, informaes
relacionadas ao GoP (Group of Pictures), estimao
de movimento, perfl e nvel de codifcao, bem como
o parmetro de quantizao ou QP (Quantization
Parameter) [2125]. Mtricas NR apresentam maior
complexidade quando so aplicadas em vdeo, devido
variao temporal dos quadros, contedos das
cenas e difculdade de compreenso das
caractersticas do SVH [26]. Assim, algumas mtricas
dessa categoria exploram caractersticas espaciais e
temporais na estimao de qualidade de vdeo [21].
3. MTODO PROPOSTO
O mtodo proposto, denominado NRVQA-ELMtc
(No-Reference Video Quality Assessment using
Extreme Learning Machine algorithm with termination
criteria) [27] combina caractersticas espaciais e
temporais, por meio de uma rede neural artifcial
SLFNs usando o algoritmo de treinamento ELM [28]
com a implementao de um simples critrio de
parada.
3.1. Caractersticas espao-temporais
As caractersticas espaciais incorporadas no
mtodo proposto so baseadas em medidas de
artefatos em vdeo digital, i.e., distores de blocagem
e borramento desenvolvidas por Wang et al. [20].
Assim, a componente de luminncia do quadro f
representada por y(f , i, j ) com i 1,M e j 1, N ,
em que M e N so os nmeros de linhas e colunas,
respectivamente, de um quadro. Logo, as diferenas
de luminncia ao longo das linhas e colunas so
representadas, respectivamente, pelas expresses a
seguir.


, , , , 1 , , , 1, 1 ,
, , , 1, , , , 1, 1 .
h
v
d f i j y f i j y f i j j N
d f i j y f i j y f i j i M


(3)
O efeito de blocagem pode ser estimado pela
mdia das diferenas entre as bordas dos blocos da
DCT (Discrete Cosine Transform) nas direes
horizontal e vertical para uma sequncia F de
quadros, conforme mostra a Equao (4), com um
macrobloco de dimenso , cujo tamanho tpico
de 8 [20].


1
1
1 1 1
1
1
1 1 1
1
, , 1 ,
1
1
1
, 1 , .
1
1
N
F M
h h
f i j
M
F N
v
i j
v
f
B d f i j
N
F M
B d f i j
M
F N












(4)
A medida de blocagem em uma sequncia de
vdeo com F quadros determinada pela mdia entre
h B e v B , caracterizando a medida B , conforme a
expresso a seguir.
.
2
h v B B
B

(5)
Os efeitos de borramento so estimados pelo
clculo da reduo de atividade entre os blocos ,
em que usada a medida de blocagem nas direes
horizontal e vertical, conforme as expresses




1
1 1 1
1
1 1 1
, , ,
1 1
, ,
1
.
1
F M N
h h h
f i j
F M N
v v
f
v
i j
A d f i j B
F M N
A d f i j B
F N M








(6)
A medida de borramento, representada por A ,
conforme a Equao (7), determinada pela mdia
entre h A e v A .
.
2
h v A A
A

(7)
O segundo fator que contribui para a deteco do
artefato de borramento baseado na taxa de
cruzamento por zero (Zero Crossing ZC) nas
direes horizontal e vertical, conforme as expresses
a seguir.




2
1 1 1
2
1 1 1
1
, , ,
2
1
, , ,
2
F M N
h h
f i j
F M N
v v
f i j
Z z f i j
F M N
Z z f i j
F N M




(8)
em que os termos h z e v z so determinados por


1, na direo horizontal
, , ,
0, caso contrrio
1, na direo vertical
, , .
0, caso contrrio
h
v
z f i j
z f i j



(9)
Assim, a medida de borramento Z determinada
pela mdia entre as componentes h Z e v Z .
.
2
h v Z Z
Z

(10)
O mtodo proposto tambm incorpora trs
caractersticas temporais no treinamento da rede
neural SLFN com o algoritmo ELM.
A primeira caracterstica temporal a diferena de
movimento entre quadros adjacentes, representada
pela varivel TI (Temporal perceptual Information) [31]
que considera os valores de luminncia de pixels
localizados em uma mesma regio de um quadro,
conforme a expresso a seguir.

2
1
, , ,
1
F
f
TI m f i j
F


(11)
em que o nmero total de quadros F e mf ,i, j

o desvio padro da diferena de movimento
(diferena de luminncia) entre o quadro atual
y f ,i, j e o quadro anterior y f 1,i, j .
A segunda caracterstica temporal a mdia da
diferena absoluta (Mean Absolute Diference MAD)
[31] entre quadros sucessivos, representada pela
Equao (12) que defne a medida global da MAD
para todos os quadros de um vdeo.


2 1 1
1
, , 1, , .
1
F M N
f i j
MAD y f i j y f i j
M N F



(12)
A terceira caracterstica temporal a mdia da
diferena absoluta ponderada (weighted Mean
Absolute Diference MADw) [32], a qual mede o grau
de variao das cenas de um vdeo que considera a
cena atual de um quadro f e do quadro anterior f 1,
conforme a expresso:
2 1
1
.
1
F
f
f f
MAD
MADw
F MAD


(13)
Assim, o mtodo proposto combina as
caractersticas espaciais e temporais em uma matriz
, , , , , f f f f f f f x A B Z TI MAD MADw , em que f o
nmero de amostras de vdeo. A Figura 1 apresenta
as caractersticas temporais espaciais de dezessete
bases de dados de vdeos (denominada superconjunto
S) usadas neste trabalho e reportadas em [27]. A
recomendao ITU-T P.910 [31] defne a medida SI
(Spatial perceptual Information) como informao
espacial perceptual. A inspeo visual dessa fgura
mostra que as amostras de vdeo usadas neste
trabalho apresentam uma grande variao espaotemporal.
Fig. 1. Caractersticas espaciais e temporais do superconjunto
S com 216 amostras de referncia
3.2. Mtrica NRVQA-ELMtc
O algoritmo ELM [28] desenvolvido para o
treinamento de uma rede SLFN atribui pesos e
polarizaes (biases) de maneira aleatria, segundo
uma distribuio uniforme. O treinamento compreende
N amostras distintas representadas pela varivel
, , , 1, , n m
f f f f x t x t f N , cujo clculo
conforme a expresso

1
, 1, , ,
K
K i j j f j f
f
f g b f N

x w x o (14)
em que f o a sada (escore objetivo), g(x) a
funo de ativao e j o peso que conecta o jsimo
neurnio da camada oculta ao neurnio de
sada. De acordo com [28], uma rede SLFN com K
ns na camada oculta e uma funo de ativao g(x)
pode apresentar um erro mdio prximo de zero, i.e.,
1
0
K
f f
f
o t . Logo, h parmetros j , j w e j b tal
que

1
, 1, , ,
K
j j f j f
f
g b f N

w x t (15)
em que f t o vetor alvo (escores subjetivos),
T
1, , j j jn w w w o vetor de peso que conecta o jsimo
neurnio da camada oculta ao neurnio da
camada de entrada, j b denota a polarizao (bias) do
j-simo neurnio da camada oculta, j f w x o
produto interno de j w e f x . A Figura 2 ilustra o
algoritmo ELM empregado em uma arquitetura de
rede neural SLFN.
xi
1
j
N
1
j
K
ti
bj
N input neuron K hidden neuron output neuron
1
K
wj
Fig. 2. Arquitetura de uma rede neural SLFN usando algoritmo
de treinamento ELM
O sistema linear da Equao (16) resume o mtodo
do algoritmo ELM.
H T, (16)
em que a matriz da camada oculta representada por
1, , and 1, , f H h f N j K com a primeira
linha da matriz de caractersticas f x igual a
T
1 2 , , , f f f fn x x x x , i.e., a primeira linha igual a
1 1 1 1 1 1 1 , , , , , f f f f f f f x A B Z TI MAD MADw . A matriz de
sada e o vetor alvo (target) so defnidos como
T
1 , K e
T
1, , N T t t , respectivamente. O
termo
T
1 , 1, , j jm j j K denota o vetor de
peso que conecta o j-simo neurnio da camada
oculta e os neurnios de sada. Hung et al. [28]
propuseram a atribuio aleatria de pesos aos
parmetros j w e j b , a fm de seja obtido um pequeno
erro no-nulo durante o treinamento. Considerando o
sistema linear da Equao (17), os pesos da camada
de sada podem ser aproximados por
H T (17)
em que H defnida como matriz inversa
generalizada de Moore-Penrose (MP) [33] da matriz
de sada da camada oculta H . Alm disso, o
conjunto de treinamento , n oculta K e uma
funo de ativao g x , e.g., funo de base radial
(Radial Basis Function RBF), hard-limiting (hardlim),
sigmoidal (sig) e seno (sin). Em resumo, o algoritmo
ELM compreende trs etapas [28]:
i) Atribuio aleatria dos pesos de entrada j w e
polarizaes j b ;
ii) Clculo da matriz da camada de sada H ;
iii) Clculo dos pesos de sada : H T .
O mtodo NRVQA-ELMtc [27] implementa um
simples critrio de parada no treinamento da rede
neural SLFN, quanto atribuio aleatria dos pesos
j w e j b . Embora este critrio no seja direcionado,
busca os pesos relacionados com o menor RMSE
(Root-Mean-Square Error) entre a sada desejada
(escore subjetivo) e o escore objetivo na fase de
treinamento com k iteraes (tipicamente, k 100 ) e
N neurnios na camada oculta. Alm disso, conforme
estudo realizado em [27], caso o RMSE seja menor do
que 0,5 o algoritmo cessa a busca pelos parmetros
j w e j b .
4. RESULTADOS EXPERIMENTAIS
Esta seo apresenta os resultados de acurcia,
i.e., os coefcientes de correlao linear de Pearson
(Pearson Linear Correlation Coefcient PLCC) [34],
[35], entre os escores objetivos e subjetivos de 2627
amostras de vdeo estudadas em [27].
A Figura 3 compara a acurcia (PLCC) entre as
mtricas de referncia completa (FR) PSNR e MSSSIM
com o mtodo proposto (NRVQA-ELMtc) para
as 2627 amostras de vdeo, pertencentes a 17 bases
de dados de vdeo disponibilizadas por diversas
instituies e laboratrios [27]. A funo de ativao
usada na rede neural SLFN foi o seno (sin) com o
nmero de amostras de teste igual ao nmero de
neurnios na camada oculta ( N ). O mtodo de
validao cruzada mltipla (K-fold) foi usado com o
objetivo de gerar uma distribuio de acurcia, a qual
foi analisada por meio do diagrama de caixa (box-plot)
[36], em que o trao, o crculo e o quadrado, ambos
em vermelho, representam a mediana, a mdia e o
desvio padro, respectivamente. Destaca-se que
neste trabalho foi empregada uma validao cruzada
com um grande nmero de amostras de treinamentoteste
com K 100 , i.e., cada caixa do box-plot
comporta 100 experimentos distintos. Tipicamente, a
literatura apresenta trabalhos no campo da avaliao
Fig. 3. Box-plot da predio da acurcia (PLCC) entre as mtricas PSNR, MS-SSIM e o mtodo proposto NRVQA-ELMtc
de qualidade de vdeo com K entre 5 e 10 [37], [38].
Pela inspeo visual da Figura 3 observa-se que o
desempenho do mtodo proposto superior s
mtricas FR, em quaisquer condies de teste, i.e.,
para qualquer quantidade de amostras de teste
(nmero de neurnios na camada oculta) entre 25 e
500. Em especial, para N 50 , o mtodo proposto
apresenta valores de PLCC, em termos da mdia e
mediana, acima de 0,8, denotando uma forte
associao entre os escores objetivos e subjetivos, na
tarefa de predio de qualidade de vdeo. Isto ocorre
devido grande quantidade de amostras de vdeo
usadas no treinamento, e.g., para N 300 foram
usadas 2327 amostras de treinamento, ou seja,
mesmo usando pares de treinamento-teste disjuntos,
o mtodo proposto mostra uma acurcia superior s
mtricas de referncia completa. A assimetria positiva,
i.e., a maior concentrao da acurcia entre o
segundo quartil (mediana) e o terceiro quartil, na
distribuio do box-plot nos testes com 300 e 500
neurnios na camada oculta, indica que o mtodo
proposto apresenta um desempenho expressivo em
comparao com as mtricas FR.
Entretanto, mesmo para N entre 25 e 50, o
mtodo proposto apresentou uma acurcia maior do
que as mtricas FR, cujo melhor resultado foi para
N 25 com o desvio-quartil (amplitude interquartlica)
confnado entre 0,65 e 0,8. Alm disso, este resultado
tambm apresentou assimetria positiva com a mdia
do PLCC em torno de 0,75.
5. CONCLUSO
Este trabalho apresentou uma mtrica NR baseada
em uma rede neural artifcial SLFN, cujo treinamento
determinado pelo algoritmo ELM, o qual considera
caractersticas espao-temporais e os escores
subjetivos (alvos) extrados de 2627 amostras
treinamento. Alm disso, este trabalho prope uma
extenso do algoritmo ELM por meio de um simples
critrio de parada, a fm de que sejam obtidos
parmetros da rede neural artifcial relacionados com
o menor RMSE. Tipicamente, a comparao entre
mtricas FR e NR injusta, devido ausncia do
vdeo de referncia na obteno do escore de
qualidade em mtricas NR. Entretanto, os resultados
experimentais mostram que o mtodo proposto
apresentou desempenho superior s mtricas de
referncia completa PSNR e MS-SSIM, sobretudo,
quando o nmero de amostras de teste e de neurnios
na camada oculta da rede SLFN maior do que 250.
Logo, a mtrica NRVQA-ELMtc pode ser empregada
no monitoramento de qualidade em sistemas de
transmisso e recepo de vdeo digital, tais como
IPTV (Internet Protocol Television), TV digital ou em
dispositivos mveis, tais como ultrabooks,
smartphones, tablets e em aparelhos WiDi (Wireless
Display).
REFERNCIAS
[1] S. Winkler, Issues in vision modeling for perceptual
video quality assessment, Signal Processing, vol. 78,
no. 2, pp. 231252, 1999.
[2] Z. Wang and A. C. Bovik, Modern image quality
assessment. San Rafael, CA: Morgan & Claypool,
2006.
[3] W. Lin and C.-C. Jay Kuo, Perceptual visual quality
metrics: A survey, Journal of Visual Communication
and Image Representation, vol. 22, no. 4, pp. 297312,
May 2011.
[4] S. S. Hemami and A. R. Reibman, No-reference image
and video quality estimation: Applications and humanmotivated
design, Signal Processing: Image
Communication, vol. 25, no. 7, pp. 469481, 2010.
[5] Z. Wang and A. Bovik, Reduced- and No-Reference
Image Quality Assessment, IEEE Signal Processing
Magazine, vol. 28, no. 6, pp. 2940, Nov. 2011.
[6] R. V. Babu, S. Suresh, and A. Perkis, No-reference
JPEG-image quality assessment using GAP-RBF,
Signal Processing, vol. 87, no. 6, pp. 14931503, 2007.
[7] X. Jiang, F. Meng, J. Xu, and W. Zhou, No-Reference
Perceptual Video Quality Measurement for High
Defnition Videos Based on an Artifcial Neural
Network, in Computer and Electrical Engineering,
2008. ICCEE 2008. International Conference on, 2008,
pp. 424427.
[8] J. Choe, K. Lee, C. Lee, and S. Korea, No-reference
video quality measurement using neural networks, in
2009 16th International Conference on Digital Signal
Processing, 2009, pp. 14.
[9] S. Suresh, R. Venkatesh Babu, and H. J. Kim, Noreference
image quality assessment using modifed
extreme learning machine classifer, Applied Soft
Computing, vol. 9, no. 2, pp. 541552, Mar. 2009.
[10] A. M. Eskicioglu and P. S. Fisher, Image quality
measures and their performance, IEEE Transactions
on Communications, vol. 43, no. 12, pp. 29592965,
1995.
[11] U. Engelke and H.-J. Zepernick, Perceptual-based
Quality Metrics for Image and Video Services: A
Survey, in Proceedings EuroNGI Conf. Next
Generation Internet Networks, 2007, pp. 190197.
[12] Z. Wang, A. C. Bovik, H. R. Sheikh, and E. P
Simoncelli, Image quality assessment: from error
visibility to structural similarity., IEEE Transactions on
Image Processing, vol. 13, no. 4, pp. 600612, 2004.
[13] Z. Wang, E. P. Simoncelli, and A. C. Bovik, Multiscale
structural similarity for image quality assessment, in
The Thrity-Seventh Asilomar Conference on Signals,
Systems & Computers, 2003, 2003, vol. 2, no. 1, pp.
13981402.
[14] H. R. Wu, K. R. Rao, and A. A. Kassim, Digital Video
Image Quality and Perceptual Coding, Journal of
Electronic Imaging, vol. 16, no. 3, 2007.
[15] Z. Wang and A. C. Bovik, A universal image quality
index, IEEE Signal Processing Letters, vol. 9, no. 3,
pp. 8184, Mar. 2002.
[16] Y. Shi, Y. Ding, R. Zhang, and J. Li, Structure and Hue
Similarity for Color Image Quality Assessment, in 2009
International Conference on Electronic Computer
Technology, 2009, pp. 329333.
[17] W. B. Silva, A. A. P. Pohl, and K. V. O. Fonseca, A
Reduced-Reference Video Quality Assessment Method
based on the Activity-Diference of DCT Coefcients,
IEICE Transactions on Information and Systems, vol. E96-D, no. 3, 2013.
[18] P. Le Callet, C. Viard-Gaudin, and D. Barba, A Convolutional Neural Network Approach for Objective Video Quality Assessment, IEEE Transactions on Neural Networks, vol. 17, no. 5, pp. 13161327, 2006.
[19] P. Le Callet and D. Barba, Image Quality Assessment: From Sites Errors to a Global Appreciation of Quality, in Proceedings of the Picture Coding Sympsium, 2001, pp. 105108.
[20] M. Miyahara, K. Kotani, and V. R. Algazi, Objective picture quality scale (PQS) for image coding, IEEE Transactions on Communications, vol. 46, no. 9, pp. 12151226, 1998.
[21] M. Slanina, V. Ricny, and R. Forchheimer, A Novel Metric for H.264/AVC No-Reference Quality Assessment, in 14th International Workshop on Systems, Signals and Image Processing and 6th EURASIP Conference focused on Speech and Image Processing, Multimedia Communications and Services, 2007, pp. 114117.
[22] O. Sugimoto, S. Naito, S. Sakazawa, and A. Koike, Objective perceptual video quality measurement method based on hybrid no reference framework, in 16th IEEE International Conference on Image Processing (ICIP09), 2009, pp. 22372240.
[23] T. Oelbaum, C. Keimel, and K. Diepold, Rule-Based No-Reference Video Quality Evaluation Using Additionally Coded Videos, IEEE Journal of Selected Topics in Signal Processing, vol. 3, no. 2, pp. 294303, 2009.
[24] N. Staelens, N. Vercammen, Y. Dhondt, B. Vermeulen, P. Lambert, R. de Walle, and P. Demeester, ViQID: A No-Reference bit stream-based visual quality impairment detector, in Proceedings of the Second Int Quality of Multimedia Experience (QoMEX) Workshop, 2010, pp. 206211.
[25] F. Yang, S. Wan, Q. Xie, and H. R. Wu, No-Reference Quality Assessment for Networked Video via Primary Analysis of Bit Stream, IEEE Transactions on Circuits and Systems for Video Technology, vol. 20, no. 11, pp. 15441554, Nov. 2010.
[26] Z. Wang, H. R. Sheikh, and A. C. Bovik, Objective Video Quality Assessment, in The Handbook of Video Databases: Design and Applications, B. Furht and O. Marques, Eds. Boca Raton, FL, USA: CRC Press, 2003, pp. 10411078.
[27] W. B. da Silva and A. de A. P. Pohl, Mtodos Sem Referncia Baseados em Caractersticas Espao-Temporais para Avaliao Objetiva de Qualidade de Vdeo Digital, Universidade Tecnolgica Federal do Paran (UTFPR), 2013.
[28] G.-B. Huang, Q.-Y. Zhu, and C.-K. Siew, Extreme learning machine: Theory and applications, Neurocomputing, vol. 70, no. 13, pp. 489501, Dec. 2006.
[29] Z. Wang, H. R. Sheikh, and A. C. Bovik, No-reference perceptual quality assessment of JPEG compressed images, in Image Processing. 2002. Proceedings. IEEE International Conference on Image Processing, 2002, vol. 1, pp. vol.1 I477 I480.
[30] W. B. Silva and A. A. P. Pohl, No-Reference Video Quality Assessment Method based on the Levenberg-Marquardt Minimization, in XXX Brazilian Symposium on Telecommunications (SBrT12), 2012.
[31] ITU-T P.910, Subjective video quality assessment methods for multimedia applications, Standardization Sector of ITU, 1999.
[32] W. Ding, Y. Tong, Q. Zhang, and D. Yang, Image and Video Quality Assessment Using Neural Network and SVM, Tsinghua Science &amp; Technology, vol. 13, no. 1, pp. 112116, 2008.
[33] K. S. Banerjee, C. R. Rao, and S. K. Mitra, Generalized Inverse of Matrices and Its Applications, Technometrics, vol. 15, no. 1, p. 197, Feb. 1973.
[34] VQEG, Final report from the video quality experts group on the validation of reduced-reference and no-reference objective models for standard defnition television, Phase I, 2009.
[35] VQEG, Report on the validation of video quality models for high defnition video content, 2010.
[36] J. W. Tukey, Exploratory Data Analysis. New York: Addison-Wesley Publishing Company, 1977.
[37] P. Gastaldo and R. Zunino, Neural networks for the no-reference assessment of perceived quality, J. Electronic Imaging, vol. 14, no. 3, p. 033004, 2005.
[38] R. Herzog, M. adk, T. O. Aydn, K. I. Kim, K. Myszkowski, and H.-P. Seidel, NoRM: No-Reference Image Quality Metric for Realistic Image Synthesis, Comp. Graph. Forum, vol. 31, no. 2pt4, pp. 545554, 2012.
10

percurso fundamental. A cobertura deve ser plena
sob pena de comprometer o interesse pelo programa.
Quedas de sinal em determinados trechos podem
impactar negativamente na percepo de valor que o
telespectador desenvolve sobre a qualidade da
informao ou do entretenimento.
O segundo item a ser considerado a
disponibilidade de receptores em escala
suficientemente grande para impactar a audincia.
Atualmente todas as emissoras da cidade de So
Paulo transmitem sinal digital para receptores
portteis, mas inexistem nmeros oficiais sobre a
quantidade deles no mercado. Este fator desencadeia
outro limitador, que o conhecimento da tecnologia, e
principalmente, da gratuidade do acesso. Com poucas
campanhas de esclarecimento sobre a TV digital, a
maior parte da populao ainda confunde TV digital
aberta, que gratuita, com TV digital por assinatura,
que paga [14]. Com isso, o interesse minimizado.
Alm da necessidade de possuir um receptor
mvel ou porttil, as pessoas precisam conhecer a
programao disponvel e se interessar por ela. A no
adequao da programao ao momento em que as
pessoas querem assistir TV pode gerar desinteresse.
As emissoras geram hoje a mesma programao da
TV fixa, em alta definio, para celulares, baixando
apenas a resoluo. Com tempo escasso, assistir a
uma telenovela no transporte pblico o exemplo
contrrio em relao a adaptar o contedo ao contexto
de visualizao. Um programa que demanda maior
concentrao por um espao de tempo de 45 minutos,
em um contexto de movimento, barulho e ateno ao
ponto de descida, tem poucas chances de atrair um
grande pblico.
Funcionalmente, o deslocamento um tempo
perdido, com poucas opes de laser. A atividade se
deslocar demanda um desligamento mental do trajeto,
para criar a sensao de que o tempo est passando
mais rapidamente. Isso pode ser obtido atravs de
uma leitura ou de um programa de TV. A partir dessa
ao, a operao se torna inconsciente.
O problema surge na retomada da conscincia, ou
seja, na passagem da operao para a ao.
Qualquer que seja o veculo usado no deslocamento,
necessrio uma atividade cuidar do trajeto, para no
perder o ponto de descida do nibus ou a rua que
conduz para o destino.
Dessa forma, programas que exigem menor
concentrao e que permitem desvios de ateno sem
comprometer a compreenso da histria, so mais
adequados.

5.4. Modelo completo
Os trs fatores descritos acima esto diretamente
relacionados, gerando interferncias e mudanas
constantes de status dentro da atividade. Ver TV tem
elementos sociais, culturais, histricos e pessoais, que
moldam o comportamento, seja ele pr-ativo em
relao TV (buscando contedo), ou reativo (a partir
do contedo consumido). Neste aspecto, todos os
fatores se misturam. A anlise depende do objeto, que
pode estar relacionado TV como tecnologia, como
provedora de contedos, ou como limitadora, ao no
oferecer o contedo desejado. Em todos os casos, a
mediao est no centro da anlise.


Figura 3: Modelo baseado no contexto.

A Figura 3 apresenta este modelo, onde a TV
mediadora entre o individual e o social, limitada pelos
fatores de mdia. O que se busca aqui identificar
blocos de anlise, visando mensurar e gerar dados
sobre comportamento da audincia, de forma
holstica. Antropolgica ou sociologicamente,
inmeras outras anlises podem ser derivadas deste
modelo, o que no foco deste artigo.
6 Concluses
A audincia muito mais complexa do que os
dados auferidos hoje podem representar. Ao fechar o
foco das medies apenas no sexo, idade e classe
social dos telespectadores, perde-se muita informao
necessria para os planejamentos de mdia e de
programao.
As complexas relaes e mediaes entre
representaes mentais e os consequentes
comportamentos so subestimadas nos modelos
tradicionais de medio da audincia. Este artigo
props um novo modelo terico, que incorpora a base
da mediao atual, e expande a anlise buscando as
origens da necessidade e da motivao da atividade
ver TV.
Atravs desta anlise, percebe-se uma demanda
por dados com detalhamento maior do que os trs
perfis utilizados. atualmente Compreender as
motivaes e comportamentos diante da TV
fundamental para desenvolver contedos mais
interessantes e apropriados, assim como oferecer
mensagens publicitrias mais efetivas.

72 Revista de Radiodifuso v. 07 n. 08 2013
Pesquisas em ambientes digitais - TV Internet Radio Cinema

REFERNCIAS
[1] WEBSTER, James G., PHALEN, Patricia F,
LICHTY, Lawrence W. Rating Analysis: The Theory
and Practice of Audience Research. 3a ed. Londres:
Lawrence Erlbaum Associates, Inc., 2006.
[2] TECHNOLOGY REVIEW. Searching for the Future
of Television. Disponvel em
<http://www.technologyreview.com/computing/26930/.
Acesso em 16/10/2013.
[3] HALLORAN, James. The Effects Of Television.
Londres: Panther, 1970.
[4] BECKER, V. ; Zuffo, Marcelo . Teoria da atividade
como Framework para anlise da audincia na TV
digital. Comunicologia (Braslia), v. 01, p. 93-108,
2010.
[5] Kaptelini, Victor; NARDI, Bonnie A. Acting with
technology. Cambridge: MIT, 2006.
[6] LEONTIEV, A. N. Activity and Consciousness.
Progress Publishers, 1977.
[7] LEONTIEV, A. N. Activity, Consciousness, and
Personality. Prentice-Hall, 1978. Disponvel em
<http://lchc.ucsd.edu/mca/Paper/leontev/index.html>.
Acessado em 16/10/2013.
[8] VIGOTSKY, Lev. A formao social da mente. So
Paulo: Martins Fontes, 1998.
[9] Engestrm, Y. When is a tool? Multiple meanings of
artifacts in human activity. In Learning, Working and
Imagining, Orienta-Konsultit, Helsinki, Finland, 1990.
p. 171195.
[10] KAPTELININ, Victor. Computer-Mediated Activity:
Functional Organs in Social and Developmental
Contexts. In NARDI, B. (Ed) Context and
Consciousness: Activity Theory and Human-Computer
Interaction. Harvard, MIT Press, 1995.
[11] EDELMANN, J. e KOIVUNIEMI, J. Future
development of mobile services and applications
examined through the real options approach.
Tektronix, 2, 2004. p. 48-57.
[12] KNOCHE, Hendrik & MCCARTHY, John D.
Design Requirements for Mobile TV. Em
MobileHCI'05, September 1922, 2005, Salzburg,
Austria.
[13] CUI, Yanking; CHIPCHASE, Jan; JUNG,
Younghee. Personal TV: A qualitative Study of Mobile
TV Users. In CESAR, Pablo et al. (Eds): EuroITV
2007, LNCS 4471, p. 195-204.
[14] Frum SBTVD. Estudo sobre conhecimento e
consumo da TV Digital em 2012. So Paulo, Nielses,
2012. Circulao Restrita.

Das könnte Ihnen auch gefallen