Beruflich Dokumente
Kultur Dokumente
Dissertao apresentada
ao
Instituto de Matemtica e Estatstica
da
Universidade de So Paulo
para
obteno do ttulo
de
Mestre em Cincias
Banca examinadora
Agradecimentos
A Deus, pela vida e pela sade.
Profa. Lcia, que enriqueceu este trabalho com suas valiosas sugestes.
i
.
Resumo
Alm disso, proposta uma nova abordagem para a predio do fator de simultanei-
dade, diferente de todas as abordagens pesquisadas na literatura, utilizando a tcnica de
bootstrap.
ii
.
Abstract
In the present dissertation, our aim is to investigate other possible regression mod-
els suitable to the data obtained by IPT and CONGS. Emphasis is given to the beta
regression model proposed by Ferrari and Cribari-Neto (Journal of Applied Statistics,
2004) which has a number of advantages over normal linear regression models. The beta
regression model assumes that, given the covariates, the response variable has a beta dis-
tribution, which is adequate to model data observed in the unit interval. Therefore, no
transformation in the response variable, the simultaneity factor, is needed.
Additionally, we present a new approach for the prediction of the simultaneity factor,
that is different from all the approaches shown in the literature, using the bootstrap tech-
nique.
iii
Sumrio
1 Introduo 1
1.1 Organizao da dissertao . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2 Apresentao do problema 5
2.1 O sistema predial de gs natural . . . . . . . . . . . . . . . . . . . . . . . . 5
2.2 Fator de simultaneidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.3 Coleta de dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.4 Anlise descritiva . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
iv
5 Predio do fator de simultaneidade 58
5.1 Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
5.2 O mtodo bootstrap . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
5.3 Intervalos de predio bootstrap . . . . . . . . . . . . . . . . . . . . . . . . 60
6 Consideraes finais 64
6.1 Concluses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
6.2 Sugestes para trabalhos futuros . . . . . . . . . . . . . . . . . . . . . . . . 65
A Dados 67
v
Captulo 1
Introduo
1
elevado ao gs natural na poltica energtica nacional. Aliado aos interesses comerciais
das empresas concessionrias, o Estado vem promovendo uma forte poltica de expanso
do gs natural no pas. No por acaso, as companhias de gs buscam formas de reduzir os
custos de instalao para o gs natural ao mesmo tempo em que se assiste expanso do
uso deste combustvel. Esta uma necessidade criada pela recente poltica de massificao
do gs natural no pas, que transformou o custo de instalao em uma varivel de peso nas
contas das companhias, e fez com que as oportunidades de melhoria no dimensionamento
da rede recebessem ateno especial dentro destas empresas.
Qp = F Qmax ,
2
demanda de gs natural e, conseqentemente, na rede pblica de abastecimento como um
todo. Superestimar o fator de simultaneidade gerar custos desnecessrios s companhias
de gs. E exatamente neste ponto em que se encontra uma fonte potencial de economia
no desenvolvimento de projetos de instalao predial. Kawabe, Ogassavara e Dias (1989)
mostraram indcios de que o fator de simultaneidade estava sendo superestimado com a
antiga curva utilizada pela Companhia de Gs de So Paulo (COMGS) e publicada em
Comgs (1977). Posteriormente a COMGS reformulou os seus procedimentos para o
clculo de vazes de projeto, que culminou em uma nova curva proposta por Carvalho
(1995), e hoje publicada tambm na norma tcnica NBR 14570.
1
O autor da presente dissertao foi um dos integrantes da equipe tcnica responsvel pela conduo
do trabalho de campo e pelo desenvolvimento dos modelos estatsticos deste projeto.
3
1.1 Organizao da dissertao
4
Captulo 2
Apresentao do problema
5
Rede primria: trecho de tubulao compreendido entre os reguladores de primeiro
e segundo estgio.
Uma instalao predial de gs natural tpica, bem como a sua integrao com a rede
geral, pode ser observada na Figura 2.1.
Figura 2.1: Esquema tpico de um sistema predial de gs natural. Fonte: Ilha (1996)
6
O projeto e a execuo das instalaes da rede de distribuio interna de gs devem
obedecer s normas conforme a NBR 14570. Nesta norma esto contidas as determi-
naes sobre instalao, abrigo de medidores e reguladores, tubos e conexes, segurana
e dimensionamento das tubulaes, entre outras. Esta norma no se aplica somente s
instalaes prediais de gs abastecidas por canalizao de rua (gs natural) mas tambm
quelas abastecidas por uma central de gs (gs liquefeito).
P
Q= (2.1)
PC
Uma vez esclarecida a relao entre potncia e vazo, pode-se compreender melhor o
conceito e a definio do fator de simultaneidade. consenso entre os projetistas que no
necessrio projetar o sistema predial de gs combustvel de modo a atender a capacidade
7
mxima de consumo da edificao. Basta que o sistema esteja preparado para atender
demanda mxima praticada na edificao. usual mensurar a capacidade mxima
de consumo e a demanda mxima praticada em unidades de potncia, e denomin-las,
respectivamente, como potncia computada e potncia adotada.
1 se C < 24.43;
1
se 24.43 C < 670.9;
F = 1 + 0.01016(C 24.37)0.8712 (2.2)
1
se 670.9 C < 1396;
1 + 0.7997(C 73.67)0.19931
0.23 se C > 1396;
8
Para exemplificar o uso do fator de simultaneidade, consideremos um caso hipottico.
O esquema da Figura 2.2 representa parte de um sistema predial de gs combustvel refe-
rente s instalaes prediais de um apartamento. Para dimensionar esta rede secundria,
o projetista precisa determinar as vazes de projeto em vrios trechos da tubulao.
9
Tabela 2.1 Vazes computadas nos trechos em destaque da Figura 2.2
Nota-se que no trecho AB, que o trecho no qual sero conectados todos os aparelhos de
utilizao, a potncia adotada inferior potncia computada. Isso ocorre porque, neste
10
trecho, a soma das potncias computadas suficientemente grande para se supor que ela
no ser atingida. De fato, para atingir esta potncia, os trs aparelhos de utilizao
deveriam ser ligados, simultaneamente, em sua potncia mxima, o que configura uma
situao bastante improvvel. Desta forma, o fator de simultaneidade atua como um fator
redutor da potncia computada, gerando maior economia no dimensionamento da rede
como um todo.
Esta seo teve por objetivo lanar os principais conceitos e definies, e tambm
exemplificar a forma de utilizao da curva do fator de simultaneidade para a obteno
da vazo adotada. No entanto, o foco central deste trabalho re-discutir o atual modelo
utilizado no dimensionamento de sistemas prediais de gs combustvel, bem como propor
outros novos modelos. O amplo trabalho de medio realizado pelo IPT e COMGS foi
fundamental neste sentido, pois subsidiou esta dissertao com dados recentes e coletados
com a tecnologia necessria para garantir a sua confiabilidade.
11
quais a simultaneidade do uso de aparelhos supostamente atinge seu regime mais crtico.
Foram consideradas caractersticas excludentes os sistemas prediais com ndice de ocu-
pao inferior a 50%, presena de atividade comercial e presena de caldeira. A amostra
foi selecionada do cadastro de clientes COMGS referente ao ms de abril de 2004. Como
no constam neste cadastro informaes sobre as caractersticas dos sistemas prediais,
muitas visitas resultaram em no-medio. Do total de 100 sistemas prediais visitados,
42 resultaram em medies vlidas. Dentre os 58 sistemas prediais no monitorados, as
principais causas foram ausncia de aquecedor de gua, presena de caldeira e presena
de atividade comercial.
Para coletar dados dos sistemas prediais foram utilizadas duas ferramentas: ques-
tionrios e aparelho de aquisio de dados de vazo, ou data-logger. Os questionrios
foram teis para a obteno de dados referentes s caractersticas dos sistemas predi-
ais, tais como nmero de andares, nmero de apartamentos, nmero de apartamentos
ocupados, nmero de moradores, entre outros, bem como dados referentes aos tipos e
caractersticas dos aparelhos de utilizao presentes nos apartamentos, tais como potn-
cias nominais, marcas e modelos, entre outros. Estas informaes foram teis para calcular
os valores mdios das potncias nominais do aquecedor e do fogo em cada sistema predial.
Estes valores mdios foram ento somados e multiplicados pelo nmero de apartamentos
ocupados, obtendo-se assim a estimativa da potncia computada do sistema predial. Uti-
lizando a relao definida em 2.1, obtm-se a vazo mxima possvel que se pode observar
no sistema predial quando o grupo de aparelhos nele instalado ligado simultaneamente.
Este nmero o denominador da relao percentual que define o fator de simultaneidade.
12
(a) (b)
Figura 2.3: Exemplo de informaes obtidas pelo data-logger : grfico de vazo (a) e
registros peridicos de vazo (b).
13
1.0
0.9
0.8
Fator de Simultaneidade
0.7
0.6
0.5
21
0.4
0.3
0.2
0.1
34
0.0
0.0 1.0 2.0 3.0 4.0 5.0 6.0 7.0 8.0 9.0 10.0
Potncia computada(MW)
14
Captulo 3
Existem diversas alternativas para modelar uma varivel resposta observada no inte-
valo (0,1). Kieschnick e McCullough (2003), por exemplo, fizeram uma reviso bibliogrfica
com o propsito de apontar os modelos mais freqentemente empregados em proble-
mas desta natureza. Concluram que o modelo de regresso linear normal (MRLN)
foi o modelo mais utilizado, ainda que nem sempre explicitamente invocado. A sua
utilizao fica evidente quando se constata a aplicao dos testes t ou F , indicando
que o pesquisador implicitamente assumiu a normalidade da distribuio condicional.
Kieschnick e McCullough (2003) tambm observaram que o uso destes testes geralmente
est associado suposio de uma funo linear para a esperana condicional, o que
caracteriza completamente a aplicao do MRLN. Ainda segundo os autores, um outro
modelo freqentemente empregado no estudo de variveis respostas observadas no in-
tervalo (0,1) o modelo de regresso linear normal com varivel resposta transformada.
Dentre os estudos que se valeram deste modelo, todos empregaram a transformao logito,
uma transformao particularmente conveniente para a interpretao dos resultados. Ao
mesmo tempo em que esta alternativa ajusta a varivel resposta ao domnio do MRLN,
ela possibilita usufruir dos resultados j estabelecidos para este modelo.
15
Ainda buscando solues para a modelagem de dados no intervalo (0,1), Ferrari e
Cribari-Neto (2004) propuseram um modelo de regresso no qual assumem que a varivel
resposta distribui-se segundo a distribuio beta. A distribuio beta caracteriza-se por
ser extremamente flexvel, podendo assumir diferentes formas de acordo com a combi-
nao de seus dois parmetros. Diferentemente das parametrizaes usuais de distribuio
beta, definidas por dois parmetros de forma, Ferrari e Cribari-Neto (2004) conveniente-
mente utilizaram uma parametrizao da funo de distribuio beta de modo que seus
parmetros representassem a mdia e a preciso, sendo este um importante passo para a
interpretabilidade do modelo. Os procedimentos de modelagem e inferncia considerados
por Ferrari e Cribari-Neto (2004) assemelham-se queles propostos por McCullagh e
Nelder (1989) para os modelos lineares generalizados, ou seja, uma funo da mdia
da varivel resposta explicada por uma estrutura linear envolvendo variveis regressoras.
Conforme se ver a seguir, a varincia da varivel resposta uma funo da mdia e,
conseqentemente, das variveis regressoras. Desta forma, o modelo possibilita acomodar
naturalmente dados de natureza heteroscedstica.
yi = 0 + 1 xi + i , i = 1, . . . , n, (3.1)
Os estimadores dos parmetros do modelo sero obtidos pelo mtodo dos mnimos
quadrados, ou seja, deseja-se obter uma relao linear que minimize a soma dos erros ao
P P
quadrado, dada por ni=1 e2i = ni=1 [yi (0 + 1 xi )]2 . Para obter a soluo que minimiza
16
esta soma, calculam-se as derivadas parciais em relao a 0 e 1 e iguala-se o resultado
a 0, obtendo assim o sistema de equaes normais cujas solues b0 e b1 satisfazem
n
X n
X
nb0 + b1 xi = yi
i=1 i=1
e
n
X n
X n
X
b0 xi + b1 x2i = xi yi .
i=1 i=1 i=1
b0 = y b1 x
e
Pn
xi yi nxy
b1 = Pi=1
n 2 2 .
i=1 xi nx
Pn
2 x2i
b0 N 0 , Pn i=1
2
n i=1 (xi x)
e
2
b1 N 1 , Pn 2
.
i=1 (xi x)
17
Da teoria das probabilidades (ver, por exemplo, Casella e Berger, 1996), demonstra-
se ainda que, ao substituir 2 por seu estimador b2 , as estatsticas resultantes tero
distribuio t de Student, com (n k) graus de liberdade, em que k o nmero de
parmetros do modelo de regresso. Logo, as estatsticas para testar as hipteses H0 :
0 = 0 e H0 : 1 = 0 dadas, respectivamente, por
s P
b0 n ni=1 (xi x)2
t(b0 ) = Pn 2
b2 i=1 xi
e v
u n
b1 uX
t(b1 ) = t (xi x)2
b2 i=1
em que ybi o valor predito para a varivel resposta para um xi fixo e conhecido.
Uma segunda abordagem possvel para a obteno dos estimadores dos parmetros
de regresso utilizando o mtodo de mxima verossimilhana. Os estimadores obtidos
por este mtodo so exatamente iguais aos obtidos pelo mtodo dos mnimos quadrados.
Alm disso, pode-se demonstrar que estes estimadores so o melhores estimadores no-
viesados, no sentido de possurem a menor varincia dentre todos os outros estimadores
lineares no viciados. Para uma introduo mais detalhada sobre o modelo de regresso
linear, ver Casella e Berger (1990) ou Bussab e Morettin (2002). Para um estudo mais
aprofundado, consultar, por exemplo, Draper e Smith (1981), Neter, Wasserman e Kutner
(1996) ou Montgomery, Peck e Vining (2001).
18
estudo de variveis resposta no intervalo (0,1) carrega dois erros conceituais. Em primeiro
lugar, a varivel resposta no est definida no conjunto dos reais, que o domnio sobre
o qual a distribuio normal definida. Alm disso, o fato da varivel resposta ser
observada em um intervalo limitado implica que a funo de esperana condicional precisa
ser limitada e, portanto, no pode ser linear, e que a varincia condicional precisa ser
uma funo da mdia pois medida que se aproxima de seus limites, a varincia se
aproxima de zero. No MRLN estas duas condies so claramente violadas. Uma forma de
contornar estes problemas conceituais e ao mesmo tempo obter um modelo mais adequado
ao comportamento dos dados de fator de simultaneidade transformar a varivel resposta
de modo que a varivel transformada esteja definida no conjunto dos reais. Na reviso
bibliogrfica realizada por Kieschnick e McCullough (2003), este foi o segundo modelo
mais freqentemente empregado no estudo de variveis resposta em (0,1). Os autores
relatam que, na maioria dos estudos analisados, as suposies feitas sobre a varivel
resposta no-transformada no so claramente definidas. No entanto, pelo fato de todos
os estudos empregarem a transformao logito, pode-se concluir que o modelo que est
por trs destes estudos define-se como
yi
ln = 0 + 1 xi + i , i = 1, . . . , n, (3.2)
1 yi
19
yi = 0 + 1 xi + i , i = 1, . . . , n,
20
modelos deste tipo, obtm-se um sistema de equaes no-lineares sem soluo analtica,
fazendo-se necessrio o uso de procedimentos de otimizao no-linear, tais como Newton-
Raphson e Gauss-Newton e, em algumas situaes, o procedimento pode no convergir
para uma soluo.
Pela anlise da Figura 2.4, pode-se imaginar que o fator de simultaneidade e a potncia
computada relacionam-se segundo uma funo do tipo f (x) = 0 e1 x . Desta forma,
sugere-se o seguinte modelo no-linear.
yi = 0 e1 xi + i , i = 1, . . . , n,
yi = 0 e1 xi i , i = 1, . . . , n,
Por fim, pode-se definir yi = ln(yi ), 0 = ln(0 ) e i = ln(i ) para obter o modelo
yi = 0 + 1 xi + i , i = 1, . . . , n, (3.4)
em que 1 , . . . , n so i.i.d com i N (0, 2 ). Desta forma, pode-se utilizar toda a teoria
21
do modelo de regresso linear normal para estudar a relao entre duas variveis cuja
relao funcional claramente no-linear. O modelo definido em (3.4) o terceiro modelo
a ser considerado neste trabalho.
yi = 0 xi 1 i , i = 1, . . . , n,
em que i tal que ln(i ) i.i.d N (0, 2 ). Aplicando-se o logaritmo natural em ambos os
lados, tem-se que
yi = 0 + 1 xi + i , i = 1, . . . , n. (3.5)
22
(p + q) p1
f (y; p, q) = y (1 y)q1 , 0 < y < 1, (3.6)
(p)(q)
p pq
E(y) = e Var(y) = . (3.7)
p+q (p + q)2 (p + q + 1)
()
f (y; , ) = y 1 (1 y)(1)1 , 0 < y < 1, (3.8)
()((1 ))
V ()
E(y) = e Var(y) = , (3.9)
1+
23
Assim, sejam yi , i = 1, . . . , n variveis aleatrias independentes tais que cada yi obe-
dece a uma funo densidade de probabilidade como em (3.8), com mdia i e parmetro
de preciso . O modelo de regresso beta define-se ao assumir que
k
X
g(i ) = xit t = i , (3.10)
t=1
Existem diversas possveis escolhas para a funo de ligao g(). Atkinson (1985) e
McCullagh e Nelder (1989) comparam diversas funes de ligao, tais como as funes
logito, probito, log-log, entre outras. Uma funo de ligao particularmente til em
termos de interpretao de parmetros a funo logito, definida como
i
g(i ) = ln .
1 i
Assumindo a funo de ligao logito, suponha que a t-sima varivel regressora sofra um
incremento de c unidades e todas as demais variveis regressoras permaneam constantes.
Seja + a mdia de y obtida com os novos valores das variveis regressoras, enquanto
mdia de y obtida com os valores originais das variveis regressoras. Ento, demonstra-se
que
+ /(1 + )
ect = ,
/(1 )
24
em termos de razo de chances. No contexto deste trabalho, esta interpretao permite
obter o aumento da chance de utilizao simultnea mdia dos aparelhos de utilizao de
um sistema predial a cada incremento de c unidades na potncia computada.
n
X
(, ) = i (i , ), (3.11)
i=1
em que
U (, ) = X T (y ),
n
X
U (, ) = ui ,
i=1
em que
25
!
K K
K = K(, ) = .
K K
K = X W X,
K = K = X T c,
K = tr(D),
Ferrari e Cribari-Neto (2004) salientam que, sob condies de regularidade e para uma
amostra suficientemente grande, vale a aproximao
! ! !
b
Nk+1 , K 1 .
b
26
Para maiores detalhes, ver por exemplo Nocedal e Wright (1999).
Eles obtiveram
1 1 X T cc T X(X W X)1
K = (X W X) Ik + ,
1
K = (K ) = (X W X)1 X T c,
K = 1 .
O modelo definido em (3.10) com funo de ligao logito o quinto modelo a ser
considerado neste trabalho. Analogamente ao MRLN, aqui tambm pode ser considerada
uma transformao na varivel regressora. Aps vrias tentativas de transformao - in-
versa, exponencial, logartmica, entre outras - chegou-se concluso que o sexto e ltimo
modelo a ser considerado neste trabalho levaria em conta uma transformao logartmica
na varivel regressora, ou seja, xi = ln(xi ).
27
3.4 Tcnicas de diagnstico
Um passo importante no processo de ajuste de modelos estatsticos a anlise de
diagnstico. De modo geral, as tcnicas empregadas na anlise de diagnstico tm por
objetivo validar as suposies do modelo, bem como avaliar se o modelo utilizado se ajusta
bem aos dados. por meio desta anlise que so constatados desvios das suposies do
modelo, sejam eles referentes s suposies da parte sistemtica ou aleatria. tambm
por meio das tcnicas de diagnstico que so detectadas observaes influentes, ou seja,
observaes que causam impacto desproporcional nos resultados do ajuste.
hii = x 1
i (X X) xi .
Segundo Paula (2003), as observaes nas quais se observa a condio hii 2k/n
so elegveis a pontos de alavanca, e geralmente esto localizadas em regies remotas no
subespao gerado pelas colunas da matriz X. Ainda para o caso do modelo de regresso
linear normal, mostra-se que os valores hii coincidem com a medida ybi /yi , em que ybi
o valor ajustado da i-sima observao. Desta forma, pode-se interpretar hii como a
variao em ybi quando se acrescenta um infinitsimo a yi . Wei, Hu e Fung (1998) propem
uma forma geral de determinar pontos de alavanca baseando-se na medida
b = y
b
GL() ,
y
28
tnea no t-simo valor predito com respeito ao u-simo valor de resposta. Seguindo esta
abordagem, Ferrari e Cribari-Neto (2004) apresentam a frmula da alavanca generalizada
para o modelo de regresso beta, a qual ser utilizada neste trabalho.
ri = yi i , i = 1, . . . , n.
Particularizando para o caso do modelo de regresso linear normal, verifica-se com alguma
lgebra que ri N (0, 2 (1 hii )), i = 1, . . . , n e que, portanto, as quantidades ri s
possuem varincias diferentes. Alm disso, mostra-se que Cov(ri , rj ) = 2 hij , i 6= j,
com i = 1, . . . , n e j = 1, . . . , n, ou seja, as quantidades ri s no so independentes.
Para que sejam comparveis, conveniente expressar os resduos ordinrios em sua forma
padronizada, dividindo ri pelo seu respectivo desvio padro estimado, e assim obter o
resduo studentizado, ou seja,
ri
ti = , i = 1, . . . , n,
s(1 hii )1/2
em que
n
X
2 ri2
s = , (3.12)
i=1
nk
29
ri
ti = ,
s(i) (1 hii )1/2
Em seu artigo sobre regresso beta, Ferrari e Cribari-Neto (2004) seguem o preceito
dos resduos se basearem na diferena entre os valores observados e os valores ajustados,
e propem o resduo ordinrio padronizado
yi
bi
ri = q , (3.13)
d i)
Var(y
d i) =
em que Var(y bi (1 b com
bi )/(1 + ), b Aqui,
bi = g 1 (x ). b e b so os estimadores
de mxima verossimilhana de e , respectivamente. No entanto, Espinheira, Ferrari e
Cribari-Neto (2008) mostram, por meio de simulao de Monte Carlo, que para determina-
dos valores de e os resduos apresentados em (3.13) no so bem aproximados pela dis-
tribuio normal. Alm disso, por meio de exemplos, mostram que o resduo no sensvel
o suficiente para detectar observaes influentes. Com base nestas constataes, propem
dois novos resduos para a classe de modelos de regresso beta que, diferentemente do
conceito utilizado em (3.13), se baseiam na diferena entre o logito da varivel resposta e
seus valores ajustados. O primeiro deles, denominado resduo ponderado padronizado 1,
define-se como
yi
b
riw = i, (3.14)
vi
30
1/2
c 1 X W
matriz de projeo H = W1/2 X(X WX) c , em que W = diag(w1 , . . . , wn ) e
wi = vi [1/g (i )2 ], e define-se como
yi bi
riww = p . (3.15)
vi (1 hii )
1. ajustar o modelo;
31
9. repetir os passos 5 a 7 para i = 2, . . . , n.
hii 1
Di = t2i ,
1 hii k
hii
Di = (riww )2 ,
1 hii
32
Captulo 4
Este captulo contm a aplicao da base terica apresentada nos captulos anteriores.
A parte computacional que envolve os ajustes dos modelos e a gerao de grficos foram
desenvolvidas na plataforma computacional R, verso 2.3.1. Este programa pode ser gra-
tuitamente adquirido por download no stio http://www.r-project.org.
Nas seis primeiras sees so apresentados os resultados obtidos com os ajustes dos
modelos descritos no Captulo 3, por meio das estimativas dos parmetros dos modelos e
retas ajustadas sobrepostas ao grfico de disperso dos dados. Alm disso, tambm so
apresentados, por meio de grficos, os resultados obtidos com as tcnicas de diagnstico
descritas na Seo 3.4. O objetivo aqui encontrar subsdios que favoream ou descartem
a utilizao dos modelos propostos. Paula (2003) lista alguns grficos tradicionais que
auxiliam na anlise de diagnstico: para a deteco de pontos aberrantes, grfico de res-
duos contra os ndices das observaes; para deteco de ausncia de termo extra, grfico
de resduos contra varivel regressora; para deteco de pontos influentes, grfico da dis-
tncia de Cook contra os ndices das observaes e grfico de pontos de alavanca contra
os ndices das observaes; para deteco de heteroscedasticidade, grfico dos resduos
contra o valor ajustado; e para deteco de afastamento da suposio da distribuio,
grfico de resduos com envelope simulado.
Cada seo contm uma anlise dos resultados gerados pelos grficos supracitados.
33
Adicionalmente, para os modelos normais, os testes de Breusch-Pagan (Breusch e Pagan,
1979) e de Anderson-Darling (Anderson e Darling, 1954) so utilizados para reforar as
concluses sobre, respectivamente, as suposies de homoscedasticidade e normalidade.
Na ltima seo, conclui-se a anlise dos ajustes com a escolha do modelo mais adequado
aos dados desta dissertao.
34
1.0
21
0
0.9
0.8
logito(Fator de simultaneidade)
16
1
12
Fator de simultaneidade
0.7
29
0.6
0.5
2
21
0.4
0.3
16
3
12
29
0.2
0.1
34 31 34
31
0.0
4
0 1 2 3 4 5 6 7 8 9 10 0.0 1.0 2.0 3.0 4.0 5.0 6.0 7.0 8.0 9.0 10.0
(a) (b)
Figura 4.1: Grficos de disperso e reta ajustada do MRLN com transformao logito na
varivel resposta.
corrobora a Figura 4.1.a, ao evidenciar que o suave decaimento da reta ajustada trans-
formada acaba por no acomodar as observaes 12, 16, 21 e 29.
35
21 21
3
3
2
2
Resduo studentizado
Resduo studentizado
34
1
1
0
0
1
1
31
11
2
2
0 5 10 15 20 25 30 35 40 0 2 4 6 8
(a) (b)
34 34
0.3
Distncia de Cook
hii
0.2
31 31
21
0.1
0.0
(c) (d)
21
3
3
2
2
Residuo Studentizado
Resduo studentizado
34
1
1
0
0
1
1
31
3
2
4.5 4.0 3.5 3.0 2.5 2.0 1.5 2.0 1.5 1.0 0.5 0.0 0.5 1.0 1.5 2.0
(e) (f)
Tabela 4.2 Ajuste do MRLN com transformao logito na varivel resposta e transfor-
mao logartmica na varivel regressora.
37
1.0
1
0.9
21
0
0.8
logito(Fator de simultaneidade)
Fator de simultaneidade
0.7
1
0.6
33
0.5
2
21
0.4
3
0.3
0.2
33
4
34
0.1
31
31 34
0.0
5
2 1 0 1 2 3 0.0 1.0 2.0 3.0 4.0 5.0 6.0 7.0 8.0 9.0 10.0
(a) (b)
Figura 4.3: Grficos de disperso e reta ajustada do MRLN com transformao logito na
varivel resposta e transformao logartmica na varivel regressora.
38
33 33
2
2
Resduo studentizado
Resduo studentizado
1
1
21
0
0
1
1
2
2
31 31
0 5 10 15 20 25 30 35 40 1 0 1 2
(a) (b)
21
Distncia de Cook
0.10
hii
0.05
34
0.00
(c) (d)
3
33
2
2
Residuo Studentizado
Resduo studentizado
21
0
0
1
1
2
3
2
31
3.5 3.0 2.5 2.0 1.5 1.0 0.5 2.0 1.5 1.0 0.5 0.0 0.5 1.0 1.5 2.0
(e) (f)
39
4.3 MRLN com transformao logartmica na varivel
resposta
yi = 0 + 1 xi + i , i = 1, . . . , n,
40
1.0
0
0.9
21
0.8
1
log(Fator de simultaneidade)
Fator de simultaneidade
0.7
0.6
2
0.5
21
0.4
3
0.3
16
34 12
31 29
0.2
4
0.1
31 34
0.0
5
0 1 2 3 4 5 6 7 8 9 10 0.0 1.0 2.0 3.0 4.0 5.0 6.0 7.0 8.0 9.0 10.0
(a) (b)
Figura 4.5: Grficos de disperso e reta ajustada do MRLN com transformao logartmica
na varivel resposta.
41
21 21
2
2
34
Resduo studentizado
Resduo studentizado
1
1
0
0
1
1
3 3
2
2
11 11
0 5 10 15 20 25 30 35 40 0 2 4 6 8
(a) (b)
21 34
34
0.25
0.20
Distncia de Cook
31
0.15
hii
0.10
31
21
0.05
0.00
(c) (d)
3
21
2
34
Residuo Studentizado
Resduo studentizado
1
1
0
0
1
1
3
2
11
4.0 3.5 3.0 2.5 2.0 2.0 1.5 1.0 0.5 0.0 0.5 1.0 1.5 2.0
(e) (f)
yi = 0 + 1 xi + i , i = 1, . . . , n,
Tabela 4.4 Ajuste do MRLN com transformao logartmica nas variveis resposta e re-
gressora.
43
1.0
0
0.9
21
0.8
1
log(Fator de Simultaneidade)
Fator de simultaneidade
0.7
0.6
2
0.5
21
0.4
3
0.3
34
31
0.2
4
0.1
31 34
0.0
5
2 1 0 1 2 0.0 1.0 2.0 3.0 4.0 5.0 6.0 7.0 8.0 9.0 10.0
(a) (b)
Figura 4.7: Grficos de disperso e reta ajustada do MRLN com transformao logartmica
nas variveis resposta e regressora.
44
33 33
2
2
1
1
Resduo studentizado
Resduo studentizado
0
0
21
1
1
2
2
31 31
0 5 10 15 20 25 30 35 40 1 0 1 2
(a) (b)
31
21
0.15
Distncia de Cook
34
0.10
hii
34
0.05
0.00
(c) (d)
3
33
2
2
1
Residuo Studentizado
Resduo studentizado
1
0
21
0
1
1
2
2
31
3
3.5 3.0 2.5 2.0 1.5 1.0 2.0 1.5 1.0 0.5 0.0 0.5 1.0 1.5 2.0
(e) (f)
Figura 4.8: Grficos de diagnstico do MRLN com transformao logartmica nas variveis
resposta e regressora.
45
4.5 Modelo de regresso beta
Nesta seo considerado o modelo de regresso beta definido na Seo 3.3. Admite-se
que y1 , . . . , yn so variveis aleatrias independentes tal que yi tem distribuio beta de
mdia i e parmetro de disperso , e ainda,
i
ln = 0 + 1 xi , i = 1, . . . , n,
1 i
46
1.0
1
0.9
21
0
0.8
logito(Fator de Simultaneidade)
Fator de Simultaneidade
0.7
1
0.6
0.5
2
21
0.4
3
0.3
0.2
31 34
4
0.1
31 34
0.0
5
0 2 4 6 8 10 0.0 1.0 2.0 3.0 4.0 5.0 6.0 7.0 8.0 9.0 10.0
(a) (b)
A Figura 4.10.a evidencia que os resduos riww definidos em (3.15) no formam nenhuma
tendncia no grfico de disperso contra os ndices das observaes e pe em destaque a
observao 21, caracterizando-a como observao aberrante. Na Figura 4.10.b, na qual
traado o grfico de disperso entre os resduos riww e os valores da varivel regres-
sora, observa-se uma tendncia de afunilamento nos resduos, sugerindo a possibilidade
de melhora do ajuste do modelo caso seja adicionado um termo extra, possivelmente para
permitir que o parmetro de disperso dependa da potncia. Seguindo o critrio da dis-
tncia de Cook, h indcios de que a observao 21 seja a mais influente, conforme indica
a Figura 4.10.c. Por outro lado, utilizando o critrio dos valores de alavanca generalizada,
a Figura 4.10.d sugere a inexistncia de pontos de alavanca. A Figura 4.10.e., que mostra
o grfico de disperso entre riww e os respectivos valores ajustados, sugere um compor-
tamento heteroscedstico, na medida em que os resduos parecem se dispersar mais para
valores ajustados maiores. Por fim, a Figura 4.10.f indica que os resduos no esto bem
distribudos dentro do grfico de envelope simulado, com algumas delas extrapolando os
seus limites, sugerindo portanto desvio em relao s suposies do modelo.
47
4
4
21 21
3
3
Resduo ponderado
Resduo ponderado
2
2
34
1
1
31
0
0
1
1
11
2
2
0 5 10 15 20 25 30 35 40 0 2 4 6 8
(a) (b)
0.10
21
21
0.08
6
Alavanca generalizada
Distncia de Cook
0.06
31
4
0.04
34
2
0.02
0.00
0
(c) (d)
4
4
21
3
3
2
Residuo Ponderado 2
Resduo ponderado
1
1
0
1
0
2
1
3
2
0.05 0.10 0.15 0.20 2.0 1.5 1.0 0.5 0.0 0.5 1.0 1.5 2.0
(e) (f)
48
4.6 Modelo de regresso beta com transformao loga-
rtmica na varivel regressora
Nesta seo considerado o modelo de regresso beta definido na Seo 3.3. Admite-se
que y1 , . . . , yn so variveis aleatrias independentes tal que yi tem distribuio beta de
mdia i e parmetro de disperso , e ainda,
i
ln = 0 + 1 xi , i = 1, . . . , n,
1 i
Tabela 4.6 Ajuste do modelo de regresso beta com transformao logartmica na varivel
regressora.
49
1.0
1
0.9
21
0
0.8
logito(Fator de Simultaneidade)
Fator de Simultaneidade
0.7
1
0.6
0.5
2
21
0.4
3
0.3
0.2
31 34
4
0.1
31 34
0.0
5
2 1 0 1 2 3 0.0 1.0 2.0 3.0 4.0 5.0 6.0 7.0 8.0 9.0 10.0
(a) (b)
Figura 4.11: Grficos de disperso e reta ajustada do modelo de regresso beta com
transformao logartmica na varivel regressora.
termo extra. A observao 21 apresenta o maior valor residual do ajuste deste modelo.
As observaes 16, 33 e 35 apresentam valores de resduo altos, mas esto relativamente
prximas da massa de dados. Segundo o critrio da distncia de Cook, a observao 21
destaca-se como uma possvel observao influente, conforme mostra a Figura 4.12.c. A
observao 21 tambm destaque como ponto de alavanca, juntamente com a observao
15, conforme indica a Figura 4.12.d. A Figura 4.12.e no sugere nenhum comportamento
heteroscedtico dos resduos. Tambm no se observam desvios relevantes em relao
suposio de distribuio do modelo, conforme Figura 4.12.f, uma vez que as observaes
esto todas distribudas dentro dos envelopes ou bem prximos de seus limites.
A proposta desta seo escolher, entre os seis modelos ajustados nas sees ante-
riores, o modelo mais adequado aos dados. Em uma anlise inicial, sero descartados
os modelos que apresentaram algum desvio evidente em relao s suas suposies. Em
50
21 21
3
3
16 33 16 33
2
2
Resduo ponderado
Resduo ponderado
1
1
0
0
1
1
2
2
35 35
0 5 10 15 20 25 30 35 40 1 0 1 2
(a) (b)
0.5
21 21
250
0.4
200
Alavanca generalizada
Distncia de Cook
0.3
150
0.2
100
15
0.1
50
3431
0.0
0
(c) (d)
21
5
3
33 16
3
2
2
Residuo Ponderado
Resduo ponderado
1
1
1 0
0
3
1
5
2
35
0.1 0.2 0.3 0.4 2.0 1.5 1.0 0.5 0.0 0.5 1.0 1.5 2.0
(e) (f)
52
Para o modelo de regresso beta, cujos resultados so apresentados na Seo 4.5,
foram encontrados diversos desvios. Foram encontrados indcios de ausncia de termo ex-
tra, disperso varivel e desvio na suposio da distribuio do modelo, configurando-se,
portanto, uma situao na qual o modelo inadequado para os dados considerados.
Uma grande diferena entre estes dois modelos pode ser observada na Figura 4.13,
que contrape as duas curvas ajustadas transformadas. A queda acentuada da curva
do modelo de regresso beta, observada na Figura 4.13.b, devida transformao loga-
rtmica da varivel regressora. Comportamento similar foi observado em todos os modelos
que consideraram esta transformao. A pergunta a ser respondida agora : qual destas
duas curvas melhor se aproxima do verdadeiro comportamento do fator de simultaneidade?
Nota-se que, entre as duas curvas, quase no h diferena em estimar o fator de si-
multaneidade mdio para potncias computadas superiores a 1 M W . A maior diferena
entre as duas curvas, portanto, envolve a estimativa de fatores de simultaneidade inferi-
ores a 1 M W . Como o escopo deste trabalho apenas sistemas prediais cuja utilizao
de gs natural para o aquecimento de gua e coco, as chances de observar potncias
computadas com valores baixos ficou bastante reduzida. De fato, nota-se que os valores
observados de potncia computada so superiores a 0.5 M W , com exceo da observao
21, cujo valor de potncia computada foi 0.17 M W . Portanto, este trabalho no levantou
massa de dados que possa evidenciar, com algum grau de certeza, o comportamento do
53
1.0
1.0
0.9
0.9
0.8
0.8
Fator de Simultaneidade
Fator de simultaneidade
0.7
0.7
0.6
0.6
0.5
0.5
21 21
0.4
0.4
0.3
0.3
16
12
29
0.2
0.2
0.1
0.1
31 34 31 34
0.0
0.0
0.0 1.0 2.0 3.0 4.0 5.0 6.0 7.0 8.0 9.0 10.0 0.0 1.0 2.0 3.0 4.0 5.0 6.0 7.0 8.0 9.0 10.0
(a) (b)
Figura 4.13: Grficos de disperso e reta ajustada do MRLN com transformao logart-
mica na varivel resposta (a) e do modelo de regresso beta com transformao logartmica
na varivel regressora (b).
54
problema de falta de informao em um intervalo de valores da potncia. Desta forma, o
modelo de regresso beta com transformao logartmica na varivel regressora apresenta-
se como o modelo mais adequado neste trabalho.
Uma vez definido o modelo a ser considerado nesta dissertao, importante avaliar o
impacto de observaes possivelmente influentes sobre as estimativas do modelo, conforme
apontado pelos grficos de diagnstico da Seo 4.6. A Tabela 4.7 mostra a variao das
estimativas mediante a retirada das observaes possivelmente influentes. Sob o efeito da
retirada da observao 21, no h grandes impactos sobre as estimativas de 0 e 1 . A
variao observada no parmetro 1 inferior a 8% e as concluses sobre a importncia
da potncia para explicar o fator de simultaneidade permanece inalterada. Em relao ao
55
parmetro de dispeso , a variao observada com a retirada da observao inferior a
1%. A Figura 4.14 mostra as curvas ajustadas com e sem a observao 21 evidenciando
que, de fato, quase no h impacto no ajuste das curvas mediante retirada da observao
21.
Todas Todas
0.9
Sem 21 Sem 21
21
0
0.8
logito(Fator de Simultaneidade)
Fator de Simultaneidade
0.7
1
0.6
0.5
2
21
0.4
3
0.3
0.2
4
0.1
0.0
5
2 1 0 1 2 3 0.0 1.0 2.0 3.0 4.0 5.0 6.0 7.0 8.0 9.0 10.0
(a) (b)
Figura 4.14: Efeito da retirada da observao 21 no modelo de regresso beta com trans-
formao logartmica na varivel resposta.
56
Outro passo importante consiste na interpretao do modelo ajustado, ou seja,
b
ln = 1.71 0.79 x
1b
Como usual em modelos que levam em conta a funo logito como funo de li-
gao, poder-se-ia interpretar o modelo ajustado em termos de razo de chances por meio
b
da medida e(c1 ) , em que c um incremento na varivel regressora. No entanto, como
a varivel resposta aqui estudada no representa uma probabilidade, no conveniente
interpret-la como tal.
b
Nota-se, porm, que e(0.11 ) = e(0.10.79) 1.08, o que significa que, a cada re-
duo de 0.1 no logaritmo natural da potncia (aproximadamente 1M W na potncia
computada), a utilizao simultnea mdia dos aparelhos de utilizao de um sistema
predial aumenta em 8%.
57
Captulo 5
5.1 Introduo
O modelo de regresso beta com transformao logartmica na varivel resposta foi o
modelo que melhor se ajustou aos dados de fator de simultaneidade, conforme Seo 4.7.
As tcnicas de diagnstico apresentadas na Seo 3.4 contriburam para concluir que este
modelo definiu a curva mdia que melhor acomodou as observaes no grfico de disperso
entre fator de simultaneidade e potncia computada.
58
ser utilizado o mtodo de bootstrap, o qual ser escrito nas sees seguintes.
A forma de obteno das amostras bootstrap definem duas verses para o mtodo:
no-paramtrica e paramtrica. No bootstrap no-paramtrico, a amostra original y as-
sume status de populao, sobre a qual so extradas, aleatoriamente e com reposio,
as amostras bootstrap y . Formalizando este procedimento em termos estatsticos, as
amostras bootstrap so obtidas de uma estimativa no-paramtrica de F, que empirica-
mente estimada por
b = #{yi t} , t R,
F(t) (5.1)
n
59
5.3 Intervalos de predio bootstrap
Na prtica, a curva do fator de simultaneidade utilizada para a determinao do fator
em novas edificaes. Em termos estatsticos, deseja-se predizer o fator de simultaneidade
de uma nova edificao utilizando um modelo de regresso previamente ajustado com
base em um conjunto de n pares de dados ((x1 , y1 ), . . . , (xn , yn )). Sejam x+ a potncia
computada de uma nova edificao, pertencente ou no ao conjunto de dados original, e
y+ o respectivo fator de simultaneidade no observado. A predio pontual deste novo
b+ = g 1 (b0 +x+ b1 ), em que g 1 () a funo
valor do fator de simultaneidade dada por
inversa da funo de ligao e b0 e b1 so os estimadores de mxima verossimilhana dos
parmetros do modelo, obtidos com base no conjunto de dados original. Alm da predio
pontual, tambm conveniente estabelecer os limites de predio. Estes limites formam
um intervalo de predio baseado em nveis de confiana, e so construdos com base na
distribuio aproximada do erro de predio.
Seja R(y, ) uma funo montona crescente em y com varincia constante. Suponha
que a mdia + e a distribuio de R(y, ) sejam conhecidas e que q seja o -simo quan-
til desta distribuio. Logo, os limites de predio para um intervalo com nvel nominal
1 so os valores y+,/2 e y+,1/2 que satisfazem, respectivamente, R(y, + ) = q(/2)
e R(y, + ) = q(1/2) . Se estimado por
b independentemente de y+ e se R(y+ ,
b)
tem quantis conhecidos, o mesmo mtodo se aplica. Se a distribuio de R(y+ ,
b)
desconhecida, a mesma pode ser aproximada por mtodos assintticos ou por mtodos
de reamostragem, tal como o mtodo bootstrap, por exemplo. Desta forma, por meio do
mtodo bootstrap possvel obter uma aproximao da distribuio de R(y+ ,
b), e as-
sim obter os quantis empricos utilizados na obteno dos limites de predio. A funo
R(y, ) corresponde a alguma definio de resduo do modelo. O algoritmo bootstrap uti-
lizar para o processo de reamostragem uma verso padronizada da funo R(y, ), cuja
distribuio tenha varincia aproximadamente constante.
yi
bi
R(y,
b) = ,
vi
60
ou seja, o resduo padronizado 1 tal como definido em (3.14). No processo de reamostragem,
prope-se utilizar a padronizao do resduo padronizado 1, ou seja,
y bi
riww = p i ,
vi (1 hii )
que o resduo padronizado 2 tal como definido em 3.15. Para desenvolver o mtodo boot-
strap para a obteno de limites de predio empricos para o modelo de regresso beta,
Ospina (2007) baseou-se no mtodo proposto por Davison e Hinkley (1997) para modelos
lineares generalizados. Em sua tese, a autora detalha o algoritmo para a obteno dos
limites de predio empricos, mostra um exemplo de aplicao e conclui que o intervalo
de predio bootstrap tem, em geral, bom desempenho, mas tende a falhar quando usado
para prever casos que seriam considerados influentes se estivessem presentes no conjunto
de dados observados.
O mtodo proposto por Ospina (2007) foi a ferramenta utilizada para a obteno do
intervalo de predio do modelo ajustado na Seo 4.6. Implementada na plataforma
computacional Ox, a sada do mtodo computacional so os valores referentes ao inter-
valo de predio bootstrap. Dentro do intervalo (0, 10] (em kW), a cada incremento de 1W
no valor da potncia computada, foi empregado o mtodo bootstrap, gerando assim 10000
valores preditos do fator de simultaneidade com seus respectivos limites inferiores e su-
periores de intervalo de predio bootstrap. Aqui, foram considerados limites de predio
com coeficiente de confiana nominal igual a 95%.
61
esta variao, foi empregada a tcnica de suavizao de grficos de disperso descrita
em Cleveland (1979) e Cleveland (1981). Esta tcnica, conhecida como LOWESS (das
iniciais de Locally Weighted Robust Scatterplot Smoothing), utiliza modelos de regresso
ponderados robustos para gerar, com base nos pontos de um grfico de disperso, uma
curva suavizada. Aqui, foram tomados os pares formados pelos valores das potncias
utilizadas no mtodo bootstrap e os respectivos valores obtidos para o limite superior do
intervalo de predio, totalizando assim 10000 pontos. O resultado deste procedimento
pode ser observado na Figura 5.1.b.
1.0
1.0
0.9
0.9
0.8
0.8
Fator de Simultaneidade
Fator de Simultaneidade
0.7
0.7
0.6
0.6
0.5
0.5
0.4
0.4
0.3
0.3
0.2
0.2
0.1
0.1
0.0
0.0
0.0 1.0 2.0 3.0 4.0 5.0 6.0 7.0 8.0 9.0 10.0 0.0 1.0 2.0 3.0 4.0 5.0 6.0 7.0 8.0 9.0 10.0
(a) (b)
Figura 5.1: Limite superior do intervalo de predio bootstrap: dados brutos (a) e sob
efeito da tcnica LOWESS de suavizao de curvas (b).
62
Tabela 5.1 Potncias computadas (kW) e seus respectivos fatores de simultaneidade
63
Captulo 6
Consideraes finais
6.1 Concluses
Neste trabalho, foram apresentadas diversas abordagens possveis para a predio do fa-
tor de simultaneidade por meio de modelos de regresso para propores contnuas. O
objetivo foi identificar quais destas abordagens melhor se adapta ao conjunto de dados
utilizado e, assim, propor uma curva do fator de simultaneidade.
De modo geral, pode-se dividir os modelos utilizados neste trabalho em trs classes:
modelos de regresso lineares normais, modelos de regresso lineares normais motivados
por modelos de regresso no-lineares normais, e modelos de regresso beta. As duas
primeiras classes de modelos so alternativas largamente empregadas na literatura cient-
fica, conforme mostram Kieschnick e McCullough (2003). A comparao entre os modelos
ocorreu por meio das diversas tcnicas de diagnsticos apresentadas na Seo 3.4, que
ajudaram a identificar desvios nas suposies dos modelos e observaes influentes. Por
razes j apresentadas na Seo 4.7, o modelo mais adequado aos dados deste trabalho
foi o modelo de regresso beta com transformao logartmica na varivel regressora, con-
cluso esta que vai ao encontro das expectativas iniciais do trabalho.
A simples escolha de um modelo que se ajustou melhor aos dados no fornece uma
soluo ao problema de predio do fator de simultaneidade, uma vez que um modelo
bem ajustado forneceria apenas uma boa estimativa do fator de simultaneidade mdio
64
para um dado valor de potncia. Na prtica, necessrio que, ao se determinar o fator de
simultaneidade para uma nova edificao, assegure-se com algum grau de confiana, que
o fator de simultaneidade no seja subestimado. Em termos estatsticos, foi necessrio
obter um intervalo de predio para o fator de simultaneidade baseado no modelo de re-
gresso beta. Para tanto, foi aplicada a teoria apresentada na Seo 5.1 - e desenvolvida
em detalhes por Ospina (2007) - que trata do desenvolvimento da tcnica de bootstrap
para predio em modelos de regresso beta. A utilizao do bootstrap em conjunto com
a tcnica de suavizao LOWESS forneceu o resultado final deste trabalho, apresentado
na Figura 5.1 e na Tabela 5.1.
Por fim, pode-se afirmar que a curva boostrap obtida neste trabalho est alinhada aos
estudos similares realizados recentemente, nos quais se alimenta a expectativa de que o
fator de simultaneidade possa ser cada vez menor. Este trabalho est entre aqueles que
vem comprovando esta expectativa, e que s foi possvel ser realizado principalmente por
dois fatores. Em primeiro lugar, atualmente existe maior facilidade de acesso aos dados de
comportamento de consumo de gs natural graas expanso da rede de distribuio. Em
segundo lugar, o desenvolvimento computacional tem possibilitado a aplicao de diver-
sas tcnicas estatsticas que dependem de procedimentos computacionalmente intensivos,
como o caso do bootstrap.
Sob o ponto de vista prtico, a oportunidade surge quando se constata o escopo restrito
do modelo obtido. Os dados levantados referem-se a sistemas prediais exclusivamente
residenciais, situados na cidade de So Paulo e equipados com fogo e aquecedor de gua.
Portanto, os resultados obtidos no devem ser extrapolados para sistemas prediais com
outras caractersticas. A incluso de sistemas prediais com outras caractersticas pode
65
melhorar a predio do fator de simultaneidade e aumentar a sua abrangncia. Em ter-
mos estatsticos, a sugesto considerar outras variveis regressoras que levem em conta
a diversidade dos sistemas prediais, tais como regio (fria ou quente, rica ou pobre), fins
de utilizao do gs (cocco e aquecimento, somente cocco, somente aquecimento),
atividade (somente residencial, somente comercial, residencial e comercial), entre outras.
Sob o ponto de vista terico, existem vrios outros modelos que podem ser utilizados
para modelar o fator de simultaneidade. Alm dos j citados aqui, Kieschnick e McCul-
lough (2003) citam o modelo de regresso normal censurado (Tobit), o modelo simplex e
os modelos de quase-verossimilhana. Smithson e Verkuilen (2006) apresentam uma vari-
ao do modelo de regresso beta que considera a modelagem do parmetro de disperso.
Deve-se ressaltar, no entanto, que o problema no se restringe ao ajuste do modelo aos
dados. Deve-se tambm buscar uma soluo para a obteno de intervalos de predio,
que o passo no qual efetivamente se obtm a predio do fator de simultaneidade para
novas edificaes.
66
Apndice A
Dados
67
Referncias Bibliogrficas
[1] ABNT - Associao Brasileira de Normas Tcnicas. (2002) NBR 14570 - Instalaes
Internas para Uso Alternativo dos Gases GN e GLP - Produto e Execuo. Rio de
Janeiro, ABNT.
[2] Anderson, T. W., Darling, D. A. (1954). A test of goodness of fit. Journal of the
American Statistical Association, 49, 765 - 769.
[4] Breusch, T. S., Pagan, A.R. (1979). A simple test for heteroscedasticity and random
coefficient variation. Econometrica, 47, 1287 - 1294.
[5] Bussab, W. O., Morettin, P. A. (2002). Estatstica Bsica. 5a ed., So Paulo, Saraiva.
[7] Casella, G., Berger, R. L. (1996). Statistical Inference. California, Duxbury Press.
68
[8] Cleveland, W. S. (1979). Robust locally weighted regression and smoothing scatter-
plots. Journal of the American Statistical Association, 74, 829 - 836.
[12] Cook, R.D., Pea, D., Weisberg, S. (1988). The likelihood displacement: A unifying
principle for influence measures. Communications in Statistics, Theory and Methods,
17, 623 - 640.
[13] Cook, R.D., Weisberg, S. (1982). Residuals and Influence in Regressions. London,
Chapman and Hall.
[14] Cordeiro, G.M., Paula, G.A. (1992). Estimation, large-sample parametric tests
and diagnostics for non-exponential family nonlinear models. Communications in
Statistics, Simulation and Computation, 21, 149 - 172.
[15] Davison, A. C., Hinkley, D. V. (1997). Bootstrap Methods and their Applications.
New York, Cambridge University Press.
[16] Draper, N. R., Smith, H. (1981). Applied Regression Analysis. New York, Wiley.
69
[17] Efron, B. (1979). Bootstrap methods: another look at the jackknife. Annals of
Statistics, 7, 1-26.
[19] Everitt, B., S. (1994). A Handbook os Statistical Analysis using S-Plus. Chaaman
and Hall, London.
[20] Ferrari, S. L. P., Cribari-Neto, F. (2004). Beta regression for modelling rates and
proportions. Journal of Applied Statistics, 31, 799 - 815.
[21] Hoaglin, D. C., Welsch, R. E. (1978). The hat matrix in regression and ANOVA.
The American Statistician, 32, 17-22.
[24] Kawabe, L., Ogassavara, G., Dias, R. P. (1989) Fator de simultaneidade. In:
Simpsio Brasileiro de Medio de Vazo, 1., So Paulo, 1989. Anais. So Paulo,
IPT, 117 - 123.
70
[25] Kieschnick, R., McCullough, B. D. (2003). Regression analysis of variates observed
on (0,1): percentages, poportions and fractions. Statistical Modelling, 3, 193 - 213.
[26] Mittlbck, M., Schemper, M. (1996). Explained variation for logistic regression.
Statistics in Medicine, 15, 1987 - 1997.
[28] Neter, J., Kutner, M. H., Nachtsheim, C. J., Wasserman, W. (1996). Applied Linear
Statistical Models. Chicago, Irwin.
[29] Nocedal, J., Wright, S. J. (1999). Numerical Optimization. New York, Springer-
Verlag.
[31] Ospina, P. L. E. (2007). Regresso Beta. So Paulo, 2007. Tese (Doutorado) - IME,
Universidade de So Paulo.
[33] Pregibon, D. (1981). Logistic regression diagnostics. Annals of Statistics, 9, 705 - 724.
[34] Rao, C. R. (1973). Linear Statistical Inference and Its Applications. New York, Wiley.
71
[35] Smithson, M., Verkuilen, J. (2006). A better lemon-squeezer? Maximum likelihood
regression with beta-distribuited dependent variables. Psychological Methods, 11,
54-71.
[36] Wei, B. C., Hu, Y. Q., Fung, W. K. (1998). Generalized leverage and its applications.
Scandinavian Journal os Statistics, 25, 25 - 37.
72