Sie sind auf Seite 1von 32

2016

Relatrio de Extrao
de Medidas e Anlise
de Datasets
O relatrio contempla um estudo sobre as medidas realizadas nos
datasets BC-pOct89 (Bellcore) e LAN (Bellcore) para a devida
caracterizao estatsca dos dados coletados e analisados com a
ferramenta R.

Mrcio Vinicius de Queiroz Santos


Wilson Jos Siqueira
Vinicius Oliveira de Souza
SUMRIO
SUMRIO .......................................................................................................................... 1
1. Introduo ........................................................................................................................................ 1
2. Ferramentas Utilizadas .................................................................................................................. 2
3. Parte I ................................................................................................................................................ 2
4. Anlise Exploratria de Dados do Dataset Bellcore ............................................................... 4
5. CDF (Funo de Distribuio de Probabilidade)...................................................................10
6. CDF (Funo de Distribuio de Probabilidade) Complementar ......................................12
7. Q-Q Plot.........................................................................................Error! Bookmark not defined.
8. ACF(Funo de Autocorrelao) ..............................................................................................14
9. Skewness ........................................................................................................................................17
10. Curtose .........................................................................................................................................17
11. Definio da Distribuio do Dataset Bellcore (bps) .........................................................18
12. Parte II ..........................................................................................................................................24
13. Anlise Exploratria de Dados do Dataset LAN ................................................................24
14. Anexo I Lista de Comandos e Comentrios do Dataset BC-pOct89Error! Bookmark not defined.
15. Anexo I Lista de Comandos e Comentrios do Dataset LANError! Bookmark not defined.

1. Introduo
MODELAGEM DE SISTEMAS DE COMPUTAO E COMUNICAO

Pgina 1
Este relatrio refere-se disciplina de Modelagem de Sistemas de Computao e
Comunicao da UNIRIO, como sendo uma das etapas de avaliao, cujo assunto abordado refere-
se Extrao de Medidas e Anlise de Datasets.

O objetivo o de analisar informaes para o devido entendimento do comportamento do


trfego de dados ethernet do dataset BC-pOct89.TL, bem como a anlise do dataset LAN.txt.

A Parte I refere-se realizao de medidas e estudos sobre o dataset BC-pOct89 e a Parte


II estuda o dataset LAN.txt, ambos recuperados da base de dados da Bellcore Morristown Research
and Engineering Facility.

2. Ferramentas Utilizadas

Abaixo, encontram-se as configuraes de ambiente que foram utilizadas para a gerao das
medidas de avaliao:

2.1 Hardware

Notebook Dell Vostro 14-5470; 8GB de memria RAM; SDD de 120GB e Processador
Intel Core i5-4210U de 4 gerao com 1.70 GHz.

2.2 Software

a. Sistema Operacional Linux Kubuntu 15.10 de 64bits; Kernel 4.2.0-36-generic;

b. R: A Language and Environment for Statistical Computing; Software R Studio


verso 0.99.902;

c. Microsoft Word 2016

3. Parte I

O trace Bellcore (BC-pOct89) consiste de um arquivo texto contendo duas colunas, onde na
primeira coluna tem-se o timestamp do envio de um pacote e na segunda o tamanho do respectivo
pacote em bytes, cujas medidas foram obtidas em 1989 a partir de uma interface Ethernet da rede
Bellcore (Bellcore Morristown Research and Engineering Facility).

A taxa agrupada em bps do pacote corresponde a 1760 observaes dos dados agrupados
por segundos, o que em bpm representa 30 minutos de observaes. Mais adiante sero

MODELAGEM DE SISTEMAS DE COMPUTAO E COMUNICAO

Pgina 2
apresentados os resultados do mtodo summary do R para ilustrar estatsticas do trace de Bellcore
considerando as taxas em bps e bpm.

Antes do incio da plotagem grfica e da anlise das medidas estatsticas, foram necessrios
ajustes nos dados, tendo em vista que a primeira coluna do dataset BC-pOct89 encontrava-se no
formato de timestamp, sendo, pois, imprescindvel a customizao do R para que fosse possvel
a utilizao de 7 casas decimais, convertendo-se a varivel timestamp para o formato POSIXlt,
passando como argumento o formato adequado.

Alm das alteraes acima, converteu-se a unidade de tamanho dos pacotes de bytes
para bits para a devida conformidade com o que fora solicitado na demanda do trabalho. Como as
medidas solicitadas esto relacionadas aos dados agrupados respectivamente em bits/s(a) e bits/min
a cada segundo(b), foi necessrio tambm agrupar os dados nessas unidades de tempo.

Nos dados em bits/min, foi necessrio ainda a diviso por 60, visto que a prescrio do
exerccio exige que a srie esteja em bits/min a cada segundo.

Para a realizao dos ajustes relatados, foram executados os seguintes comandos no R:

#Lendo o Arquivo
traceBC <- read.table(file = '/home/marcio/Documentos/trabalho_estatistica/belcore.TL',
header=TRUE)

#Habilitando 7 Casas Decimais


options(digits.secs = 7)

#Criando os Nomes das Colunas


names(traceBC)<- c("tempo","tamanho")

#Formatando o Tempo de Timestamp para POSIXlt


traceBC$tempo <- as.POSIXlt(traceBC$tempo, origin = "1989-10-05 11:00:00")

#Convertendo o Tamanho dos Pacotes de Bytes para Bits


traceBC$tamanho<- traceBC$tamanho*8

#Somando o Tamanho dos Pacotes (bits) a cada segundo, resultando na taxa em bps
taxabps1seg<- aggregate(list(tamanho= traceBC$tamanho), list(segundos =
cut(traceBC$tempo, "1 sec")), sum)

#Somando o tamanho dos pacotes (bits) a cada minuto, resultando na taxa em bpm
bits1min <- aggregate(list(tamanho=traceBC$tamanho), list(minutos = cut(traceBC$tempo,
"1 min")), sum)

#Divide a taxa em bits/min por 60 para conseguir a taxa em bps a cada minuto
taxabps1min <- data.frame(minutos = bits1min$minutos, tamanho= bits1min$tamanho/60)

MODELAGEM DE SISTEMAS DE COMPUTAO E COMUNICAO

Pgina 3
Aps a realizao dessas mudanas e, consequentemente, tendo sido ajustadas as unidades,
iniciou-se a fase de plotagem dos grficos para a coleta das mtricas.

4. Anlise Exploratria de Dados do Dataset Bellcore

A anlise exploratria de dados EDA (Exploratory Data Analysis) uma tcnica


estatstica para a investigao inicial de dados, cujo objetivo o de conhecer o dataset de
trabalho, ilustrando determinadas medidas estatsticas, bem como mostrando uma rpida
visualizao grfica das informaes as quais podero ser acompanhadas nos subitens a seguir.

Abaixo, mostrada a Tabela 1 com a captura dos principais dados estatsticos da srie
temporal, quais sejam: a menor taxa, primeiro quartil, mediana, mdia, terceiro quartil e a maior
taxa em bps e bpm.

Tabela 1: Estatsticas Descritivas das Taxas (bps)

Min 1stQu. Median Mean 3rdQu. Max


bps 232500 2001000 2666000 2901000 3837000 7712000
bpm 1465000 2209000 2485000 2837000 3837000 4855000

4.1 Sries Temporais


Para que fosse possvel investigar o comportamento da srie e realizar a plotagem dos
histogramas, bem como verificar a funo de auto-correlao dos dados foi necessrio antes
transformar os dados por segundo(a) e dados por minuto(b) em sries temporais para que o
R trate adequadamente o dataset como um objeto da classe srie temporal. Esse tipo de objeto
criado atravs dos comandos:

#Transformando as Taxas Encontradas em Sries Temporais


taxabps1segts <- ts(taxabps1seg$tamanho, frequency = 1)
taxabps1mints <- ts(taxabps1min$tamanho, frequency = 1)
ts.plot(taxabps1segts, ylab='bits/s', main= Srie em Bits/s a cada segundo,xlab =
Tempo)
ts.plot(taxabps1mints,ylab='bits/min', main= Srie em Bits/s a cada minuto))

O que resultou no seguinte grfico de sries temporais, obtido com a penltima linha de
comando acima:

MODELAGEM DE SISTEMAS DE COMPUTAO E COMUNICAO

Pgina 4
Figura 1

O que se observa na srie temporal da Figura uma grande variao na taxa (bits/s),
bem como uma queda na taxa prximo ao milsimo segundo, seguida por uma tendncia de
deslocamento no nvel da srie (subida na srie).

No caso da srie temporal, a cada minuto, obviamente, verifica-se o mesmo


comportamento da srie em segundos, porm com uma curva mais suavizada dada a
mudana de escala como pode ser visto na Figura , obtida pela ltima linha de comando
acima

FIGURA 2

MODELAGEM DE SISTEMAS DE COMPUTAO E COMUNICAO

Pgina 5
Seguem tambm os dados da srie em minutos:

Tabela 2 Estatsticas Descritivas das Taxas (bpm)


Valor Min 1 Quartil Mediana Mdia 3 Quartil Valor Max
1465000 2209000 2485000 2837000 3869000 4855000

Contudo, tais curvas no so suficientes para ajudar na identificao da distribuio de


probabilidade que poder ser usada para modelar as duas sries temporais (a) e (b).

Os resumos de cada srie foram obtidos atravs do comando summary() como pode ser
observado a seguir:

#Extrair as informaes das sries com o comando summary


summary(taxabps1segts)
summary(taxabps1mints)

Por meio dessas estatsticas iniciais procura-se obter um rpido resumo dos valores
mnimos, mximos, medianos e mdios das sries. Temos ainda o segundo e terceiros quartis
que deixam 25% e 75% dos valores abaixo daqueles indicados nas tabelas 1 e 2. Com o fim
de buscar a melhor caracterizao estatstica, recorremos visualizao grfica dos dados.
4.2 Histogramas
Por meio do histograma possvel ter ideia da assimetria dos dados e, ainda, se h algum
modelo terico de probabilidade aderente com os dados levantados. Observando a Figura 3,
a taxa em bits/s indica assimetria esquerda, com uma cauda mais longa no sentido positivo
do eixo das abscissas.

Para que fosse possvel realizar a plotagem dos histogramas, foram executados os
seguintes comandos:

#Histogramas
hist(taxabps1segts, breaks = 100,prob=TRUE, main = "Histograma da Taxa do Trace
da Bellcore (bits/s)",xlab="bits/s",ylim=c(0,5e-07), col="lightblue")
lines(density(taxabps1segts),lwd=2,col="red")

hist(taxabps1mints, breaks = 30, prob=TRUE, main = "histograma da Taxa do Trace da


Bellcore", col="lightblue", xlab = Taxa bits/s)
lines(density(taxabps1mints),lwd=2,col="red")

O parmetro breaks indica o nmero de barras desejadas para o histograma. Para


minutos, ficou bem adequado, visto que para 30min de medies foram inseridos breaks=30;
o main permite a insero de um ttulo para cada um dos histogramas e prob=true permite
ajustar uma curva de densidade estimada aos dados pelo comando lines( ) com os parmetros
adequados.

MODELAGEM DE SISTEMAS DE COMPUTAO E COMUNICAO

Pgina 6
FIGURA 3

Observam-se tambm valores isolados com taxas prximas 8Mb/s (8e+06), chamando
a ateno para possveis outliers, valores discrepantes da srie como um todo No entanto,
no h como confirmar esse dado, com base no histograma acima, j que com as velocidades
de Ethernet (10/100/1000), tais taxas podem ser tranquilamente obtidas.

MODELAGEM DE SISTEMAS DE COMPUTAO E COMUNICAO

Pgina 7
FIGURA 4

O histograma da srie em minutos(b) na Error! Reference source not found.


surpreendeu bastante, dado o grande espao no centro, assinalando a hiptese de um histograma
com comportamento bimodal com duas janelas de tempo distintas. Essa mudana no
comportamento da srie ficou mais evidenciada no histograma acima.
5. Q-Q Plot

Para a caracterizao estatstica uma ferramenta comumente empregada o grfico que


plota os quantis da normal padro no eixo dos x com os quantis convenientemente
transformados da varivel em estudo. Esse grfico, conhecido como QQ-plot dever
apresentar uma linha reta se a distribuio dos dados forem ajustadas ao modelo de
distribuio da normal.
As linhas, no RStudio, para gerao dos grficos Q-Q plot foram as seguintes:

# Q-Q plot com a reta normal


MODELAGEM DE SISTEMAS DE COMPUTAO E COMUNICAO

Pgina 8
qqnorm(taxabps1segts)
qqline(taxabps1segts)

Segue abaixo a realizao do Q-Q Plot (Quantil-Quantil) onde so comparados os


quantis entre a distribuio normal e as sries: a cada segundo(a) e a cada minuto(b).

FIGURA 5

MODELAGEM DE SISTEMAS DE COMPUTAO E COMUNICAO

Pgina 9
FIGURA 6

Analisando o Q-Q Plot da normal na Error! Reference source not found. podemos ter
bons indcios de que a srie no est aderente distribuio normal, visto que os dados se
comportam completamente distintos dos quantis da normal.

Ambos os Q-Q Plots apresentam bons indcios de que as sries no esto aderentes
distribuio normal. Pelos QQ-plot da normal posvel verificar que o dataset se afasta da
distribuio normal de probabilidade, principalmente nas caldas. Se esses dados seguissem
uma distribuio normal eles estariam perfeitamente alinhados com a linha dos quantis da
normal. Os QQ-plot tambm demonstram a presena de outliers nos dados.

6. CDF (Funo de Distribuio Cumulativa Emprica)

Aps anlise dos histogramas, seguiu-se para a verificao do comportamento das


Funes de Distribuio Acumuladas Emprica (CDF) de cada uma das sries por segundo(a)
e por minuto(b). Esse grficos podem indicar a presena de caldas pesadas (heavy tail).

Os grficos das CDF`s foram obtidos partir das seguintes linhas no RStudio:
taxasec<-as.vector(taxabps1segts)
taxamin<-as.vector(taxabps1mints)

f<-ecdf(taxabps1segts)
plot(ecdf(taxabps1segts),main="CDF (1/bps)",xlab="bps")

MODELAGEM DE SISTEMAS DE COMPUTAO E COMUNICAO

Pgina 10
plot(sort(taxabps1segts),1-f(sort(taxabps1segts)),type="s",ylab="1-F(x)",main="CDF
Compl (bps)",xlab = "bps")

#Minutos
f<-ecdf(taxabps1mints)
plot(ecdf(taxabps1mints),main="CDF (bpm)",xlab="bpm")
plot(sort(taxabps1mints),1-f(sort(taxabps1mints)),type="s",ylab="1-F(x)",main="CDF
Compl (bpm)",xlab = "1/bps")

Uma observao importante que para plotar essas funes grficas, devemos
transformar os dados originais em objeto vetor para o adequado tratamento pelo R. Esse
procedimento foi feito nas primeiras linhas com o comando as.vector(). Tambm foi
necessrio usar um artifcio para obter a CDF complementar ordenando os valores ordenados
por 1-f que representa a complementao para os dados acumulados.

FIGURA 4

Na CDF da Figura , verifica-se, visualmente, que o valor da mediana est entre 2 e 3Mb/s
e que apesar de ser de difcil percepo, novamente percebe-se indcios de cauda longa, visto
que os valores em torno de 8Mb/s quase tangenciam o valor 1.

MODELAGEM DE SISTEMAS DE COMPUTAO E COMUNICAO

Pgina 11
FIGURA 5

J na CDF da Figura , possvel perceber o comportamento parecido com o evidenciado


no histograma da Error! Reference source not found., ou seja, dois comportamentos distintos
separados por um perodo no qual a probabilidade no muda, pois no h valor nenhum nesse
intervalo.

7. CDF (Funo de Distribuio de Probabilidade) Complementar


As CDFs complementares foram obtidas atravs das seguintes linhas no RStudio:

#Segundos
plot(sort(taxabps1segts),1-f(sort(taxabps1segts)),type="s",ylab="1-F(x)",main="CDF
Compl (bps)",xlab = "bps")

#Minutos
plot(sort(taxabps1mints),1-f(sort(taxabps1mints)),type="s",ylab="1-F(x)",main="CDF
Compl (bpm)",xlab = "1/bps")

MODELAGEM DE SISTEMAS DE COMPUTAO E COMUNICAO

Pgina 12
FIGURA 6

A CDF complementar da Figura mostra uma evidncia de cauda longa na srie por
segundos(a), o que ajuda a concluir, somada com as anlises anteriores, que esta srie possui
de fato cauda longa. Isso fica bem claro observando a cauda esquerda que demonstra
probabilidades pequenas para eventos de magnitudes elevadas, como as taxas acima de
6e+06.

MODELAGEM DE SISTEMAS DE COMPUTAO E COMUNICAO

Pgina 13
FIGURA 7

Na CDF complementar da Figura , percebe-se que no h mudanas por um determinado


perodo na distribuio de probabilidades. Esse mesmo comportamento distinto ao longo
grfico acima j havia sido notado na Error! Reference source not found..

At o momento, no foi possvel identificar as caractersticas, de forma marcante, de um


modelo conhecido de distribuio de probabilidades para duas sries analisadas. Pode-se
contudo, entender, para o caso da srie temporal em segundos(a), que no h caractersticas
de uma distribuio normal. Observou-se tambm a possibilidade de cauda longa (ou cauda
pesada) nesta mesma anlise.

Quanto a srie em minutos(b), foi observado no histograma a aparncia de distribuio


bimodal, marcando a possibilidade de ser modelada por mais de uma distribuio. Ou seja,
uma distribuio para cada um dos dois grupos de dados. Entretanto como a amostra
pequena, apenas 30 observaes, no prudente inferir qualquer distribuio para a pequena
quantidade de dados.

Verificando ainda as CDFs complementar, de acordo com Leboudec [1], os dados


parecem ter caudas pesadas, pois existem altas probabilidades de valores muito grandes de
taxas.

8. ACF(Funo de Autocorrelao)

MODELAGEM DE SISTEMAS DE COMPUTAO E COMUNICAO

Pgina 14
Os comandos do RStudio para as funes de aucorrelao foram os seguintes:

Os grdficos das ACF de cada uma das sries seguem abaixo:

acf(taxabps1segts, lag.max = 100)


acf(taxabps1segts, lag.max = 1000)

FIGURA 8

O correlograma da srie medida a cada segundo(a) mostra claramente uma dependncia


de longa durao, visto que h correlaes em lags muito distantes, diminuindo de forma
muito lenta ao longo do tempo na Figura .

MODELAGEM DE SISTEMAS DE COMPUTAO E COMUNICAO

Pgina 15
FIGURA 9

A Figura mostra outra funo de autocorrelao da taxa em bps. Observa-se um


decaimento muito longo da taxa at o lag um pouco maior que 400. Essa uma evidncia
emprica de um processo de memria longa. Na figura 14 vemos analisar a srie por minuto.

FIGURA 10

Quanto ao correlograma da srie a cada minuto, verifica-se que no h dependncia de


longa durao, pois j no 4o lag a correlao est na faixa azul correspondente ao rudo
MODELAGEM DE SISTEMAS DE COMPUTAO E COMUNICAO

Pgina 16
branco. Tambm no h evidncia de cauda pesada na srie por minutos, dado o pequeno
tamanho da amostra da srie (apenas 30 observaes) qualquer concluso ou anlise mais
pormenorizada foi prejudicada, em vista de uma amostra muito pequena, o que compromete
as anlises estatsticas.

9. Skewness
O Skewness mostra a simetria dos dados da distribuio com relao a normal. Se
normal o Skewness igual ao de uma distribuio normal, todavia, verificou-se que ao
analisar os dados do dataset Belcore foi identificado um deslocamento de dados para a
esquerda (Skewness > 0) e uma cauda positiva longa (cauda para a direita) em ambas as
series (a) e (b) conforme a sada do R abaixo:

Assimetria (skewness) Curtose (kurtosis)


0,40146 2,70924
Bits/s
0,51684 1,91904
Bits/min

De fato, ao se calcular o skewness, obtem-se como resultado o valor de 0.40146,


comprovando a assimetria positiva ou assimetria direita da Figura .

Para se executar o comando skewness do Rstudio foi necessrio importar o pacote


moments.

#Comandos
require(moments)
skewness(taxabps1segts)
skewness(taxabps1mints)
10. Curtose
A Curtose permite verificar o grau de pico ou de achatamento de uma curva. Se o valor
for igual a 3, tem-se uma distribuio normalizada.

#Comandos
kurtosis(taxabps1segts)
kurtosis(taxabps1mints)

Ao executar os comandos para Curtose, observaram-se os seguintes valores:

A curtose acima apresentou o resultado igual a 2.709243, indicando excesso de curtose


em relao distribuio normal.

Como em ambos os casos os valores da Curtose foram menores de 3 ento ambas as


funes so mais achatadas que a normal e so chamadas platicrticas.

MODELAGEM DE SISTEMAS DE COMPUTAO E COMUNICAO

Pgina 17
Conclui-se, portanto, que pelos resultados do skewness e da curtose, mostrado que
realmente a taxa em bpm foge do comportamento da distribuio normal e com essas ltimas
anlise h mais evidncias de que no se poder utilizar uma distribuio normal para
modelar as sries apresentadas.

11. Definio da Distribuio do Dataset Bellcore (bps)

Pelas constataes acima no foi possvel identificar uma distribuio terica que
melhor se adeque ao dados da taxa em bps. Dada a grande variabilidade das taxa, sobretudo
pela mudana de nvel da srie, sendo assim, possvel experimentar uma transformao de
Box-Cox [3] a fim de estabilizar a varincia dos dados ou ainda buscar uma distribuio
normal ou outra distribuio que seja adequada aos dados.

Em geral as transformaes de Box-Cox so da forma:

As transformaes mais comuns so: logartmica, inversa e raiz quadrada dos dados
originais.

Na Figura abaixo mostramos os resultados experimentados para a taxa em bits/min.


Observa-se que, mesmo modificando as escalas dos eixos, no houve mudanas no
comportamento da taxa em bits/min. Este resultado nos leva a concluso de que no
possvel ajustar uma distribuio de probabilidade entre aquelas comumente conhecidas
como as da famlia, exponencial, qui-quadrado e a normal.

#Comandos para os grficos das transformaes ena taxa em bits/min


par(mfrow=c(2,2))
hist(taxabps1mints, prob=TRUE,breaks = 30,col="lightblue",main="Taxa (bpm)")
lines(density(taxabps1mints),lwd=2,col="red")

hist(1/taxabps1mints, prob=TRUE,breaks = 30,col="lightblue",main="1/bpm")


lines(density(1/taxabps1mints),lwd=2,col="red")

hist(sqrt(taxabps1mints), prob=TRUE,breaks = 30,col="lightblue",main="Raiz da taxa


bpm")
lines(density(sqrt(taxabps1mints)),lwd=2,col="red")

hist(log(taxabps1mints), prob=TRUE,breaks = 30,col="lightblue",main="Log da taxa")


lines(density(log(taxabps1mints)),lwd=2,col="red")

MODELAGEM DE SISTEMAS DE COMPUTAO E COMUNICAO

Pgina 18
FIGURA 11

Aps experimentar essas transformaes para a taxa em bits/s, apresentamos abaixo, na


Figura , os resultados grficos para a transformao inversa.

#Transformando a taxa bps

par(mfrow=c(2,2))
hist(1/taxabps1segts, breaks = 100,prob=TRUE,main= " Histograma do Inverso da
taxa",xlab="1/bps", col = "lightblue")

MODELAGEM DE SISTEMAS DE COMPUTAO E COMUNICAO

Pgina 19
lines(density(1/taxabps1segts),lwd=2,col="red")
qqnorm(1/taxabps1segts,main="Normal Q-Q Plot")
qqline(1/taxabps1segts)

#CALCULANDO A DISTRIBUIO EXPONENCIAL


#Parmetro da Exponencial
parametro<-mean(1/taxabps1segts)
lambda=1/parametro

require(MASS)
dist<-fitdistr(1/taxasec, "exponential")

x <- rexp(10000, rate = lambda)


par(mfrow=c(2,1))
hist(1/taxabps1segts, breaks = 100,prob=TRUE,main= "Inverso da taxa",xlab="1/bps",
col = "lightblue")
lines(density(1/taxabps1segts),lwd=2,col="red")
hist(x, breaks = 100,prob=TRUE,main= "Exponencial",xlab="1/bps", col = "lightblue")
lines(density(x),lwd=2,col="red")

MODELAGEM DE SISTEMAS DE COMPUTAO E COMUNICAO

Pgina 20
FIGURA 12

Mais uma vez possvel ver que o dataset padro foge da distribuio normal. Essa
concluso indicada tanto pelo histograma que se afasta do formato de sino como pelo QQ-
plot da normal que mostra que os dados no se alinharam com os quantis da normal.

Pela CDF complementar, fica evidenciado que eventos muito raros acontecem com uma
frequncia significativa, uma vez que h um decaimento lento na frequncia dos dados na
cauda da distribuio. Veja que o histograma tambm indica uma cauda pesada, pois eventos
com o inverso da taxa acima de 2e - 06 tem probabilidade no nula.

A ltima etapa do exerccio para o dataset padro consiste em verifica qual melhor
distribuio se adequa srie. Por meio dos histogramas abaixo, percebe-se que uma
distribuio exponencial para a taxa em bps poderia ser adequada.

Ao utilizar o pacote MASS do R, simulou-se uma distribuio exponencial com


parmetro correspondente ao inverso da mdia dos dados transformados. Esse parmetro
MODELAGEM DE SISTEMAS DE COMPUTAO E COMUNICAO

Pgina 21
equivale ao estimador de mxima verossimilhana para a distribuio exponencial. O
resultado obtido ilustrado no grfico a seguir da Figura .

#Transformando a taxa bps

par(mfrow=c(2,2))
hist(1/taxabps1segts, breaks = 100,prob=TRUE,main= " Histograma do Inverso da
taxa",xlab="1/bps", col = "lightblue")
lines(density(1/taxabps1segts),lwd=2,col="red")
qqnorm(1/taxabps1segts,main="Normal Q-Q Plot")
qqline(1/taxabps1segts)

#CALCULANDO A DISTRIBUIO EXPONENCIAL


#Parmetro da Exponencial
parametro<-mean(1/taxabps1segts)
lambda=1/parametro

require(MASS)
dist<-fitdistr(1/taxasec, "exponential")

x <- rexp(10000, rate = lambda)


par(mfrow=c(2,1))
hist(1/taxabps1segts, breaks = 100,prob=TRUE,main= "Inverso da taxa",xlab="1/bps",
col = "lightblue")
lines(density(1/taxabps1segts),lwd=2,col="red")
hist(x, breaks = 100,prob=TRUE,main= "Exponencial",xlab="1/bps", col = "lightblue")
lines(density(x),lwd=2,col="red")

MODELAGEM DE SISTEMAS DE COMPUTAO E COMUNICAO

Pgina 22
FIGURA 13

Exceto por uma varincia um pouco maior na amostra da distribuio exponencial,


possvel notar visualmente que as distribuies se mostram bem semelhantes, concluindo,
assim que a melhor distribuio para o inverso das taxas do dataset padro uma distribuio
exponencial com = 2244050. No era de se esperar que os histogramas fossem exatamente
iguais tendo em vista que os dados amostrados so obtidos por simulao.

MODELAGEM DE SISTEMAS DE COMPUTAO E COMUNICAO

Pgina 23
12. Parte II

O arquivo LAN.txt trata da observao de pacotes de dados (em bits), observados em


4000 intervalos consecutivos de 10ms numa Ethernet. Tais dados foram coletados nas
instalaes do Bellcore Morristown Research Engeneering.

Este dataset foi o segundo dataset a ser escolhido para o trabalho de MSCC, o qual se
encontra disponvel no arquivo que est disponibilizado na seguinte URL: O arquivo
LAN.txt trata da observao de pacotes de dados (em bits), observados em 4000 intervalos
consecutivos de 10ms numa Ethernet. Tais dados foram coletados nas instalaes do Bellcore
Morristown Research Engeneering.

Este dataset foi o segundo dataset a ser escolhido para o trabalho de MSCC, o qual se
encontra disponvel no arquivo que est disponibilizado na seguinte URL:
http://staff.elena.aut.ac.nz/Paul-Cowpertwait/ts/LAN.txt.

13. Anlise Exploratria de Dados do Dataset LAN


Para se obter as estatsticas descritivas da srie mostrada, o mtodo summary do R foi
utilizado sobre o contedo do arquivo LAN.txt, sobre o qual pde ser observado um mnimo
de 0 bits de dados e um mximo registrado de 12380 bits.

O valor mdio do envio de pacotes nos intervalos considerados ficou em torno de 980
bits e a mediana resultou em 336 bits, indicando que 50% dos tamanhos recepcionados est
abaixo desse valor. Essas informaes esto constadas na Tabela .

Tabela 3
Min 1stQu. Median Mean 3rdQu. Max
0 114 336 980 618,5 12380

O grfico da Figura mostra a srie para 4000 observaes em intervalos de 10 ms, sendo
possvel identificar que h alta frequncia de 0 bits na chegada dos pacotes.

www="http://staff.elena.aut.ac.nz/Paul-Cowpertwait/ts/LAN.txt"
lan <- read.table(www, head=T)
attach(lan)
bit<-lan$bits
#mtodo summary
summary(bit)

#Grafico da srie Primeiro transforma em srie temporal


bitserie<-as.ts(bit,frequency=1)
ts.plot(bitserie,ylab="bits")

#Calculando skewness e curtose


MODELAGEM DE SISTEMAS DE COMPUTAO E COMUNICAO

Pgina 24
Require(moments)
skewness(bit)
kurtosis(bit)

O skewness e a curtose medidos so de 2,8884 e 11,27845 respectivamente, mostrando,


ento, que a srie se afasta muito de uma distribuio normal.

FIGURA 14

No histograma da Figura , possvel identificar tambm uma alta taxa de incidncia de


intervalos sem a chegada de pacotes.
#histograma
hist(bit, prob=TRUE,col="lightblue",main="LAN",ylim=c(0,1.4e-03),breaks=20)

MODELAGEM DE SISTEMAS DE COMPUTAO E COMUNICAO

Pgina 25
lines(density(bit),lwd=2,col="red")

FIGURA 15

A funo de autocorrelao da Figura evidencia a caracterstica de longa durao da


srie devido ao decaimento lento no correlograma (processo de memria longa) em que
somente prximo ao lag 400 surge o comportamento de rudo branco.

#Fac
acf(bit, main ="Correlograma", lag.max = 500)

MODELAGEM DE SISTEMAS DE COMPUTAO E COMUNICAO

Pgina 26
FIGURA 16

Uma anlise alternativa a utilizao de uma transformao de Box-Cox na srie


original. Para evitar o problema de zeros presentes nos dados, experimentou-se um
agrupamento de 20 ms da transformao log(1 + Zt) aplicada srie.

Analisando a Figura , verifica-se, por meio da transformao mencionada, que h uma


frequncia alta de intervalos que no receberam pacote de dados. Isso fica bem claro ao
observar o QQ-plot, que mostra muitos valores concentrados em 0, ocorrendo o mesmo
fenmeno ao analisar o histograma. O grfico da funo de autocorrelao mostra uma
caracterstica de memria longa.

#Transforma??o de box-cox: logaritmo


lan2 <- read.table(file="lan2.txt", head=F)
names(lan2)<-c("bits2")
lan20<-ts(bits2,frequency = 1)
length(lan20)
#Box-cox
logbit20 <- log(1+lan20)

par(mfrow=c(2,2))
plot(logbit20,main="Srie Logbit")
hist(logbit20, prob=TRUE,breaks = 30,col="lightblue",main="Taxa transformada 20 ms")
lines(density(logbit20),lwd=2,col="red")

MODELAGEM DE SISTEMAS DE COMPUTAO E COMUNICAO

Pgina 27
qqnorm(logbit20)
qqline(logbit20)
acf(logbit20)

FIGURA 17

MODELAGEM DE SISTEMAS DE COMPUTAO E COMUNICAO

Pgina 28
A transformao logartmica dos dados em 40ms apresentou os resultados da Figura .
lan3 <- read.table(file="lan3.txt", head=F)
head(lan3)
names(lan3)<-c("bit40")

lan40<-ts(bit40,frequency = 1)
logbit40 <- log(1+lan40)
head(logbit40)

par(mfrow=c(2,2))
plot(logbit40,main="Srie Logbit")
hist(logbit40, prob=TRUE,breaks = 30,col="lightblue",main="Taxa transformada 40 ms")
lines(density(logbit40),lwd=2,col="red")
qqnorm(logbit40)
qqline(logbit40)
acf(logbit40, lag.max = 100)

MODELAGEM DE SISTEMAS DE COMPUTAO E COMUNICAO

Pgina 29
FIGURA 18

Apesar das investigaes acima no foi possvel verificar um modelo probabilstico para os dados do
segundo dataset. Apenas com as ferramentas grficas no foi possvel afirmar que os dados so
aderentes com alguma distribuio terica.

MODELAGEM DE SISTEMAS DE COMPUTAO E COMUNICAO

Pgina 30
[1] LE BOUDEC, J-Y. - Performance Evaluation of Computer and Communication Systems - "free
book" - disponvel em: http://perfeval.epfl.ch/, 2010.

[3] Anlise de Sries Temporais. Pedro A. Morettin, Clelia M.C. Toloi. 2da. Edio, Editora
Blucher, 2006

MODELAGEM DE SISTEMAS DE COMPUTAO E COMUNICAO

Pgina 31

Das könnte Ihnen auch gefallen