Beruflich Dokumente
Kultur Dokumente
Abstract. This work aims to present the preliminary results of the analysis of
network traffic datasets through the application of time series analysis. In
future work, the results obtained through statistic analysis will be used to
classify current network traffic datasets with the support of computational
intelligence techniques. The relevant theoretical bases will be approached,
involving the description of network attributes to be used in the
characterization of the expected standard behavior of the network traffic, as
well as network traffic anomalies.
Resumo. Este trabalho tem por objetivo apresentar os resultados preliminares
da análise de conjuntos de dados do tráfego de rede através da aplicação de
técnicas de análise de séries temporais. Futuramente, os resultados obtidos
neste trabalho serão utilizados como base para a classificação de conjuntos de
dados atuais de tráfego de rede com o auxílio de técnicas de inteligência
computacional. Neste artigo serão abordadas as bases teóricas relevantes para
o trabalho, envolvendo a descrição dos atributos de rede utilizados para a
caracterização do comportamento padrão esperado do tráfego de rede, bem
como as anomalias do tráfego de rede.
1. Introdução
Atualmente, a maioria das empresas possui uma rede de computadores local com acesso
à Internet para prover diversos benefícios, como por exemplo: expor seus produtos e
serviços através de páginas em servidores Web, trocar mensagens através de correio
eletrônico, disponibilizar sistemas para diversos níveis de usuários, incluindo
administradores, clientes, fornecedores e funcionários. No entanto, estar conectado à
Internet é uma necessidade que gera preocupação à empresa com a segurança,
disponibilidade e integridade de seus dados.
De modo a manter o gerenciamento e segurança dos dados, recursos
computacionais e sistemas, diversas medidas preventivas, tais como implantação de
sistemas antivírus, anti-spyware, firewalls e sistemas de detecção de intrusos [12] têm
sido propostas. Entretanto, no tocante a mecanismos para reconhecimento de eventos
ilegítimos em redes, observa-se a necessidade de uso de técnicas eficientes que
proporcionem análise mais precisa de grandes volumes de dados de rede em intervalos
regulares de tempo, de modo que o comportamento normal e anômalo do tráfego das
redes monitoradas possa ser satisfatoriamente mapeado em termos de precisão do
modelo e tempo. Diversos estudos, envolvendo a aplicação de técnicas estatísticas e de
inteligência computacional [14][15][16][17][18][19], têm sido conduzidos nos últimos
1
anos em busca de resultados satisfatórios para a modelagem e classificação de dados do
tráfego de rede para a identificação de eventos anômalos.
O objetivo deste trabalho é apresentar a etapa preliminar da pesquisa que tem
sido realizada no INPE, unidade de São José dos Campos, que envolve a análise dos
atributos de conjuntos de dados do tráfego HTTP, por meio da aplicação de técnicas
estatísticas de análise de séries temporais. Esta análise é um pré-processamento para
selecionar os atributos mais adequados para a próxima etapa do estudo que será a
aplicação de técnicas de Inteligência Computacional para armazenar o modelo do
tráfego normal (conjuntos de dados históricos), para a comparação futura com os dados
do tráfego real (conjunto de dados recentes), visando detectar eventuais anomalias no
tráfego da rede. Observando o tráfego e correlacionando-o a seus estados precedentes,
pode-se predizer se o tráfego atual está se comportando de forma normal para um
determinado período de tempo. Esta atividade é denominada detecção de anomalia no
tráfego de rede.
Este estudo dá continuidade às pesquisas de aplicação de redes neurais para
detecção de padrões anômalos em eventos de redes de computadores, iniciada por um
grupo de especialistas em redes de computadores e inteligência artificial do Instituto
Nacional de Pesquisas Espaciais – INPE em São José dos Campos desde 2004, cujos
trabalhos encontram-se descritos em [1],[2],[3],[4]. A originalidade da pesquisa atual é
o uso de técnicas de análise de séries temporais para o tratamento de conjuntos de dados
do tráfego de rede, de modo a modelar o comportamento do tráfego da rede monitorada.
O comportamento do tráfego adequadamente modelado a partir de técnicas estatísticas
servirá como referência de comparação (dados históricos) para a etapa posterior de
classificação de conjuntos de dados atuais por meio de técnicas de inteligência
computacional.
Neste artigo, as bases teóricas necessárias, incluindo os conceitos sobre
modelagem do tráfego de rede, as anomalias e tipos de ataques estudados são descritas
na segunda seção. As técnicas estatísticas aplicadas na análise de séries temporais são
abordadas na seção 3. A seção 4 apresenta a metodologia adotada, bem como os
resultados obtidos na análise do tráfego de rede como série temporal. Finalizando, as
conclusões deste trabalho são comentadas na seção 5.
2. Bases Teóricas
2
Uma sessão de rede TCP/IP, conforme definida em [6], corresponde a qualquer
sequência de pacotes, que caracterize a troca de informações entre dois endereços IP,
durante um determinado tempo, relacionada a um determinado serviço de rede, que
tenha informação de início, meio e fim, mesmo que toda comunicação esteja contida em
um único pacote.
De acordo com [5], o tráfego de uma rede pode ser modelado por meio de
centenas de sessões que compõem a comunicação entre os hosts daquela rede, em
diferentes intervalos de tempo. O tráfego gerado pelo acesso a diferentes aplicações de
rede, tais como DNS, HTTP e SMTP, são mapeados em sessões e apresentam
comportamentos característicos [13]. Por sua vez, as sessões podem ser modeladas
através de atributos contidos diretamente no cabeçalho dos pacotes (os denominados
atributos primitivos, por exemplo: IP de origem, IP de destino e protocolo de aplicação)
ou por meio de informações semanticamente mais fortes provenientes do processamento
destes atributos primitivos (as quais denominam-se atributos derivados, por exemplo:
quantidade de pacotes recebidos pela estação servidora em determinado intervalo de
tempo ou quantidade de bytes recebidos pela estação cliente naquela sessão).
Neste trabalho, foi utilizada a metodologia descrita em [5] para captura do
tráfego de rede, envolvendo as seguintes etapas: coleta dos dados do tráfego de rede;
reconstrução das sessões do tráfego; seleção dos atributos a serem analisados e
armazenamento dos atributos selecionados em base de dados. Para análise dos dados e
modelagem do comportamento do tráfego serão utilizadas técnicas estatísticas e técnicas
de inteligência computacional, estas últimas, em etapa futura do trabalho.
Os dados da rede são capturados através do software tcpdump e utiliza-se a
ferramenta wireshark para auxílio à análise destes. Para a reconstrução de sessões
TCP/IP utiliza-se o sistema RECON – Sistema de Reconstrução de Sessões TCP/IP
desenvolvido por Chaves [6] com o módulo de gravação de dados em base MySQL
acrescentado ao sistema em trabalho recente [5].
Conjuntos de dados correspondentes a quatro atributos derivados do tráfego de
rede: tamanho médio dos pacotes recebidos pelo cliente, tamanho médio dos pacotes
recebidos pelo servidor, total de pacotes recebidos pelo cliente e total de pacotes
recebidos pelo servidor são analisados neste trabalho, levando-se em consideração a
análise do comportamento padrão das sessões normais do tráfego e o comportamento do
conjunto de dados quando inseridas sessões anômalas, de ataques ao serviço web
monitorado.
3
As análises de dados das sessões do tráfego de rede podem detectar eventos
anômalos, que não podem ser identificados através de análises de medições de taxas de
pacotes, tais como os ataques de negação de serviço [5].
(1)
4
Se µ=0 e σ=1, a distribuição de frequência da população de eventos é chamada
de distribuição normal padrão, a qual é definida pela simetria e curtose, e a PDF desta é
reduzida à seguinte equação:
(2)
3.2 DFA
O DFA (Detrended Fluctuation Analysis) é uma ferramenta proposta por Peng et al.[8]
e tem sido utilizada para detecção de correlações de longo alcance em séries temporais.
Sua abordagem permite eliminar a tendência de uma série temporal em diferentes
escalas, analisando as flutuações intrínsecas do dado. As flutuações são entendidas
como a medida de variabilidade do sinal associada à variância de cada segmento da
série em diferentes escalas [8].
A função de flutuação DFA para cada segundo s é calculada pela equação:
(3)
Através do valor dos expoentes das flutuações alfa e beta gerados pela função
DFA, pode-se classificar uma série temporal, de acordo com a Tabela 1:
Classificação α β
Série antipersistente α <0 β <0
Sinal descorrelacionado α =0 β =0
Persistência fraca 0 ≤α ≤1 0 ≤ β ≤1
Persistência forte α >1 β >1
3.3 Curtose
A curtose é uma medida de dispersão que caracteriza o afilamento ou achatamento da
curva característica de um conjunto de distribuição de frequência da população de
eventos [9]. É normalmente definida pela expressão:
k= (5)
5
Tabela 2 – Classificação da série temporal de acordo com os valores de curtose
Classificação <K> Achatamento da curva
Platicúrtica <3 É mais achatada que a distribuição normal
Mesocúrtica =3 Igual a distribuição normal
Leptocúrtica >3 É mais alta (afunilada) do que a distribuição normal
6
calculado para análise do achatamento da curva da distribuição. Outros parâmetros
relevantes, expoentes das flutuações alfa e beta, foram gerados pela função DFA.
7
Foram obtidas também, conforme tabelas 4, 5, 6 e 7 os valores dos expoentes de
flutuações alfa e beta dos atributos gerados pelo DFA, os quais mostram que a
persistência das amostras dos quatro atributos são fracas, isto é, existe padrão de
repetição nestes conjuntos de dados, porém não tão frequentes.
5. Conclusão
A metodologia de detecção de anomalias adotada neste trabalho envolve a análise de
atributos do tráfego de rede primitivos ou derivados de informações contidas somente
no cabeçalho dos pacotes de rede. Informações de carga útil dos pacotes não são
analisadas.
A partir de observações de especialistas nas áreas de Estatística e Redes, os
resultados preliminares indicaram a viabilidade de uso das técnicas estatísticas PDF,
Curtose e DFA para filtrar dentre os vários atributos de um pacote de rede, quais são
mais significativos para a caracterização do comportamento padrão das séries temporais
do tráfego de rede, bem como as anomalias deste. Portanto, um esforço adicional de
testes de diversos atributos faz-se necessário para se obter conclusões sobre a
modelagem do tráfego a partir da aplicação de tais técnicas.
Como meta para os trabalhos futuros, outros atributos das sessões do tráfego
serão analisados, segundo as técnicas implementadas neste estudo e, possivelmente,
outras técnicas estatísticas serão utilizadas, a fim de determinar as que melhor
contribuirão para o reconhecimento e modelagem do comportamento padrão do tráfego
de rede. Com base no perfil do tráfego adequadamente modelado através de técnicas
estatísticas, serão utilizadas técnicas de inteligência computacional para classificação de
séries temporais de tráfego de rede corrente, em busca da identificação de sessões
anômalas nos conjuntos de dados.
Referências Bibliográficas
[1] Silva, L.S, Santos, A.C.F, Silva, J.D.S, and Montes, A. “A Neural Network
Application for Attack Detection in Computer Networks”, IJCNN’2004 International
Joint Conference in Neural Networks, Budapest, Hungria, 2004.
[2] Silva, L.S, Santos, A.C.F, Silva, J.D.S, and Montes, A. “ANNIDA: Artificial Neural
Network for Intrusion Detection Application – Aplicação da Hamming Net para
Detecção por Assinatura”, CBRN’2005 VII Congresso Brasileiro de Redes Neurais,
Natal, RN, Brasil, 2005.
[3] Silva, L.S, Santos, A.C.F, Silva, J.D.S, e Montes, A. “Estudo do uso da Hamming
Net para Detecção de Intrusão”, SSI’2005 VII Simpósio de Segurança em
Informática, Instituto Tecnológico de Aeronáutica (ITA), São José dos Campos, SP,
2005.
[4] Silva, L.S, Santos, A.C.F, Silva, J.D.S, and Montes, A. “Hamming Net and LVQ
Neural Networks for Classification of Computer Network Attacks: A Comparative
Analysis”, SBRN’2006 IX Brazilian Neural Networks Symposium, Ribeirão Preto,
SP, 2006.
[5] Silva, L.S. “Uma Metodologia para Detecção de Ataques no Tráfego de Redes
baseada em Redes Neurais ”, Tese de Doutorado do Curso de Pós-Graduação em
Computação Aplicada, orientada pelo Dr. Antonio Montes e Dr. José Demísio S.
Silva, INPE, SJCampos, 2007.
8
[6] Chaves, M. H. P. Análise de Estado de Tráfego de Redes TCP/IP para Aplicação em
Detecção de Intrusão. Dissertação de Mestrado em Computação Aplicada - INPE, set
2002.
[7] Guimarães, R. C., Sarsfield J.A.C. Estatística. Editora: McGraw-Hill, 1997.
[8] Freitas, M.R, Genovez, P.C, Bentz, M.C., Rosa, R.R., Shimabukuro, Y.E. Análise de
anisotropia de imagens utilizando o método DFA: um estudo de caso na área de
exploração de petróleo. Anais XIV Simpósio Brasileiro de Sensoriamento Remoto,
Natal, Brasil, 25-30 abril 2009, INPE, p. 6463-6470.
[9] Milone, G. Estatística: geral e aplicada. São Paulo: Pioneira Thomson Learning,
2004.
[10] Santos, F.M. “Detecção de intrusão: uma abordagem com mineração de dados”,
Monografia apresentada como requisito parcial para conclusão do Bacharelado em
Ciência da Computação, orientada pelo Dr. Marcelo Ladeira, Instituto de Ciências
Exatas, Departamento de Ciência da Computação, Universidade de Brasília – UnB,
Brasília, 2007.
[11] Consulta à página Web da Wikipédia. “Standard score”. Acesso em 29 de setembro
de 2009.
[12] Northcutt, S.; Novak, J. Network intrusion detection. 3. ed. New York: NewRiders
Publishing, 2002. 460 p. ISBN: 0735712654.
[13] Stevens, W.R TCP/IP Illustrated (vol. 1): the protocols, Indianapolis: Addison-
Wesley Longman Publishing, 1993. 576 p. ISBN 0201633469
[14] Ye, N. A markov chain model of temporal behavior for anomaly detection. In:
2000 IEEE Systems, Man, And Cybernetics Information Assurance And Security
Workshop, 2000. Proceedings… Los Alamitos, CA: IEEE Computer Society Press,
2000. p. 171-174.
[15] Zanero, S. Analyzing TCP traffic patterns using self organizing maps. In: Special
Session On Pattern In Computer Security, 2005, Cagliari, Italy. Proceedings…
Heidelberg: Springer Berlin, 2005a. v. 3617, p. 83-90. ISBN: 978-3-540-28869-5.
[16] Tapiador, J.M. E.; Teodoro, P. G.; Verdejo, J.E. D. Measuring normality in http
traffic for anomaly-based intrusion detection. Computer Networks, v. 45, n. 2, p.
175-193, June 2004a.
[17] Quanmin, W.; Weimin, L. A model for intrusion detection based on fuzzy match
and neural network. In: International Symposium On Test And Measurement
(ISTM’2001), 4., 2001, Shanghai , China. Proceedings… [S.l.]: [s.n.], 2001. v. 1, p.
411-414.
[18] Mukkamala S.; Sung A. H. Identifying significant features for network forensic
analysis using artificial intelligence techniques. International Journal on Digital
Evidence, v. 1, n. 4, 2003.
[19] Ertoz, L. et al.. Detection and summarization of novel network attacks using data
mining. Technical Report. Minneapolis, USA: University of Minnesota, 2003. 20 p.