Sie sind auf Seite 1von 7

Um Estudo Sobre Classificacao e Clusterizacao de Dados de

Smart Meter
Rogelio S. Jardim1
1
Unidade Academica de Pesquisa e Pos-Graduacao Universidade do
Vale do Rio dos Sinos (UNISINOS)
Caixa Postal 275 93.022-750 Sao Leopoldo RS Brazil
Resumo. Avancos tecnologicos tem permitido ao setor energetico a insercao de
um novo conceito denominado Smart Grid no seu ambiente, que trata dos sis-
temas de distribuicao e de transmissao de energia eletrica dotados de recursos
de Tecnologia da Informacao e de elevado grau de automacao, de forma a am-
pliar substancialmente a sua eficiencia operacional. Dentro deste conceito se
tem um recurso tecnologico denominado Smart Meter, ou medidor inteligente
de energia com a funcao de realizar as leituras de consumo em tempo real e
em baixa granularidade de tempo. Assim, o volume de dados oriundo deste
ambiente e altamente massivo e impossvel de se extrair informacoes uteis com
tecnicas convencionais. Neste sentido, este artigo visa elaborar um estudoso-
bre dois artigos que utilizam uma massa de dados proveniente de um projeto
Irlandes de Smart Grid, com o objetivo de avaliar o emprego de modelos de
rede neural de clusterizacao e algoritmos de aprendizado de maquina voltados
a classificacao, com vistas a obtencao de conhecimento implcito no volume de
dados.

1. Introducao
Imprescindvel ao estilo de vida moderno a energia eletrica e um recurso fundamental
para o desenvolvimento socioeconomico de diversos pases e regioes e, nesse sentido o
consumo de energia e extensamente estudado pelas mais variadas areas, seja nos setores
empresarial, domestico, industrial, publico, entre outros.
A rapida difusao de tecnologias permite ao setor energetico a insercao de um
novo ambiente denominado Smart Grid (rede inteligente) e uma tendencia em pases
mais desenvolvidos e traz com isso inumeras contribuicoes para que se efetue o cont-
role de energia de forma mais eficiente, pois possibilita o acompanhamento sistematico
de todo o processo eletrico, de suas contingencias e das caractersticas de consumo de
energia, proporcionado grandes avancos na area [Katic et al. 2010]. Este novo ambi-
ente fornece um grande volume de dados em tempo real, gerados a partir dos Smart
Meterings (medidores digitais de energia) que efetuam a leitura de consumo de energia
eletrica [Depuru et al. 2011]. Contudo, o grande desafio a ser superado vai de encontro a
transformacao deste grande volume de dados em informacao util para o Sistema Eletrico.
Em mercados de eletricidade competitivos, e de grande importancia o conhecimento mais
profundo sobre como e consumida a energia eletrica e o perfil de consumidores. Nesse
sentido, se observa uma movimentacao voltada a estudos sobre novas metodologias para
enquadramento de consumidores de energia eletrica com base no perfil de carga individ-
ual, possibilitando agregar dentro de uma mesma categoria os consumidores que estab-
elecem custos similares ao sistema, em decorrencia da semelhanca dos comportamentos
de carga.
Assim, este artigo apresenta um estudo sobre dois artigos que tratam um mesmo
conjunto de dados, fazendo uso de algoritmos geneticos com objetivo de extrair al-
gum tipo de conhecimento implicto nessa massa de dados. Ha nestes artigos tambem
um processo que utiliza mais de uma tecnica na busca por se atingir seus objetivos,
caracterizando-se assim um processo hibrido para descoberta do conhecimento.

2. Classificacao
Tem como base a modelagem preditiva, a qual possui similaridade com a experiencia
humana, que usa observacoes para dar forma a um modelo, baseando-se nas carac-
tersticas essenciais subjacentes de um fenomeno. Desta forma, para o entendimento e a
comunicacao com o mundo, o ser humano esta em constante classificacao, categorizacao
e graduando diversos elementos ao seu redor. Por exemplo, a partir das caractersticas que
nos fazem determinar o que e um cachorro, podemos identificar outros cachorros perten-
centes as mais variadas racas; a partir de caractersticas dos povos, podemos determinar
suas racas [Berson and Smith 1997].
Na tarefa de classificacao, cada padrao contem um conjunto de atributos e um
dos atributos e denominado classe. O objetivo da classificacao e encontrar um modelo
para predicao, isto consiste em construir um modelo de algum tipo que possa ser apli-
cado a dados nao classificados visando categoriza-los em classes. O modelo deve refle-
tir uma resposta correta, referente a alguns exemplos ja conhecidos, para que, partindo
desse modelo, seja possvel realizar pareceres sobre novos exemplos. De acordo com
[Han and Kamber 2006] a classificacao e o processo de descoberta de um modelo (ou
funcao) que descreve e distingue classes de dados ou conceitos.

3. Clusterizacao - Agrupamento de Dados


Analise de agrupamento, ou clusterizacao, tem sido frequentemente utilizada em tarefas
de extracao de dados e extracoes de padroes. Diferentes estudos recentes demostram o
emprego de tecnicas de clusterizacao sobre base de dados de medicao de energia eletrica
digital [McLoughlin et al. 2015]. Os resultados obtidos por meio dessa tecnica de apren-
dizado nao supervisionado sao altamente dependentes da escolha de parametros como as
medidas de similaridade e metodos de agrupamentos utilizados. O resultado obtido por
meio dos algoritmos de clusterizacao e um conjunto de agrupamentos de dados, no qual
cada agrupamento e denominado cluster. De forma geral, e o processo cuja acao e agrupar
dados de um conjunto de elementos de forma que os grupos formados a partir desse agru-
pamento (cluster) apresentam maior similaridade possvel dos dados no mesmo cluster,
no entanto diferentes dos demais dados nos demais cluster [Fayyad et al. 1996].

4. Artigos
A seguir e apresentado os resumos sobre os artigos que fazem o uso de tecnicas de
clusterizacao sobre dados de medicao de consumo de energia eletrica.

4.1. Automatic Socio-Economic Classification of Households Using Electricity


Consumption Data
Neste artigo [Beckel et al. 2013] defendem a possibilidade de, atraves da analise dos da-
dos de consumo de energia eletrica seja possvel inferir com alta probabilidade, carac-
tersticas particulares de cada residencia e famlia, como por exemplo tamanho do terreno,
numero de pessoas que vivem na residencia e a estas caractersticas os autores se referem
como propriedades de uma casa. Previamente os autores construiram um sistema denom-
inado CLASS, que possibilita estimar os valores das propriedades de uma casa para as
quais se tem os dados de consumo. A Figura 1 apresenta uma visao geral sobre o sistema
CLASS e suas caractersticas sao abordadas na sequencia.

Figure 1. Visao geral do sistema de classificacao.

O sistema elaborado pelos autores apresenta dois componentes principais para


tarefa de classificacao e, estes sao apresentados na parte superior da figura 1 que trata da
extracao e classificacao de caractersticas. Como entrada para o componente de extracao
se tem os dados relativos ao consumo e atraves destes dados calcula-se sobre eles um con-
junto de recursos. Na sequencia o componente de classificacao obtem estes recursos como
entrada e os usa para classificar a residencia de acordo com as propriedades previamente
especificadas. Na parte inferior da figura 1 encontram-se as tres etapas que compoe o pro-
jeto do sistema CLASS e que sao descritas na sequencia, dando se uma enfase maior as
que estao ligadas ao componente de classificacao que atende os objetivos de estudo deste
artigo. Dessa forma apresenta-se na sequencia a definicao das caractersticas, ou seja, os
recursos que sao computados durantes a extracao dos recursos, o design do componente
de classificacao sendo o primeiro a definicao dos rotulos das classes a partir das quais um
classificador utiliza para estimar possveis propriedades domesticas. Em segundo lugar a
escolha dos algoritmos que realizam as tarefas de classificacao.
Inicialmente o sistema CLASS assume como entrada para esta etapa um conjunto
de dados referente a tracos de consumo de energia eletrica de uma residencia privada. Em
sua implementacao original o CLASS assume que o rastreamento destes dados refere-se
a uma semana (incluso fim de semana) e que uma amostra de medicao esta disponvel a
cada 30 minutos que implica com esta granularidade em um rastreamento de 336 amostras
de dados.
Nesta etapa os autores realizaram entrevistas com os principais consultores de
quatro diferentes fornecedores suicos de energia. O objetivo destas entrevistas era obter
uma lista de propriedades que os consultores precisavam saber para identificar potenciais
clientes interessados em consultoria de energia e preparar-se para consultorias em energia.
Essa abordagem permitiu aos autores encontrarem propriedades relevantes para aplicacao.
Por exemplo, delineou-se que saber se uma residencia contem um mais integrantes e
altamente relevante para os consultores.
Diversos sao algoritmos de classificacao disponveis na literatura e, sendo assim
segundo os autores a escolha dos classificadores para o sistema, depende de varios fa-
tores que incluem facilidade de implementacao, complexidade computacional e precisao
da classificacao a ser realizada. Com base nessas premissas, os autores com o objetivo de
obterem uma imagem abrangente do desempenho do sistema CLASS, selecionaram qua-
tro classificadores reconhecidos: k-Nearest Neighbor (kNN); Linear Discriminant Anal-
ysis (LDA); Mahalanobis; Support Vector Machine.
Para os autores a simplicidade do kNN e uma de suas principais vantagens, e que
ele nao faz qualquer pressuposto sobre a distribuicao dos dados de entrada, que tambem
nao precisa ser linearmente separavel. Por outro lado, o classificador kNN possui req-
uisitos computacionais e de memoria elevados. No classificador LDA, e assumida uma
distribuicao (multivariada) gaussiana das amostras de dados de entrada. Isso faz com
que os parametros das funcoes discriminantes que particionam o espaco dos recursos, se-
jam dependentes da media e covariancia das distribuicoes para cada classe. As funcoes
lineares do classificador LDA sao obtidas assumindo uma matriz de covariancia comum
(agrupada) para todas as classes, construda pela media das matrizes de covariancia de
cada classe. O classificador Mahalanobis e conceitualmente semelhante ao classificador
LDA. Uma das principais diferencas e que o primeiro se baseia em matrizes de covariancia
estratificada, em vez de uma matriz de covariancia agrupada. Isso resulta em funcoes
discriminantes quadraticas, que geralmente permitem que o classificador Mahalanobis
tenha um melhor desempenho de classificacao do que o classificador LDA. No entanto,
seu desempenho tambem e mais sensvel a precisao da estimativa das matrizes de co-
variancia estratificada. Para os autores, SVMs sao amplamente utilizados em aplicacoes
de classificacao, devido a sua flexibilidade e, sendo assim, aplicabilidade a muitos prob-
lemas de classificacao de diferentes naturezas. A maior forca de SVMs e a capacidade de
computar limites de decisao sem assumir distribuicoes especficas dos dados de entrada
(como o classificador de kNN, ao contrario dos classificadores de LDA ou Mahalanobis).
Alem disso, SVMs sao capazes de lidar com dados que nao sao linearmente separaveis,
pois eles suportam limites de decisao nao-lineares. Uma grande desvantagem e a fase de
treinamento computacionalmente dispendiosa.

4.2. SOM na analise de consumo de eletricidade em residencias


O trabalho apresentado por [McLoughlin et al. 2015] consiste na aplicacao da tecnica
de clusterizacao SOM para investigar perfis de carga de energia eletrica. Segundo
[McLoughlin et al. 2015], 27 estados membros da Uniao Europeia (European Union -
EU) foram responsaveis por 28,6% do consumo final de energia em 2008. No entanto,
apesar das melhorias na eficiencia do setor, o consumo medio de energia eletrica teve
um aumento de 1,8% comparado a 2007, isso se deu principalmente devido ao aumento
de renda dos consumidores, famlias menores, casas maiores e maior posse de aparel-
hos eletricos. Conforme Loughlin et al. (2012), para obter uma verdadeira compreensao
quanto aos motivadores de consumo de energia eletrica bem como as medidas para reduzir
o seu uso e importante que se tenha uma compreensao detalhada de como a eletricidade
e consumida na residencia. A tecnica foi aplicada utilizando os dados fornecidos pela
CER, de onde se extraram os dados de medicao de 3941 consumidores irlandeses, co-
letados em um unico dia (1o de Julho de 2009). Tais dados armazenam as curvas de
carga diarias dos consumidores, tendo as medicoes sido gravadas em intervalos de 30
minutos. O conjunto de dados foi organizado em nove grupos diferentes de c1 a c9 que
representavam os perfis individuais dos clientes, para cada grupo quatro parametros foram
utilizados (consumo total de energia, demanda maxima, fator de carga e tempo de uso) o
resultado para cada parametro foi determinado pelo calculo da media de todos os clientes
dentro de cada grupo, exceto para o tempo de utilizacao, como medida de distancia en-
tre os clusters foi adotada a Distancia Euclidiana. Conforme os autores, os resultados
atingidos com a aplicacao da tecnica de agrupamento atraves do SOM se mostraram sat-
isfatorios em relacao aos objetivos vislumbrados na pesquisa, pois se conseguiu inferir
atraves da aplicacao da tecnica o agrupamento de perfis semelhantes obtidos de forma
estocastica, que possibilitaram aplicar uma investigacao acerca das caractersticas habita-
cionais com intuito de determinar algum significado dentro de cada grupo. Por exemplo,
os autores descrevem que o numero de quartos e ocupantes mostraramse influentes ao
tipo de habitacao que pertenciam os clientes. Tambem foi possvel observar que com
base no perfil de consumo de eletricidade, uma carga aproximada de eletricidade pode ser
gerada para clientes com base na sua habitacao e nas caractersticas do proprietario. A
metodologia utilizada pelos autores e apresentada na Figura 2 e pode ser dividida em tres
partes distintas: agrupamento; Caracterizacao do Perfil de carga eletrica; classificacao do
perfil de carga do cliente.

Figure 2. Abordagem metodologica da caracterizacao do perfil de carga eletrica


atraves do agrupamento
5. Discussao sobre os trabalhos
A partir dos trabalhos descritos e possvel perceber que a aplicacao da DCBD associ-
ada a utilizacao de diferentes tarefas e tecnicas de mineracao de dados e amplamente
utilizada na exploracao de dados de Smart Meters. Em sua maioria essas pesquisas
tem o proposito de classificar consumidores, com base no perfil de consumo e/ou car-
actersticas socioeconomicas. O trabalho apresentado por [Beckel et al. 2013] dado suas
caractersticas de implementacao, pode se classificar como um sistema hibrido, pois Se-
gundo [Osorio and Amy 1999] Sistemas Hbridos Inteligentes, de maneira geral, sao sis-
temas que integram dois ou mais metodos diferentes para a solucao de um problema. Os
classificadores utilizados no experimento seguem o paradigma de aprendizado Baseado
em Exemplos onde a forma de classificar um novo padrao e lembrar-se de exemplos
parecidos classificados anteriormente, e assim atribuir ao novo exemplo uma classe de
um padrao parecido. Esta e a ideia central deste paradigma. O estudo e experimentos
realizados por [McLoughlin et al. 2015] utiliza nos seus experimentos uma paradigma de
aprendizado Conexionista que tem sua origem da area de pesquisa de redes neurais arti-
ficiais. No trabalho de Loughin diferentes tecnicas de clusterizacao foram utilizadas para
segmentar os grupos de clientes com base em suas caractersticas de consumo, tecniacas
estas como: K-Means, K-Medoid e SOM. Contudo SOM se provou ser mais adequado
para segmentar os dados antes de se realizar qualquer tarefa de agregacao, possibilitando
que se mantenha a informacao caracterstica relativa a forma do perfil de carga.

6. Conclusao
Avaliando os trabalhos apresentados, vislumbra-se a possibilidade de uma implementacao
hibrda para caracterizacao do perfil de consumo de energia e perfil socioeconomico das
famlias que participaram do projeto na Irlanda. Ambas as tecnicas adotadas nos trabal-
hos podem ser complementares umas as outras, pois uma trata de segmentar os dados
com base na semelhancas encontradas nas caractersticas selecionadas para os datasets
apresentados a rede neural, ja a outra trata da classificacao com base nas caractersticas
previamente conhecidas e informadas de certa forma como heurstica na aplicacao da
tecnica.
References
Beckel, C., Sadamori, L., and Santini, S. (2013). Automatic socio-economic classifica-
tion of households using electricity consumption data. In Proceedings of the Fourth
International Conference on Future Energy Systems, e-Energy 13, pages 7586, New
York, NY, USA. ACM.
Berson, A. and Smith, S. J. (1997). Data Warehousing, Data Mining, and Olap. McGraw-
Hill, Inc., New York, NY, USA, 1st edition.
Depuru, S. S. S. R., Wang, L., and Devabhaktuni, V. (2011). Smart meters for power
grid: Challenges, issues, advantages and status. Renewable and Sustainable Energy
Reviews, 15(6):2736 2742.
Fayyad, U. M., Piatetsky-Shapiro, G., Smyth, P., and Uthurusamy, R., editors (1996). Ad-
vances in Knowledge Discovery and Data Mining. American Association for Artificial
Intelligence, Menlo Park, CA, USA.
Han, J. and Kamber, M. (2006). Data mining: concepts and techniques. Morgan Kauf-
mann.
Katic, N., Marijanovic, V., and Stefani, I. (2010). Smart grid solutions in distribution
networks cost/benefit analysis. In CICED 2010 Proceedings, pages 16.
McLoughlin, F., Duffy, A., and Conlon, M. (2015). A clustering approach to domestic
electricity load profile characterisation using smart metering data. Applied Energy,
141(Supplement C):190 199.
Osorio, F. S. and Amy, B. (1999). Inss: A hybrid system for constructive machine learn-
ing. Neurocomputing, 28(1-3):191205.

Das könnte Ihnen auch gefallen