Beruflich Dokumente
Kultur Dokumente
1. Métodos analíticos
O estudo de Climatologia é baseada na análise e interpretação de dados meteorológicos
colectados durante muitos anos. Para analisar tais dados, um conhecimento de métodos
estatistícos básicos e técnicas é necessário.
A análise climatológica usa princípios e técnicas de análise meteorológica, numérica e
estatística.
2. Séries climatológicas
Os métodos de análise estatística se aplicam a dados climatológicos porque, de maneira geral,
se esses dados são obtidos de forma apropriada, sequências desses dados se comportam como
variáveis aleatórios. Uma vez que a análise estatística se aplica a amostras de populacõess de
dados, as sequências de dados climatológicos são definidas como amostras de dados que
consistem de um valor climatológico de cada ano do registo considerado. Assim, as 30
temperaturas médias de Janeiro para um registo de 30 anos compõem uma série climatológica.
As 30 precipitações de 1o de Janeiro também formam uma série climatológica.
Uma série climatológica nunca é mais que uma amostra de uma popupalação única que se
supões infinita e tendo as propriedades climáticas a serem analisadas da amostra.
3. A distribuição de frequência
A distribuição de frequência é a ferramenta básica para descrever e analisar a amostra.
Divide-se a amostra em classes que são divisões do intervalo de variação da variável
climatológica. O número de classes mais convinientes está entre 10 e 20 divisões iguais. Isso
divide a diferença entre o maior e o menor valor(ou amplitude) em 10 a 20 intervalos iguais.
Como exemplo se usarão os dados de precipitação de Agosto em Genebra.
P f P f
0 – 19 1 140 – 159 4
20 – 39 1 160 – 179 1
40 – 59 6 180 – 199 0
60 – 79 5 200 – 219 1
80 – 99 2 220 – 239 0
100 – 119 6 240 – 259 1
120 – 139 2
a
ic 5
n
e
u
q
er
4
F 3
P(mm)
4. Distribuição cumulativa
Usualmente o climatologista está mais interessado nas estimativas de probabilidade
abrangendo vários intervalos de classe, e isto é mais convenientemente obtido da distribuição
cumulativa. Também, a distribuição cumulativa dá estimativas melhores das probabilidades,
uma vez que a divisão arbitária em classes tende a esconder algumas das informações
presentes na série climatológica.
As F’s são as probabilidades de que a precipitação seja menor que cada valor mostrado na
tabela. Por exemplo, a probabilidade de que p seja menor que 62 mm é 0.290 e maior que 62
Mínimo = 18
1o decil = 41
2o decil = 49
1o quartil = 55.5
3o decil = 62
4o decil = 78
5o decil = 92.5
6o decil = 107
7o decil = 119
3o quartil = 129
8o decil = 144
9o decil = 158
máximo = 250
a
v
it 1.200
a
l
e
r
a 0.900
i
c
n
e
u 0.600
q
e
r
F
0.300
0.000
0 40 80 120 160 200 240
Pr (mm)
Figura 2. Distribuição cumulativa da precipitação de Agosto
5. Homogeneidade de series de dados
Uma série de dados é dita homogênea se é uma amostra de uma população única. Assim, por
definição uma série climática é homogênea e a análise de probabilidade elementar só pode ser
aplicada a séries climatológicas. Se a série não é homogênea, devem ser feitos ajustes para que
as estimativas estatísticas sejam válidos para os últimos termos da série ou de modo que elas
sejam estimativas de uma série hipotética homogênea que inclua os últimos termos.
Em casos que a exposição dos instrumentos tenha mudado é necessário fazer um teste
estatístico para assegurar a homogeneidade. O teste válido de homogeneidade é um teste
estatístico que parte de uma hipótese de homogeneidade e uma regra para aceitar ou rejeitar a
hipótese com base na probabilidade de ocorrência. Assim, se a probabilidade da evidência da
homogeneidade é pequena, conclui-se que a série é heterogênea; se ela é grande a decisão é
pela homogeneidade. A regra especifica a probabilidade limite (limite de significância) além
da qual a hipótese de homogeneidade deve ser rejeitada.
Contam-se as corridas (u) acima e abaixo da mediana numa série cronologicamente ordenada
e testa-se este valor com uma tabela de distribuição de u. O teste é melhor ilustrado pela
aplicação às temperaturas médias de Agosto em Genebra. A tabela 5 mostra os dados em
ordem cronológica ou histórica. A mediana está entre 18.9 e 19.2 0C, melhor estimada pela
média entre estes dois valores, isto é 18.9 e 19.05 oC. Usando este valor, as médias na tabela
são indicadas com um A se estão acima. As corridas são então marcadas como sequências de
A`s e de B`s. O mínimo total de corridas no caso é u = 15.
É claro que muitas corridas seriam uma indicação da oscilação, enquanto que poucas corridas
seriam uma indicação de tendência ou deslocamento da mediana durante o período. Assim, se
a probabilidade do u resultante ser excedido for pequena suspeitar-se-à uma oscilação
enquanto que, se a probabilidade de encontrar valores maiores ou menores que u for grande,
então nem oscilação nem tendência sera suspeitada e a série é dita homogênea. A tabela 6 dá a
distribuição de u. Uma vez que foi escolhida a mediana como referência, o número de valores
acima dela (NA) é igual ao número de valores abaixo (NB). Na tabela estão indicados os
limites superiores e inferiores de 10 % de significância, isto é, a probabilidade P de 0.10 e 0.9
de u ser menor que u 0.10 ou menor que u 0.90, respectivamente.
Vê-se na tabela 5 que u = 15 para NA = 15 está dentro do intervalo entre o limite mínimo (12)
e o limite máximo (19), portanto u não é significativamente diferente dos u`s esperados de
uma série homogênea, e se conclui que a série é homogênea.
Para ilustrar melhor a aplicação do teste das corridas a série foi em seguida deliberadamente
tornada heterogênea subtraindo-se 1oC de cada um dos 12 primeiros anos e subtraindo-se 0.5
o
C de cada um dos 8 anos seguintes. Este tipo de tendência poderia bem ter sido causado, por
exemplo, por mundanças na exposição dos instrumentos, ou falta de calibração ou mesmo,
quem sabe, por uma legítima mudança ou flutuação do clima. A série heterogênea é mostrada
na tabela 7.
O número de corridas é diminuido para u= 11 devido aos dois deslocamentos que de facto
produzem uma espécie de tendência. Na tabela 6 vê-se que para NA = 15 a probabilidade de
haver menos que 12 corridas é 10 % e como a série heterogênea tem apenas 11 corridas,
confirma-se a heterogeneidade. Obviamente já se sabia da heterogeneidade porque ela foi
introduzida deliberadamente. Pode-se suspeitar deste exemplo que a habilidade destes testes
para encontrar heterogeneidades não sera muito boa quando as exactas alternatives para
homogeneidade não são conhecidas. Isto indica que a melhor maneira dos registros da estação.
Se a história dos registros mostra mudanças que podem causar heterogeneidades e que possam
ser descritas de acordo com o período e o caracter, podem-se usar testes paramétricos para
determinar a significância das heterogeneidades, como por exemplo o teste t de Student. Tais
testes entretanto, só podem ser empregados quando os períodos e o carácter das
heterogeneidades são conhecidos a priori.
10 8 13 19 16 23
11 9 14 20 16 25
12 9 16 25 22 30
13 10 17 30 26 36
14 11 18 35 31 41
15 12 19 40 35 47
16 13 20 45 40 52
17 14 21 50 45 57
18 15 22
depende da correlação entre as duas estações. É conviniente usar uma estação a menos de 80
km da estação a ser ajustada e no mesmo regime climático. Se uma estaçao suplementar não
tem um registro concorrente completo, o ajuste pode ser feito em estágios, usando diferentes
estações suplementare para cada período.
Método da diferença
Para ilustrar o método tomar-se-á a série de temperaturas de Genebra em Agosto tornada
heterogênea resultando a tabela 7. Supõe-se que a estação foi mudada após 8 anos e que queira
ajustar a média dos últimos 30 anos ao último período de 10 anos em que a estação não foi
perturbada.
Para ajustar a media da temperatura do registro de Genebra, dados os valores para os períodos
heterogeneous e também os homogêneos, decidiu-se que Lousane seria uma estação
suplementar conviente.
A fórmula de ajuste para a temperatura é>
Ÿ=a+X
y=v– u
v e u são as médias para os períodos concorrentes em que os registos da estação suplementar e
da estação a ser ajustada são homogêneos simultaneamente. Obtito a, os y para as várias partes
do registro de 30 anos contribuem para a média ponderada com pesos de acordo com o
comprimento do período em anos de cada parte do registro.
Genebra-Unadjusted Lausanne X
Means Geneva y
Que é uma estimativa melhor para a Pr média de Genebra (100 mm/ano) do que a média de
série heterogênea ( 106.9 mm/ano).
população de valores inteira não pode ser conhecida em climatológia, só é possível estimar os
parâmetros estatistísticos da população a partir de amostras ou séries climatológicas. A
estimativa de um parâmetro é chamada estatística.
Uma estatística é uma função da série climatológica, e como tal é uma variaável aleatória
sujeita a variações aleatórias similares às dos valores da série. Assim, cada estatística forma
uma população para a qual existe uma distribuição de frequência. A variabilidade destas
estatísticas em torno do correspondente parametro da população é chamada dispersão da
estatística. Existem sempre várias funções ( ou estatísticas) da amostra que estimam o mesmo
parâmetro da população. Por exemplo, para estimar o centro de uma distribuição gausiana
pode-se usar a mediana ou a média. Entretanto, diferentes estimativas têm diferentes
dispersões, e a melhor estimativa terá a menor dispersão. No exemplo acima, as médias de
diferentes amostras tem menor dispersão que as medianas das mesmas amostras. A dispersão
também diminui com o aumento do tamanho da amostra. Assim, para que a dispersão da
mediana seja igual à da média é nesessário que a amostra usada para determinar a mediana
seja cerca de1/3 maior que a amostra usada para calcular a média e assim a mediana ser uma
estimativa para a média da população tão boa quanto o é a média de uma amostra.
Moda ( uma denominação mais apropriada seria “modo”) – é o valor da variável aleatória
com máxima densidade de probabilidade, ou o valor mais provável. Se a expressão analítica
da distribuição da frequência for conhecida, estimativas eficientes da moda podem ser obtidas
através da derrivação da mesma. Se a forma analítica não é conhecida e a amostra é grande, o
centro da classe com maior frequência pode ser tomada como estimativa da moda. No caso de
haver mais de uma moda (distribuição multimodal) é provavel que haja mais de uma
distribuição superpostas ou então uma mistura de amostras de diferentes populacões numa
tentativa de aumentar o tamanho das amostras.
Média – é o paramêtro climatológico mais usado. Na maioria dos casos é melhor obtê-lo
somando os valores e dividindo a soma pelo número de anos. Ela é o valor esperado ou
esperança matemática, isto é, a média da população. Também é o centro da distribuição
normal para séries climatológicos com esta distribuição. A mdia calculada como acima é
geralmente óptima para estimar o valor esperado e o centro da distribuição da temperatura.
g1 será positivo se a média estiver deslocada para valores maiores que a moda, ou seja, se a
curva de frequência tiver uma “cauda” maior do lado dos maiores valores, o contrário
ocorrendo para g1 negativo.
Momentos de ordem superior a 4 não são recomendáveis para séries climatológicas, uma vez
que são muito variáveis para amostras pequenas como são o caso das séries climatológicas
geralmente disponíveis.
Amplitude – é a diferença entre o maior e o menor valor da amostra não é recomendado senão
para trabalhos grosseiros, devido à sua grande variabilidade.
9. Distribuição de frequências
Existem diferentes funções matemáticas analíticas que podem ser usadas para ajustar uma
distribuição de frequências. As distribuições de frequência são de dois tipos: discretas e
continuas. Nas distribuições discretas a densidade de probabilidade é função de uma variável
aleatória discreta, isto é, varia em degraus ou patamares. Por exemplo: número de tempestades
com granizo, dias com chuva, etc. Nas distribuições contínuas a densidade de probabilidade é
uma função de uma variável aleatória continua. Exemplos: temperatura, pressão, precipitação,
ou qualquer variável mensurável numa escala contínua. Abaixo serão descritas algumas
distribuições comumente usadas em climatológia.
9.1. Distribuiçãao normal
A Distribuição normal ou gaussiana é representada pela função de densidade de probabilidade:
F(x) = (1/σ √2 л) exp (- (x-µ)2/ 2σ2
Onde µ é a média da população e σ o desvio padrão. O parâmetro µ é estimado por x e σ por s.
A distribuição normal produz bons ajustes para variáveis climatológicas não limitados acima
ou abaixo, como a temperatura e a pressão. A amostra a ser ajustada, porém, deve vir de uma
série claimatológica homogênea. Não pode também provir de populaces misturadas, como as
que contém várias modas.
Neste caso os momentos não dão boas estimativas dos parametros, mas existem outras
estimativas suficientes:
Γ = (1 + [1 + 4A/3)1/2]/(4A)
Β = µ/γ
A = lnµ - ∑n lnµ/n
A função de distribuição, da qual as probabilidades podem ser obtidas, é:
G(t) = 0∫t g(x) dx
Existem tabelas da função gama que dão G(x), onde u = µ/σ, σ = β √γ.
A Distribuição de Poisson se aplica a eventos com pequena probabilidade. Como isto também
significa que um pequeno número de eventos é encontrado em média num intervalo de tempo
anual, a distribuição, por exemplo se ajusta à frequência anual de granizo, a eventos de Pr
excessiva, à frequência de ciclones tropicais, etc.
9. Análise de regressão
Uma regressão é uma função functional entre uma variável aleatória independente e uma ou
mais variáveis aleatórias dependentes. Para um dado conjunto de valores das variáveis
independentes a regressão dá um valor médio da variável dependente. A análise de regressão é
usada em climatológia para estimar as constantes em relações funcionais onde estas não são
dadas directamente como quantidades físicas. Isto é comumente feito pelo método dos
mínimos quadrados aplicados aos resíduos em torno da função de regressão quando os valores
da variável independente são substituidos.
.
.
.
ﻻS / ﻻak = 0
Como exemplo, seja a regressão linear para as séries xi e yi, com n valores cada. A função de
regressão seria:
Y = a + bx
S = ∑n (yi – a – bxi)2
ﻻS / ﻻak = -2a∑n (yi – a – bxi) = 0 ou ∑nyi – na – b∑xi = 0
ﻻS / ﻻb = -2 b ∑xi (yi – a – bxi) = 0 ou ∑xiyi – a∑xi – b∑xi2 = 0
Ela é uma soma dos produtos dos desvios das duas séries em relação às respectivas médias.
Note-se que se houver um grande número de casos em que um desvio positivo (ou negativo)
de yi, a somatória será positiva e grande e pode-se dizer que as duas series estão
correlacionadas positivamente. Istoé, a um aumento de variável x correspondente uma
diminuição da variável x corresponde uma diminuição da variável y. Se não houver uma
correlação forte entre as séries, os pares ( variação de x/variação de y) terão sinais aleatórios e
a soma será pequena. O mesmo raciocínio é válido para covariância negativa, onde a uma
variação positiva de x corresponde uma variação negativa de y.
A divisão pelos desvios padrões de x e y faz com que r varie entre –1 e +1, sendo assim uma
versão normalizada de covariância.
11.Correlação defasada
As vezes a influência de uma variável climatológica sobre outra não se faz sentir
simultanêamente, mas ocorre algum tempo depois. Por exemplo a temperatura em relação à
insolação tem uma defasagem de 1 a 2 meses, dependendo da localização da estação. Assim, a
correlação pode ser maior se as séies comparadas estiverem desfasadas de um intervalo u que
pode ser de dias, semanas, meses, anos dependendo do tipo de amostra.
Um outro uso da correlação pode ser para descobrir correlações espaciais entre variáveis em
pontos distantes entre si. São as chamadas teleconexões. Na figura abaixo mostram-se as
correlações entre a temperatura da superfície do mar em diferentes pontos do oceano Atlântico
e a Pr no Ceará, Nordeste do Brasil. Note-se que a correlação é geralmente grande para séries
em fase ( Fevereiro) próximo do Ceará, como era de se esperar. Porém, há pontos de máxima
correlação em outros locais em outros meses, como se a causa da Pr fosse se deslocando em
direcção à região de Pr.
12.Autocorrelação
A autocorrelação é essencialmente uma correlação de uma série consigo mesmo.
Para u = 0, r(x,o) = 1, quer dizer, a correlação é máxima. A figura 1.2 mostra a função de
autocorrelação para a série da figura 1.1. Ela pode ser interpretada como sendo uma médida da
influência de um valor da variável sobre a mesma variável instantes após. Assim, para
defasagens pequenas espera-se que a influência seja ainda grande e para defasagens grandes
haja pouca correlação entre medidas muito distantes entre si no tempo.
14.1. Definições
A tendência de uma série é dada pela média ou valor esperado em função do tempo:
Y(t) = ∑nyi(t)
Um exemplo de uma série estaccionária é o chamado ruido branco, que tem media y = o,
desvio padrão finito e auto correlação nula para u = 0, quer dizer, cada valor não depende dos
anteriores.
14.3. Alisamento
A figura abaixo (2.3) mostra observações representações por pontos distintos e a linha
continua superposta é construída conectando pontos correspondentes a médias móvies de 3
pontos.
st = yt-1 + yt + Yt+1)/ 3
Wj são pesos, tipicamente positivos, Wj = W-j com soma igual à unidade. Na prática o é muito
menor que n, o tamanho da amostra.
Essas médias móveis actuam com filtros”passa-baixo”, que eliminam variações com
frequências menores que 1/2p. Por exemplo, se se quiser eliminar a sazonalidade, que tem
período de 12 meses e é óbvia na maioria dos casos, pode-se usar uma média de 13 pontos em
que :
W6 = W-6 = 11/24 e Wj = w-j = 1/12 para j = 1, 2,…5, a figura 2.4 mostra que após retirada
à sazonalidade, é possível distinguir uma tendência impossível de se perceber na série não
alisada.
Também se faz alisamento através de polinómios, como foi feito no item 10 anterior.
Uma regressão muito usada é a regressão spline.
Em geral, a função alisada, que estima a tendência é tal que Y(t) = u(t) + u(t) onde u(t) é uma
função aleatória.
A prática mais comum é escolher o tipo de função u(t), que contêm parámetros a serem
escolhidos de modo a minimizar a soma dos quadrados dos desvios, como no caso de figura
2.5 abixo.
Entretanto quanto mais detalhes forem incluídos, mais grosseira resulta a curva, com
protuberância de raizes de raios de curvatura muito pequenos. Uma medida sensível da
“rudeza” de curva é a Segunda derrivada u’’ (t), uma vez que a derrivada local de u(t) varia
rapidamente se a curva é muito oscilante. Isso sugere que, para escolher u(t) deve-se
minimizar a função:
Para um dado α a função u (t) que mínimiza Q(α) é uma spline cúbica que tem as seguintes
propriedades:
1. u (t) tem a primeira derrivada continua em todos os pontos;
2. u (t) é linear para t < t1 e t > tn, isto é, nas extremidades da amostra, para efeito de
continuidade;
3. u (t) é uma função cúbica de t entre cada par sucessivo de ti’s.
U (t) é relacionada a uma media móvel em que, para pontos igualmente espaçados, a
função peso é:
Wij = h-1 K{(i – j)/h},
onde h = α 0.25 e a função kernel k {. } é definida por K (u) = 0.5 exp (-|u|/2 sen (0.25 + |u| /
√2) mostrada na figura 2.6.
As figuras 2.7 mostram o efeito da aplicação do método para a mesma série da figura 2.5,
para diferentes valores de α.
As figures 2.16 mostram os períodogramas para as duas séries das figuras 2.4 vistas
anteriormente no item 14.3. Note-se um pico muito intenso na 6a componente. Como a
amostra tem 72 meses, T = 72 * 1/6 = 12 meses, é exactamente o período sazonal.
EXERCÍCIOS
1. Dada a série climatologica de precipitação dos meses de Julho para a cidade de
Inhambane:
a. Construa o gráfico de distribuição de frequências.
b. Construa o gráfico de frequências acumuladas.
c. Qual é a moda e a mediana.
d. Calcule a probabilidade de a precipitação do mês de Julho seja maior que 30.8
mm
2. Dada a série climatologica de Temperaturas (°C) para uma dada estação. Verfique se a
série é homogenia o não.