Métodos Estatisticos Aplicados À Clima

Draft
Universidade Eduardo Mondlane “Apontamentos de Climatologia”
I. MÉTODOS ESTATÍSTICOS APLICADOS À CLIMATOLOGIA
1. Métodos analíticos
O estudo de Climatologia é baseada na análise e interpretação de dados meteorológicos
colectados durante muitos anos. Para analisar tais dados, um conhecimento de métodos
estatistícos básicos e técnicas é necessário.
A análise climatológica usa princípios e técnicas de análise meteorológica, numérica e
estatística.
Tratamentos analíticos de observações individuais incluem os seguintes:

 Análise meteorológica convencional (isolinhas) de mapas sinópticos diários históricos;
 Interpolação de observações falhadas;
 Extrapolação de sondagens de atmosfera superior incompletas;
 Verificação não rotineira de observação de precisão duvidosa;
 Interpretação de observações incompletamente identificadas, anotadas ou
documentadas;
 Estabelecimento de métodos para combinar apropriadamente observações similares
codificadas diferentemente;
 Interpretação de porções de códigos que são ambiguos (no computador).
Tratamentos analíticos de observações sumarizadas incluem:

 Análise de isolinhas para mapas climáticos;
 Análise de distribuições de frequência, espalhogramas, etc;
 Interpolação para preencher falhas em observações sumarizadas (médias mensais, etc)
 Preparação de monogramas ( códigos e unidades climatológicas, conversões, manuais
de verificação, etc)
 Verificaçao de sumários em tabelas ou gráficos;
 Análise de diferença ou de razão para redução a uma estação única de dados de estação
que mudou de localização ou exposição;
 Selecção de estações ou áreas representativas de regiões maiores.
1 Autores: António Queface e Felisberto Afonso

Draft
2. Séries climatológicas
Os métodos de análise estatística se aplicam a dados climatológicos porque, de maneira geral,
se esses dados são obtidos de forma apropriada, sequências desses dados se comportam como
variáveis aleatórios. Uma vez que a análise estatística se aplica a amostras de populacõess de
dados, as sequências de dados climatológicos são definidas como amostras de dados que
consistem de um valor climatológico de cada ano do registo considerado. Assim, as 30
temperaturas médias de Janeiro para um registo de 30 anos compõem uma série climatológica.
As 30 precipitações de 1o de Janeiro também formam uma série climatológica.
Uma série climatológica nunca é mais que uma amostra de uma popupalação única que se
supões infinita e tendo as propriedades climáticas a serem analisadas da amostra.
3. A distribuição de frequência
A distribuição de frequência é a ferramenta básica para descrever e analisar a amostra.
Divide-se a amostra em classes que são divisões do intervalo de variação da variável
climatológica. O número de classes mais convinientes está entre 10 e 20 divisões iguais. Isso
divide a diferença entre o maior e o menor valor(ou amplitude) em 10 a 20 intervalos iguais.
Como exemplo se usarão os dados de precipitação de Agosto em Genebra.
r max = 250 mm r min = 18 mm

∆r = 250 – 18 = 232 mm
Como 20 mm é uma divisão conveniente e dá 13 divisões, este é um intervalo bom. Definindo
os intervalos para as diferentes classes contam-se os anos em que a precipitação é contida em
cada intervalo e obtém–se a distribuição de frequências que pode ser representada como um
histograma. Os f’’s podem ser divididos por 30 para se obter as frequências relativas em cada
intervalo de classe. Estes valores são estimativas das probabilidades na população de
quantidades de precipitação nos vários intervalos de classes.

Draft
Tabela 1. Precipitação (mm) do mês de Agosto, na Suiça em Genebra
Ano P Ano P Ano P
1927 250 1937 78 1947 54

1928 147 1938 79 1948 72
1929 83 1939 85 1949 49
1930 108 1940 18 1950 110
1931 171 1941 105 1951 100
1932 62 1942 48 1952 125

1933 67 1943 41 1953 57
1934 119 1944 44 1954 206
1935 157 1945 133 1955 107
1936 23 1946 158 1956 144
Tabela 2. Distribuição da frequência de Precipitação (mm) do mês de Agosto, na Suiça em

Genebra
P f P f
0 – 19 1 140 – 159 4
20 – 39 1 160 – 179 1
40 – 59 6 180 – 199 0
60 – 79 5 200 – 219 1
80 – 99 2 220 – 239 0
100 – 119 6 240 – 259 1
120 – 139 2

Draft
a
ic 5
n
e
u
q
er
4
F 3
Figura1. Histograma da precipitação do mês de Agosto na Suiça, em Genebra

0-19 20 -39 40- 59 60-79 8 0-99 100- 119 120-1 39 1 40-15 9 160 -179 180- 199 200-21 9 22 0-239 240- 25
P(mm)
4. Distribuição cumulativa
Usualmente o climatologista está mais interessado nas estimativas de probabilidade
abrangendo vários intervalos de classe, e isto é mais convenientemente obtido da distribuição
cumulativa. Também, a distribuição cumulativa dá estimativas melhores das probabilidades,
uma vez que a divisão arbitária em classes tende a esconder algumas das informações
presentes na série climatológica.
Para obter a distribuição cumulativa os dados são primeiramente colocados em ordem

crescente. Os F’s são as frequências relativas acumuladas ou probabilidades cumulativas da
população:
F = m/(n + 1)
Onde m é o m-ésimo valor em ordem e n é o número de termos na série climatológica. A
divisão por (n + 1) ao invés de n dá uma estimative melhor das probabilidades, principalmente
nas extremidades.
As F’s são as probabilidades de que a precipitação seja menor que cada valor mostrado na
tabela. Por exemplo, a probabilidade de que p seja menor que 62 mm é 0.290 e maior que 62

Draft
mm é 1 – F = 0.710 a probabilidade de que esteja entre 62 mm e 100 mm é 0.516 – 0.290 =

0.226.
O intervalo médio de recorrência ou período de retorno (isto é o intervalo de tempo médio

entre ocorrências) para valores excedendo qualquer valor p é 1/(1-F). Por exemplo para
precipitação excedendo 100 mm o intervalo de recorrência média é 1/( 1- 0.516) = 1/0.484 =
2.07, aproximadamente 2 anos.
Aqui é interessante dividir a amostra em 2, 4 ou 10 partes iguais. Se a amostra for dividida em

duas partes, o valor central da amostra será tal que metade da amostra terá valores abaixo
deste, que será chamado a mediana. No caso do exemplo do item 3 a mediana se encontra
entre os valores 85 mm e 100 mm, ou seja : (85 + 100)/2 = 92.5 mm. Pode-se interpretar esse
valor como: metade dos anos a precipitação em Agosto, em Genebra, é menor que 92.5 mm
ou, a probabilidade de que a precipitação seja menor que 92.5 mm é de 50%.
Da mesma forma, se a amostra for dividida em quartis ( 4 partes), os limites definirão

percentagens de 25 e 50 e 75 % e, se dividida em decis (10 partes) os limites definirão limites
de 10, 20, 30, 40, 50, 60, 70, 80, e 90 % de probabilidade de ocorrência. Assim, no exemplo
dado, os limites serão:
Mínimo = 18
1o decil = 41
2o decil = 49
1o quartil = 55.5
3o decil = 62
4o decil = 78
5o decil = 92.5
6o decil = 107
7o decil = 119
3o quartil = 129

Draft
8o decil = 144
9o decil = 158
máximo = 250
Tabela3. Distribuição cumulativa da precipitação (mm) de Agosto na Suiça, em Genebra

m P F m P F m p F
1 18 0.032 11 72 0.355 21 119 0.677
2 23 0.065 12 78 0.387 22 125 0.710
3 41 0.097 13 79 0.419 23 133 0.742
4 44 0.129 14 83 0.452 24 144 0.774
5 48 0.161 15 85 0.484 25 147 0.806
6 49 0.194 16 100 0.516 26 157 0.839

7 54 0.226 17 105 0.548 27 158 0.871
8 57 0.258 18 107 0.581 28 171 0.903
9 62 0.290 19 108 0.613 29 206 0.935
10 67 0.323 20 110 0.645 30 250 0.968

Draft
a
v
it 1.200
a
l
e
r
a 0.900
i
c
n
e
u 0.600
q
e
r
F
0.300
0.000
0 40 80 120 160 200 240
Pr (mm)
Figura 2. Distribuição cumulativa da precipitação de Agosto
5. Homogeneidade de series de dados
Uma série de dados é dita homogênea se é uma amostra de uma população única. Assim, por
definição uma série climática é homogênea e a análise de probabilidade elementar só pode ser
aplicada a séries climatológicas. Se a série não é homogênea, devem ser feitos ajustes para que
as estimativas estatísticas sejam válidos para os últimos termos da série ou de modo que elas
sejam estimativas de uma série hipotética homogênea que inclua os últimos termos.
Em casos que a exposição dos instrumentos tenha mudado é necessário fazer um teste
estatístico para assegurar a homogeneidade. O teste válido de homogeneidade é um teste
estatístico que parte de uma hipótese de homogeneidade e uma regra para aceitar ou rejeitar a
hipótese com base na probabilidade de ocorrência. Assim, se a probabilidade da evidência da
homogeneidade é pequena, conclui-se que a série é heterogênea; se ela é grande a decisão é
pela homogeneidade. A regra especifica a probabilidade limite (limite de significância) além
da qual a hipótese de homogeneidade deve ser rejeitada.
As alternativas para a homogeneidade de uma série de dados climatológicos são usualmente o

desvio da média, a tendência ou alguma forma de oscilação. Uma vez que estas alternativas,
principalmente a última, são difíceis de especificar exactamente, é melhor usar um teste não
Draft
paramétrico que não exija a especificação exacta destas alternativas ou da distribuição

homogênea. Um teste bem conhecido, não paramétrico, que é sensível a todas estas
alternativas, é o teste das corridas, de Swed e Eisenhart.
Contam-se as corridas (u) acima e abaixo da mediana numa série cronologicamente ordenada
e testa-se este valor com uma tabela de distribuição de u. O teste é melhor ilustrado pela
aplicação às temperaturas médias de Agosto em Genebra. A tabela 5 mostra os dados em
ordem cronológica ou histórica. A mediana está entre 18.9 e 19.2 0C, melhor estimada pela
média entre estes dois valores, isto é 18.9 e 19.05 oC. Usando este valor, as médias na tabela
são indicadas com um A se estão acima. As corridas são então marcadas como sequências de
A`s e de B`s. O mínimo total de corridas no caso é u = 15.
É claro que muitas corridas seriam uma indicação da oscilação, enquanto que poucas corridas
seriam uma indicação de tendência ou deslocamento da mediana durante o período. Assim, se
a probabilidade do u resultante ser excedido for pequena suspeitar-se-à uma oscilação
enquanto que, se a probabilidade de encontrar valores maiores ou menores que u for grande,
então nem oscilação nem tendência sera suspeitada e a série é dita homogênea. A tabela 6 dá a
distribuição de u. Uma vez que foi escolhida a mediana como referência, o número de valores
acima dela (NA) é igual ao número de valores abaixo (NB). Na tabela estão indicados os
limites superiores e inferiores de 10 % de significância, isto é, a probabilidade P de 0.10 e 0.9
de u ser menor que u 0.10 ou menor que u 0.90, respectivamente.
Estes limites de 10 % de significância são satisfatórios para muitas aplicações climatológicas

porque, devido á alta variablidade, desejável aumentar os limites da probabilidade significante
para aumentar as chances de aceitação da hipótese alternativa. Uma vez que u é discreto, os
valores de u mostrados na tabela são aqueles correspondentes às probabilidades mais
próximas de 0.10 e 0.90. Se um valor de u cai abaixo do limite inferior, o que poderia
acontecer só em 10% dos casos, a heterogeneidade seria devido a tendência ou deslocamento,
se cair acima do limite superior, o que também só acontece em 10 % dos casos, a
heterogeneidade é devida à oscilação.

Draft
Vê-se na tabela 5 que u = 15 para NA = 15 está dentro do intervalo entre o limite mínimo (12)
e o limite máximo (19), portanto u não é significativamente diferente dos u`s esperados de
uma série homogênea, e se conclui que a série é homogênea.
Para ilustrar melhor a aplicação do teste das corridas a série foi em seguida deliberadamente
tornada heterogênea subtraindo-se 1oC de cada um dos 12 primeiros anos e subtraindo-se 0.5
o
C de cada um dos 8 anos seguintes. Este tipo de tendência poderia bem ter sido causado, por
exemplo, por mundanças na exposição dos instrumentos, ou falta de calibração ou mesmo,
quem sabe, por uma legítima mudança ou flutuação do clima. A série heterogênea é mostrada
na tabela 7.
O número de corridas é diminuido para u= 11 devido aos dois deslocamentos que de facto
produzem uma espécie de tendência. Na tabela 6 vê-se que para NA = 15 a probabilidade de
haver menos que 12 corridas é 10 % e como a série heterogênea tem apenas 11 corridas,
confirma-se a heterogeneidade. Obviamente já se sabia da heterogeneidade porque ela foi
introduzida deliberadamente. Pode-se suspeitar deste exemplo que a habilidade destes testes
para encontrar heterogeneidades não sera muito boa quando as exactas alternatives para
homogeneidade não são conhecidas. Isto indica que a melhor maneira dos registros da estação.
Se a história dos registros mostra mudanças que podem causar heterogeneidades e que possam
ser descritas de acordo com o período e o caracter, podem-se usar testes paramétricos para
determinar a significância das heterogeneidades, como por exemplo o teste t de Student. Tais
testes entretanto, só podem ser empregados quando os períodos e o carácter das
heterogeneidades são conhecidos a priori.
Tabela 5. Corridas das series de temperatura observadas (oC) na Suiça em Genebra

Draft
Ano To Ano To Ano To
1927 17.4 B 1937 19.5 A 1947 22.0 A

1928 20.9 A 1938 18.5 B 1948 18.9 A
1929 18.7 B 1939 18.6 B 1949 20.7 A
1930 18.7 B 1940 17.9 B 1950 19.7 A
1931 16.9 B 1941 17.8 B 1951 19.5 A
1932 20.8 B 1942 19.9 A 1952 20.3 A

1933 20.4 A 1943 20.9 A 1953 19.8 A
1934 17.9 B 1944 22.9 A 1954 18.3 B
1935 18.1 B 1945 18.9 B 1955 19.3 A
1936 18.5 B 1946 19.2 A 1956 17.5 B
Tabela 6. Tabela de distribuição de número de corridas (U), NA = NB

M p F m P F
NA 0.10 0.90 NA 0.10 0.90
10 8 13 19 16 23
11 9 14 20 16 25
12 9 16 25 22 30
13 10 17 30 26 36
14 11 18 35 31 41
15 12 19 40 35 47
16 13 20 45 40 52
17 14 21 50 45 57
18 15 22
Tabela 5. Corridas das series de temperatura (oC) heterogênea na Suiça em Genebra

Draft
Ano To Ano To Ano To
1927 16.4 1937 18.5 1947 22.0

1928 19.9 1938 17.6 1948 18.9
1929 17.7 1939 18.1 1949 20.7
1930 17.7 1940 17.4 1950 19.7
1931 15.9 1941 17.3 1951 19.5
1932 19.8 1942 1952 20.3

1933 19.4 1943 20.4 1953 19.8
1934 16.9 1944 19.4 1954 18.3
1935 17.1 1945 18.4 1955 19.3
1936 17.5 1946 18.7 1956 17.5
5. Ajuste de medias climatológicas

A heterogeneidade em series de dados climatológicas é usualmente devida a algum factor
pertubador como uma mudança na localização da estação ou mudança na exposiçao. Embora
no passado se tenha tentado homogeneizar a série, deve ficar claro que é impossível faze-lo,
no sentido que uma nova série de valores individuais possa ser derrivada com as mesmas
propriedades como se fosse uma amostra da população real. Qualquer ajuste pertuba a
variabilidade da série e portanto muda a escala da dispersão da distribuiçao da frequência.
Entretanto é possível ajustar certas estatísticas da série de modo que estes valores ajustados
sejam efectivamente semelhantes aos estimados da população apropriada. A aplicação mais
comum de tais ajustes é às medias dos dados com o propósito de obter a normal. É
recomendado que tais ajustes sejam feitos se possível apenas com base em heterogeneidades a
priori.
Os métodos envolvem o uso de uma estação suplementar com um registro concorrente

homogêneo. Esta estação deve ser a mais próxima possível, uma vez que a eficiência do ajuste

Draft
depende da correlação entre as duas estações. É conviniente usar uma estação a menos de 80
km da estação a ser ajustada e no mesmo regime climático. Se uma estaçao suplementar não
tem um registro concorrente completo, o ajuste pode ser feito em estágios, usando diferentes
estações suplementare para cada período.
Método da diferença
Para ilustrar o método tomar-se-á a série de temperaturas de Genebra em Agosto tornada
heterogênea resultando a tabela 7. Supõe-se que a estação foi mudada após 8 anos e que queira
ajustar a média dos últimos 30 anos ao último período de 10 anos em que a estação não foi
perturbada.
Para ajustar a media da temperatura do registro de Genebra, dados os valores para os períodos
heterogeneous e também os homogêneos, decidiu-se que Lousane seria uma estação
suplementar conviente.
A fórmula de ajuste para a temperatura é>
Ÿ=a+X
X é a média para o período homogêneo na estação suplementar correspondente ao período

heterogêneo da estação cujo registro está sendo ajustado, Y é a media ajustada. A constante de
ajuste a é estimada pela equação
y=v– u
v e u são as médias para os períodos concorrentes em que os registos da estação suplementar e
da estação a ser ajustada são homogêneos simultaneamente. Obtito a, os y para as várias partes
do registro de 30 anos contribuem para a média ponderada com pesos de acordo com o
comprimento do período em anos de cada parte do registro.
As médias para cada período foram obtidos da tabela 7 e mostradas na tabela 8.

Draft
Substituindo os valores homogêneos de u e v obtém-se a estimativa do factor de ajuste a =

19.6 – 18.2 = 1.4. A seguir se obtém os valores ajustados y = 17.9 + 1.4 = 19.3, y = 18.2 + 1.4
= 19.6. Depois se multiplicam os valores de y por 12.8 e 10, que são os respectivos tamanhos
das partes do registro a ser ajustado e divide-se por 30 para obter a média ponderada 19.5. Esta
é a média estimada ajustada para a temperatura média de Agosto de Genebra. Note-se que este
valor se compara bem com a média real do registro não perturbado que é 19.3.
Tabela 8. Temperatura média ajustada (oC) em Genebra, na Suiça
Genebra-Unadjusted Lausanne X
Means Geneva y
1927 - 1938 17.9 (17.9) 19.3*

1939 - 1946 18.4 (19.0) 19.8*
1947 - 18.2 18.2 (19.6) 19.6
Adjusted Record Mean 19.5*
5.2. Método da razão

Para ilustrar a aplicação do método da razão para ajuste de precipitação, o registo de Pr anual
de Genebra de 1927 a 1956 foi tornado heterogêneo pela multiplicação de cada valor dos 12
primeiros anos por 0.9 deixando os últimos 10 anos não perturbados. A série heterogênea
resultante está mostrada na tabela 9.
Ao se testar a homogeneidade da série chega-se ao valor u = 9 corridas, do que pela tabela 6

se conclui pela heterogeneidade.
Uma vez que heterogeneidades em series de precipitação são mudanças de escala na

distribuição de frequêncies, é apropriado ajustar as heterogeneidades através de um ajuste de
escala, isto é, usando a razão entre totais homogêneos.

Draft
Por este princípio, se y é a Pr para um ano na estação a ser ajustada, e x é o correspondente

valor para a estação suplementar, então
∑y = b ∑x, onde os somatórios são para um período heterogêneo na estação a ser ajustada.
A constante de ajuste b é estimada pela equação

b = ∑v / ∑u
Onde ∑v é a soma das precipitações no período homogêneo da estação a ser ajustada e ∑u é a
soma no período correspondente da estação suplementar.
Este período deve ser, obviamente, o último período do registro para estações activas uma vez
que é desejável ajustar a uma população da qual valores na actual localização da estação activa
vão ser obtidos e deveriam ter sido obtidos no passado.
Os resultados são mostrados na tabela 10. Tomando os valores de ∑v e ∑u da tabela para o

período homogêneo, obtém-se:
b = 1024/1267 = 0.8082
Os valores ajustados para os períodos homogêneos serão:
∑y = 0.8082 X 1602 = 1295 e Ey = 0.8082 X 753 = 609
Finalmente, somandi os valores e dividindo-se por 30 obtém-se a media:

Y = (1295 + 609 + 1024) / 3. = 97.6 mm/ano
Que é uma estimativa melhor para a Pr média de Genebra (100 mm/ano) do que a média de
série heterogênea ( 106.9 mm/ano).
6. Estimativas de parâmetros estatísticos

Um parâmetro estatístico é um valor fixo função de todos os valores de uma população. Por
exemplo, a média de uma população á média de todos os valores da população. Uma vez que a

Draft
população de valores inteira não pode ser conhecida em climatológia, só é possível estimar os
parâmetros estatistísticos da população a partir de amostras ou séries climatológicas. A
estimativa de um parâmetro é chamada estatística.
Uma estatística é uma função da série climatológica, e como tal é uma variaável aleatória
sujeita a variações aleatórias similares às dos valores da série. Assim, cada estatística forma
uma população para a qual existe uma distribuição de frequência. A variabilidade destas
estatísticas em torno do correspondente parametro da população é chamada dispersão da
estatística. Existem sempre várias funções ( ou estatísticas) da amostra que estimam o mesmo
parâmetro da população. Por exemplo, para estimar o centro de uma distribuição gausiana
pode-se usar a mediana ou a média. Entretanto, diferentes estimativas têm diferentes
dispersões, e a melhor estimativa terá a menor dispersão. No exemplo acima, as médias de
diferentes amostras tem menor dispersão que as medianas das mesmas amostras. A dispersão
também diminui com o aumento do tamanho da amostra. Assim, para que a dispersão da
mediana seja igual à da média é nesessário que a amostra usada para determinar a mediana
seja cerca de1/3 maior que a amostra usada para calcular a média e assim a mediana ser uma
estimativa para a média da população tão boa quanto o é a média de uma amostra.
7. Estatísticas comuns de variáveis climatológicas

Existem diferentes estatísticas ou estimativas da população dos valores climatológicos
calculados a partir de amostras. Algumas das mais comuns são descritas abaixo.
Moda ( uma denominação mais apropriada seria “modo”) – é o valor da variável aleatória
com máxima densidade de probabilidade, ou o valor mais provável. Se a expressão analítica
da distribuição da frequência for conhecida, estimativas eficientes da moda podem ser obtidas
através da derrivação da mesma. Se a forma analítica não é conhecida e a amostra é grande, o
centro da classe com maior frequência pode ser tomada como estimativa da moda. No caso de
haver mais de uma moda (distribuição multimodal) é provavel que haja mais de uma
distribuição superpostas ou então uma mistura de amostras de diferentes populacões numa
tentativa de aumentar o tamanho das amostras.

Draft
Mediana – é o valor da variável abaixo do qual (ou acima do qual) a probabilidade de

ocorrência é 50 %. Se a forma analítica da distribuição for conhecida, integra-se até obter o
valor 0.5. Caso contrário, toma-se o valor correspondente à probabilidade cumulativa de 50 %.
A mediana pertence à classe das quantidades chamadas “quantis” definidas como o valor X F
para o qual F é a probabilidade de X ser menor que XF. A mediana seria o quantil X0.5.
Média – é o paramêtro climatológico mais usado. Na maioria dos casos é melhor obtê-lo
somando os valores e dividindo a soma pelo número de anos. Ela é o valor esperado ou
esperança matemática, isto é, a média da população. Também é o centro da distribuição
normal para séries climatológicos com esta distribuição. A mdia calculada como acima é
geralmente óptima para estimar o valor esperado e o centro da distribuição da temperatura.
Os momentos em torno da média, ou momentos centrais são também empregados. São

definidos por:
µr = ∫R (x – u)r f (x) dx
Onde µr é r-ésimo momento, u é a média, f(x) é a função densidade da probabilidade, ou curva
de frequência, R é o intervalo da população ou região onde f(x) é definido.
Variância – o segundo momento ou variância é

s2 = ∑n(x - µ )2 / (n – 1)
Desvio padrão – é a raiz quadrada da variância

S = √S2
Os momentos de ordem superior podem ser estimados por
mr = ∑n (x – u)r / n
Deslocamento da média – (skewness) é a medida do quanto a média está deslocada em
relação ao valor mais provável (moda) e geralmente é expresso por
g1 = m3/s3

Draft
g1 será positivo se a média estiver deslocada para valores maiores que a moda, ou seja, se a
curva de frequência tiver uma “cauda” maior do lado dos maiores valores, o contrário
ocorrendo para g1 negativo.
Convexidade – (Kurtosis) é a medida da uniformidade da amostra e está associada ao quarto

momento, geralmente por:
g2 = (m4/s4) - 3
Se ocorre um pico na distribuição de frequêncies g2 é pequeno, se a distribuição de
frequências é mais espalhada g2 é grande. Geralmente g2 é substituido por
a = ∑n |x – µ| / (ns)
Momentos de ordem superior a 4 não são recomendáveis para séries climatológicas, uma vez
que são muito variáveis para amostras pequenas como são o caso das séries climatológicas
geralmente disponíveis.
Amplitude – é a diferença entre o maior e o menor valor da amostra não é recomendado senão
para trabalhos grosseiros, devido à sua grande variabilidade.
Coeficiente de variabilidade – ou desvio padrão relativo, é também usado em climatologia.

(= S / µ ).

Draft
8. Métodos estatísticos gerais

Os problemas básicos de análise climatológica podem ser classificados em três tipos gerais:
 Problemas de especificação para a escolha da forma analítica da distribuição de frequÊncia
da população. Isso pode ser feito empiricamente ou usando raciocinios teóricos. Uma
especificação empírica da população usualmente consiste em supor a existência de uma
distribuição de probabilidade com a forma característica de ogiva. Uma especificação
teórica é derrivada de considerações a respeito dos limites da variável; comportamento de
escala, localização e forma, etc.
 Problemas de inferência que ocorrem na estimativa de parâmetros da população. São

resolvidos através de estatísticas mais satisfatórias, as que têm menor dispersão. Intervalos
de confidência para estimativas de parametros devem ser feitos para assegurar se a
população obedece a certas condições prescritas, por exemplo, testes para examinar a
homogêneidade de series.
 Problemas de correlação entre várias variáveis climatológicas e entre variáveis

climatológicas. O primeiro problema aparece quando é necessário substituir variáveis
climatológicas não disponíveis ou nova variável que tenha algumas propriedades especiais.
Por exemplo, estimar estatísticas de temperaturas diárias a partir de séries de temperaturas
médias mensais. Ou então a temperatura acumulada de crescimento, que é um exemplo de
uma função da temperatura útil para agricultura.
9. Distribuição de frequências
Existem diferentes funções matemáticas analíticas que podem ser usadas para ajustar uma
distribuição de frequências. As distribuições de frequência são de dois tipos: discretas e
continuas. Nas distribuições discretas a densidade de probabilidade é função de uma variável
aleatória discreta, isto é, varia em degraus ou patamares. Por exemplo: número de tempestades
com granizo, dias com chuva, etc. Nas distribuições contínuas a densidade de probabilidade é
uma função de uma variável aleatória continua. Exemplos: temperatura, pressão, precipitação,

Draft
ou qualquer variável mensurável numa escala contínua. Abaixo serão descritas algumas
distribuições comumente usadas em climatológia.
9.1. Distribuiçãao normal
A Distribuição normal ou gaussiana é representada pela função de densidade de probabilidade:
F(x) = (1/σ √2 л) exp (- (x-µ)2/ 2σ2
Onde µ é a média da população e σ o desvio padrão. O parâmetro µ é estimado por x e σ por s.
Em geral a função de densidade de probabilidade é expresso em tabelas tendo como

argumento uma variável padronizada:
u = (x – µ )/ σ
Para a qual u = o e σu = 1, assim f(x) = (1/√2 л) exp (-µ 2/ 2) e a probabilidade acumulada é:

F(t) = (1/ √2 л) -∞∫t exp (-µ 2/2) du que podem ser transformados em qualquer distribuição
normal, simplesmente substituindo µ e σ.
A importância da distribuição normal na climatológia vem do teorema do limite central. Isso

faz com que a soma de um número suficiente de valores climatológicos seja distribuida
normalmente. Por exemplo, séries climatológicas de precipitação para períodos curtos para os
quais a Pr média é pequena, têm distribuições muito deslocadas. Quando o período aumenta,
vários períodos curtos são somados e ocorre um aumento na média e a soma se aproxima de
uma distribuição normal. Em condições médias, períodos com uma Pr média de 500 mm ou
mais serão aproximadamente normalmente distribuídos.
A distribuição normal produz bons ajustes para variáveis climatológicas não limitados acima
ou abaixo, como a temperatura e a pressão. A amostra a ser ajustada, porém, deve vir de uma
série claimatológica homogênea. Não pode também provir de populaces misturadas, como as
que contém várias modas.

Draft
9.2. Distribuição gama

Uma vez que existem várias variáveis continuas em climatológia que são limitadas pelo valor
zero, é importante encontrar distribuições matemáticas com essa propriedade. É o caso da
distribuição gama definida por sua função densidade de probabilidade (ou frequência):
g(x) = x -1/ (β γ (Γ (γ) exp (-x/ β)
Onde β é um parâmetro de escala, γ é um paramêtro de forma e Γ(γ) = (γ –1)!
Neste caso os momentos não dão boas estimativas dos parametros, mas existem outras
estimativas suficientes:
Γ = (1 + [1 + 4A/3)1/2]/(4A)
Β = µ/γ
A = lnµ - ∑n lnµ/n
A função de distribuição, da qual as probabilidades podem ser obtidas, é:
G(t) = 0∫t g(x) dx
Existem tabelas da função gama que dão G(x), onde u = µ/σ, σ = β √γ.
6.2. Distribuição binomial e distribuição de Poisson

A função de distribuição binomial é dada por:
F(x) = ﴾m, x﴿ px (1 – p) m-x
Onde p é a probabilidade de ocorrência de um evento, (1 – p) é a probabilidade do mesmo

evento não ocorrer, e x pode tornar os valores 1,2,…, m, que são as frequências de ocorrência
possíveis. Esta distribuição em geral não se ajusta bem a séries climatológicas mas se
relaciona com a distribuição de Poisson quando m se torna grande e p tende a zero.
A Distribuição de Poisson se aplica a eventos com pequena probabilidade. Como isto também
significa que um pequeno número de eventos é encontrado em média num intervalo de tempo
anual, a distribuição, por exemplo se ajusta à frequência anual de granizo, a eventos de Pr
excessiva, à frequência de ciclones tropicais, etc.

Draft
A função de probabilidade de Poisson é dada por:

F(x) = µ x e -µ /x!
µ é estimado por x.
A função de distribuição é então
F(x) = ∑x=0nµ x e -µ /x!
pode ser encontrada em tabelas.
9. Análise de regressão
Uma regressão é uma função functional entre uma variável aleatória independente e uma ou
mais variáveis aleatórias dependentes. Para um dado conjunto de valores das variáveis
independentes a regressão dá um valor médio da variável dependente. A análise de regressão é
usada em climatológia para estimar as constantes em relações funcionais onde estas não são
dadas directamente como quantidades físicas. Isto é comumente feito pelo método dos
mínimos quadrados aplicados aos resíduos em torno da função de regressão quando os valores
da variável independente são substituidos.
A função de regressão pode ser um polinómio ou qualquer função analítica ou combimação

linear de funções:
Y = R (x, ao, a1, a2, a3, …, ak) por exemplo:
Y = ao + a1x + a2x2 + a3x3
Y = ao + a1x lnx
Se o resíduo para cada valor da variável dependente xi for designado por:
Di = yi – R (xi)
A soma dos quadrados dos residuos será:
S = ∑ i(yi – R(xi)2
que depende tanto de xi e yi como dos parâmetros aj. Pra minimizar S, deve-se escolher os aj
solucionando o conjunto de k equações:
‫ﻻ‬S / ‫ﻻ‬ao = 0
‫ﻻ‬S / ‫ﻻ‬a1 = 0

Draft
.
.
.
‫ﻻ‬S / ‫ﻻ‬ak = 0
Como exemplo, seja a regressão linear para as séries xi e yi, com n valores cada. A função de
regressão seria:
Y = a + bx
S = ∑n (yi – a – bxi)2
‫ﻻ‬S / ‫ﻻ‬ak = -2a∑n (yi – a – bxi) = 0 ou ∑nyi – na – b∑xi = 0
‫ﻻ‬S / ‫ﻻ‬b = -2 b ∑xi (yi – a – bxi) = 0 ou ∑xiyi – a∑xi – b∑xi2 = 0
Note-se que as somatórias conhecidas ( inclusive ∑xi = nx e ∑yi = ny e portanto é possível

encontrar a e b:
a = ∑yi/n + ∑xi (∑xi∑yi – n∑xiyi) / ((∑xi)2 – n∑xi2) / n
b = (∑xi∑yi - n∑xiyi) / ((∑xi)2 – n∑xi2)
O cálculo poderia ser um pouco simplificado se fosse usada a variável u = x – µ e então ∑ui =
o e então:
a = ∑yi /n e b = ∑uiyi / ∑ui2
Frequentemente é nesessário testar a regressão ajustada em relação à linearidade. Este teste é

feito pela análise de variância. Para uma regressão linear como a feita acima deve-se notar
que há uma variabilidade total dos y’s para cada x que é dividida em uma variabilidade
explicada pela regressão:
QR = ∑(y(xi) – y)2
e outra variabilidade que não é explicada pela regressão:
QT –QR = ∑ (yi – y(xi)2
QT = ∑ (yi – y)2

Draft
O coeficiente r2 = QR/QT dá a proporção das somas dos quadrados ou variabilidades explicada

pela regressão em relação à variabilidade total. Na prática, se r < 0.5 (ou r 2 < 0.25) a regressão
tem pouca utilidade prática.
10. Análise de correlação

A correlação entre duas séries temporais está relacionada com a regressão linear entre as
mesmas.
Define-se a covariância de duas séries como:
cov = ∑n (xi – x) (yi – Y)/ n
Ela é uma soma dos produtos dos desvios das duas séries em relação às respectivas médias.
Note-se que se houver um grande número de casos em que um desvio positivo (ou negativo)
de yi, a somatória será positiva e grande e pode-se dizer que as duas series estão
correlacionadas positivamente. Istoé, a um aumento de variável x correspondente uma
diminuição da variável x corresponde uma diminuição da variável y. Se não houver uma
correlação forte entre as séries, os pares ( variação de x/variação de y) terão sinais aleatórios e
a soma será pequena. O mesmo raciocínio é válido para covariância negativa, onde a uma
variação positiva de x corresponde uma variação negativa de y.
Pode-se também definir uma estimativa mais conveniente que é a correlação:

Draft
r (x,y) = ∑n(xi – x) (yi – y) / sxsy
A divisão pelos desvios padrões de x e y faz com que r varie entre –1 e +1, sendo assim uma
versão normalizada de covariância.
11.Correlação defasada
As vezes a influência de uma variável climatológica sobre outra não se faz sentir
simultanêamente, mas ocorre algum tempo depois. Por exemplo a temperatura em relação à
insolação tem uma defasagem de 1 a 2 meses, dependendo da localização da estação. Assim, a
correlação pode ser maior se as séies comparadas estiverem desfasadas de um intervalo u que
pode ser de dias, semanas, meses, anos dependendo do tipo de amostra.
r(x,y,u) = ∑(xi(t) – x) (yi(t + u) – y) / n sxsy
Pode-se então construir um gráfico de r em função da defasagem u, chamado função de

correlação. O gráfico da figura 8.4 é função de correlação para as duas séries da figura 8.3.
Para u = k = 0, r12 (0) = 0.4, mas para u = 5 min o pico é de cerca de 0.95, que é uma
correlação grande.
Um outro uso da correlação pode ser para descobrir correlações espaciais entre variáveis em
pontos distantes entre si. São as chamadas teleconexões. Na figura abaixo mostram-se as
correlações entre a temperatura da superfície do mar em diferentes pontos do oceano Atlântico
e a Pr no Ceará, Nordeste do Brasil. Note-se que a correlação é geralmente grande para séries
em fase ( Fevereiro) próximo do Ceará, como era de se esperar. Porém, há pontos de máxima
correlação em outros locais em outros meses, como se a causa da Pr fosse se deslocando em
direcção à região de Pr.

Draft
12.Autocorrelação
A autocorrelação é essencialmente uma correlação de uma série consigo mesmo.
R(x,u) = ∑n(xi(t) – x) (xi(t + u) – x) / n sx2
Para u = 0, r(x,o) = 1, quer dizer, a correlação é máxima. A figura 1.2 mostra a função de
autocorrelação para a série da figura 1.1. Ela pode ser interpretada como sendo uma médida da

Draft
influência de um valor da variável sobre a mesma variável instantes após. Assim, para
defasagens pequenas espera-se que a influência seja ainda grande e para defasagens grandes
haja pouca correlação entre medidas muito distantes entre si no tempo.
13.Análise de series de tempo

Rigorosamente esta secção deveria aparecer antes das secções sobre regressão e correlação,
mas a ordem talvez seja mais didáctica.
Os objectivos da análise de séries de tempo podem ser resumidos em :
(1)descrever séries históricas, através de algumas estatísticas e representações gráficas; (2)
prever valores futuros;
(3) monitorar a série para detectar mudanças de comportamento;
(4) comparar duas séries para descobrir dependencias ou correlações.
14.1. Definições
A tendência de uma série é dada pela média ou valor esperado em função do tempo:
Y(t) = ∑nyi(t)
Estacionaridade - se a estrutura estatística da série não se altera por um deslocamento da

origem dos tempos, a série se diz estacionária. Na prática significa que a série parece a mesma
vista de qualquer ponto no tempo. Y = constante e r (y, t, u) = r (y, t+u).
Um exemplo de uma série estaccionária é o chamado ruido branco, que tem media y = o,
desvio padrão finito e auto correlação nula para u = 0, quer dizer, cada valor não depende dos
anteriores.

Draft

Draft
14.2. Gráficos de series de tempo

Em geral as séres são discretas e é mais conviniente ligar os pontos por rectas para tornar mais
visível a variação.
Outra escolha que pode afectar a interpretação de um gráfico é parâmetro de aspecto. Se a

ordenada for exagerada em relação à abcissa, vê-se melhor a diferença entre alturas de picos
sucessivos, enquanto que uma ordenada comprimida mostra as assimetrias dos picos
individuais.

Draft
14.3. Alisamento
A figura abaixo (2.3) mostra observações representações por pontos distintos e a linha
continua superposta é construída conectando pontos correspondentes a médias móvies de 3
pontos.
st = yt-1 + yt + Yt+1)/ 3
O gráfico descreve variações, possivelmente sazonais, de onde foram retiradas variações

aleatórios de período menor ( 1 e 2 meses) que estão mostrados nos resíduos do gráfico b:
rt = yt - st.
Este exemplo leva à conceituação de medias movies, centradas no ponto de interesse:

St = ∑pj = -p WjYt+j t = p + 1, …., n-p

Draft
Wj são pesos, tipicamente positivos, Wj = W-j com soma igual à unidade. Na prática o é muito
menor que n, o tamanho da amostra.
Essas médias móveis actuam com filtros”passa-baixo”, que eliminam variações com
frequências menores que 1/2p. Por exemplo, se se quiser eliminar a sazonalidade, que tem
período de 12 meses e é óbvia na maioria dos casos, pode-se usar uma média de 13 pontos em
que :

Draft
W6 = W-6 = 11/24 e Wj = w-j = 1/12 para j = 1, 2,…5, a figura 2.4 mostra que após retirada
à sazonalidade, é possível distinguir uma tendência impossível de se perceber na série não
alisada.
Também se faz alisamento através de polinómios, como foi feito no item 10 anterior.
Uma regressão muito usada é a regressão spline.
Em geral, a função alisada, que estima a tendência é tal que Y(t) = u(t) + u(t) onde u(t) é uma
função aleatória.
A prática mais comum é escolher o tipo de função u(t), que contêm parámetros a serem
escolhidos de modo a minimizar a soma dos quadrados dos desvios, como no caso de figura
2.5 abixo.
Entretanto quanto mais detalhes forem incluídos, mais grosseira resulta a curva, com
protuberância de raizes de raios de curvatura muito pequenos. Uma medida sensível da
“rudeza” de curva é a Segunda derrivada u’’ (t), uma vez que a derrivada local de u(t) varia
rapidamente se a curva é muito oscilante. Isso sugere que, para escolher u(t) deve-se
minimizar a função:
Q(α) = ∑(yi – u(t1))2 + α∫-∞+∞ u’’(t)2dt

onde α representa o compromisso escolhido entre uma função bem ajustada (soma dos
quadrados dos desvios mínima) e uma função mais lisa.
Para um dado α a função u (t) que mínimiza Q(α) é uma spline cúbica que tem as seguintes
propriedades:
1. u (t) tem a primeira derrivada continua em todos os pontos;
2. u (t) é linear para t < t1 e t > tn, isto é, nas extremidades da amostra, para efeito de
continuidade;
3. u (t) é uma função cúbica de t entre cada par sucessivo de ti’s.

Draft
U (t) é relacionada a uma media móvel em que, para pontos igualmente espaçados, a
função peso é:
Wij = h-1 K{(i – j)/h},
onde h = α 0.25 e a função kernel k {. } é definida por K (u) = 0.5 exp (-|u|/2 sen (0.25 + |u| /
√2) mostrada na figura 2.6.
As figuras 2.7 mostram o efeito da aplicação do método para a mesma série da figura 2.5,
para diferentes valores de α.
14. Período-grama ou análise de Fourier

O períodograma é uma descrição da série temporal como uma superposição de ondas
senoidais de várias frequências. O valor prático deste método reside obviamente na
observação de que muitas séries exibem flutuações ciclicas em valor mas com frequências que
nem sempre são previsíveis antes que os dados sejam observados.
A expansão em séries de Fourier de uma série temporal pode ser escrita:

Yt = ∑k=1m [ak cos(ωkt) + bk sen (ωkt)] + ut
Onde ut é um ruído branco, t varia de 1 a n, o número de valores da série, e wk = 2∏k/n
ak = 2∑tyt cos(ωkt) / n
bk = 2∑tyt sen(ωkt) / n
O períodograma é dado por: I(k) = (ak2 + bk2) / 4
A intensidade de I(k) reflecte a contribuição da k-ésima compornente da série com frequência

f = k/(n ∆t) ou período T = ∆t /k, onde é o intervalo de tempo entre duas medidas
consecutivas das série.
As figures 2.16 mostram os períodogramas para as duas séries das figuras 2.4 vistas
anteriormente no item 14.3. Note-se um pico muito intenso na 6a componente. Como a
amostra tem 72 meses, T = 72 * 1/6 = 12 meses, é exactamente o período sazonal.

Draft
EXERCÍCIOS
1. Dada a série climatologica de precipitação dos meses de Julho para a cidade de
Inhambane:
a. Construa o gráfico de distribuição de frequências.
b. Construa o gráfico de frequências acumuladas.
c. Qual é a moda e a mediana.
d. Calcule a probabilidade de a precipitação do mês de Julho seja maior que 30.8
mm
Ano Prec. (mm) Ano Prec. (mm)

1973 80.1 1988 11.1
1974 60.6 1989 52.8
1975 28.3 1990 2.2
1976 21.4 1991 6.7
1977 16.0 1992 4.9
1978 55.9 1993 131.1
1979 49.7 1994 60.8
1980 30.8 1995 26.5
1981 43.9 1996 32.5
1982 35.9 1997 63.9
1983 42.6 1998 10.3
1984 76.8 1999 48.2
1985 33.2 2000 35.4
1986 11.6 2001 46.4
1987 31.4 2002 68.0

Draft
2. Dada a série climatologica de Temperaturas (°C) para uma dada estação. Verfique se a
série é homogenia o não.
Ano T (°C) Ano T (°C)

1927 16.4 1942 19.4
1928 19.9 1943 20.4
1929 17.7 1944 22.4
1930 17.7 1945 18.4
1931 15.9 1946 18.7
1932 19.8 1947 22.0
1933 19.4 1948 18.9
1934 16.9 1949 20.7
1935 17.1 1950 19.7
1936 17.5 1951 19.5
1937 18.5 1952 20.3
1938 17.6 1953 19.8
1939 18.1 1954 18.3
1940 17.4 1955 19.3
1941 17.3 1956 17.5

Métodos Estatisticos Aplicados À Clima

Hochgeladen von

Dokumentinformationen

Originalbeschreibung:

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Métodos Estatisticos Aplicados À Clima

Hochgeladen von

Copyright:

Verfügbare Formate

Draft

Universidade Eduardo Mondlane “Apontamentos de Climatologia”

I. MÉTODOS ESTATÍSTICOS APLICADOS À CLIMATOLOGIA

Tratamentos analíticos de observações individuais incluem os seguintes:

Tratamentos analíticos de observações sumarizadas incluem:

1 Autores: António Queface e Felisberto Afonso

r max = 250 mm r min = 18 mm

2 Autores: António Queface e Felisberto Afonso

Tabela 1. Precipitação (mm) do mês de Agosto, na Suiça em Genebra

Ano P Ano P Ano P

1927 250 1937 78 1947 54

1932 62 1942 48 1952 125

Tabela 2. Distribuição da frequência de Precipitação (mm) do mês de Agosto, na Suiça em

3 Autores: António Queface e Felisberto Afonso

Figura1. Histograma da precipitação do mês de Agosto na Suiça, em Genebra

Para obter a distribuição cumulativa os dados são primeiramente colocados em ordem

4 Autores: António Queface e Felisberto Afonso

mm é 1 – F = 0.710 a probabilidade de que esteja entre 62 mm e 100 mm é 0.516 – 0.290 =

O intervalo médio de recorrência ou período de retorno (isto é o intervalo de tempo médio

Aqui é interessante dividir a amostra em 2, 4 ou 10 partes iguais. Se a amostra for dividida em

Da mesma forma, se a amostra for dividida em quartis ( 4 partes), os limites definirão

5 Autores: António Queface e Felisberto Afonso

Tabela3. Distribuição cumulativa da precipitação (mm) de Agosto na Suiça, em Genebra

6 49 0.194 16 100 0.516 26 157 0.839

6 Autores: António Queface e Felisberto Afonso

As alternativas para a homogeneidade de uma série de dados climatológicos são usualmente o

paramétrico que não exija a especificação exacta destas alternativas ou da distribuição

Estes limites de 10 % de significância são satisfatórios para muitas aplicações climatológicas

8 Autores: António Queface e Felisberto Afonso

Tabela 5. Corridas das series de temperatura observadas (oC) na Suiça em Genebra

9 Autores: António Queface e Felisberto Afonso

Ano To Ano To Ano To

1927 17.4 B 1937 19.5 A 1947 22.0 A

1932 20.8 B 1942 19.9 A 1952 20.3 A

Tabela 6. Tabela de distribuição de número de corridas (U), NA = NB

NA 0.10 0.90 NA 0.10 0.90

Tabela 5. Corridas das series de temperatura (oC) heterogênea na Suiça em Genebra

10 Autores: António Queface e Felisberto Afonso

Ano To Ano To Ano To

1927 16.4 1937 18.5 1947 22.0

1932 19.8 1942 1952 20.3

5. Ajuste de medias climatológicas

Os métodos envolvem o uso de uma estação suplementar com um registro concorrente

11 Autores: António Queface e Felisberto Afonso

X é a média para o período homogêneo na estação suplementar correspondente ao período

As médias para cada período foram obtidos da tabela 7 e mostradas na tabela 8.

12 Autores: António Queface e Felisberto Afonso

Substituindo os valores homogêneos de u e v obtém-se a estimativa do factor de ajuste a =

Tabela 8. Temperatura média ajustada (oC) em Genebra, na Suiça

1927 - 1938 17.9 (17.9) 19.3*

5.2. Método da razão

Ao se testar a homogeneidade da série chega-se ao valor u = 9 corridas, do que pela tabela 6

Uma vez que heterogeneidades em series de precipitação são mudanças de escala na

13 Autores: António Queface e Felisberto Afonso

Por este princípio, se y é a Pr para um ano na estação a ser ajustada, e x é o correspondente

A constante de ajuste b é estimada pela equação

Os resultados são mostrados na tabela 10. Tomando os valores de ∑v e ∑u da tabela para o

Finalmente, somandi os valores e dividindo-se por 30 obtém-se a media:

6. Estimativas de parâmetros estatísticos

14 Autores: António Queface e Felisberto Afonso

7. Estatísticas comuns de variáveis climatológicas

15 Autores: António Queface e Felisberto Afonso