Beruflich Dokumente
Kultur Dokumente
Escrevendo um relat
orio estatstico
Um curso de analise de regressao e sempre uma primeira oportunidade para o estudante realizar uma substancial analise de dados e escrever um relatorio estatstico.
Aqui oferecemos algumas observacoes para ajudar a escrever um relatorio estatstico.
Em geral, um relatorio estatstico sobre uma analise de dados, consiste das tres
seguintes partes:
(i) Apresentacao do problema e dos dados;
(ii) Analise estatstica e;
(iii) Conclusoes.
As tres partes podem ser divididas em subsecoes, se necessario.
A aplicacao dos metodos e procedimentos estatsticos, pertencem a parte (ii). Na
parte (i) apresenta-se o problema e os dados, explicando as circusntancias sob as quais
os dados foram obtidos e principalmente a questao que a analise estatstica deve responder. Na parte (iii), os resultados da analise estatstica sao discutidos, com referencia as
circunstancias sob as quais os dados foram obtidos, respondendo, tanto quanto possvel,
a questao proposta na parte (i). Note que os itens (i) e (ii) devem ser escritos, na medida
do possvel, em uma linguagem nao estatstica, dirigida essencialmente ao pesquisador
que obteve os dados. Jargoes estatsticos, tais como teste, estimador, verossimilhanca, etc. devem, a medida do possvel, serem limitadas a` parte (ii).
Um relatorio estatistico deve ser escrito em um texto claro e fluente, tal que ele
possa ser entendido por leitores que conhecam o basico da analise estatstica de dados,
mas nao necessariamente um curso de estatstica. Somente os graficos e tabelas mais
importantes devem ser includos na parte (ii), enquanto os programas de computadores
e suas sadas devem ser colocados em um apendice. Um relatorio estatstico nao deve
consistir de uma sada de computador com anotacoes.
# paginas k n,
onde n e o n
umero de observacoes e k e o n
umero de variaveis independentes nos
dados. Entao, uma regressao linear simples com n = 25 e k = 1 raramente merece
claro, nem todo relatorio estatstico deve
um relatorio com mais de cinco paginas. E
ter este tamanho, mas se seu relatorio e mais longo do que esta regra recomenda,
tornando-o mais curto, provavelmente ainda mais evidente. Na realidade, esta regra e
muito generosa, especialmente para grandes conjuntos de dados.
An
alise dos dados do espinafre
(i) Apresenta
c
ao do problema
Os dados da Tabela 1 representam a relacao entre a porcentagem de materia seca
de espinafre fresco (x) e a porcentagem preservada de acido ascorbico apos a secagem
a 900 C (y). Os dados sao de uma investigacao sobre a preservacao de acido ascorbico
em vegetais durante a secagem e armazenagem, consequentemente a porcentagem preservada de acido ascorbico apos a secagem e escolhida como variavel resposta (y). As
questoes pertinentes a esta investigacao e se a relacao entre x e y pode ser dita linear no
intervalo de x em estudo, que varia de 6 a 15 por cento de materia seca, e qual e a magnitude do desvio da relacao linear. Alem disso, podemos perguntar como exatamente
os parametros da relacao linear foram estimados.
y
70,9
74,0
58,6
80,6
69,4
76,0
66,4
50,9
61,9
65,2
77,2
89,6
x
12,5
12,3
10,0
10,2
11,2
11,2
10,0
10,7
10,3
12,9
11,8
14,9
y
74,2
83,1
66,7
77,2
83,8
67,9
88,9
69,0
69,8
86,0
79,9
88,2
(ii) An
alise estatstica
Uma verificacao da adequacao do modelo pode ser vista nas Figuras 2 e 3, o grafico
dos resduos pelos valores ajustados e o grafico de probabilidae normal, respectivamente.
O primeiro grafico mostra que a variancia e constatnte e o segundo mostra uma boa
relacao linear, confirmando a normalidade dos resduos. Em qualquer caso, e difcil
rejeitar a normalidade com base em uma amostra de apenas 24 observacoes.
Para completar a verificacao do modelo, nos notamos que a suposicao de independencia das 24 observacoes, requer que os 24 experimentos sejam executados, em
algum sentido, separadamente, no espaco e no tempo, embora nao temos nenhuma
informacao especfica sobre este ponto aqui.
Tabela 2: Estimativa dos parametros do modelo de
regressao linear - Dados do espinafre.
Parametro
1
2
= 64, 84
g. l. = 22
As estimativas dos parametros e seus respectivos erros padroes sao dados acima na
Tabela 2. Com base nestes valores, a relacao linear estimada entre E(Y ) e x e dada por
E(Y ) = 33, 48 + 3, 85x,
com desvio padrao estimado por = 8, 05. Um intervalo de 95% de confianca para 2
e [1, 70; 6, 00]. O teste t para a hipotese 2 = 0 e
t(y) =
3, 85
= 3, 70
1, 04
com 22 graus de liberdade, o qual da um p-valor menor que 0,01. Existe, entao, uma
forte indicacao de que 2 nao e zero.
(iii) Conclus
ao
A analise estatistica mostrou que os dados podem razoavelmente serem descritos por
um modelo de regressao linear, a relacao estimada e dada por E(Y ) = 33, 48 + 3, 85x.
As estimativas dos parametros e seus respectivos erros padroes sao dados acima e nao
sao muito precisas, particularmente a estimativa do intercepto 1 . O teste estatstico
para a hipotese de que a inclinacao e zero, rejeita a hipotese. A porcentagem preservada
de acido ascorbico depende da porcentagem de materia seca do espinafre fresco, com
inclinacao entre 1,7 e 6,0 (com 96% de confianca). Portanto, a equacao E(Y ) = 33, 48+
3, 85x pode ser u
til para predizer y para um dado x, mas um desvio (erro de predicao)
em torno de 1, 96 8, 05 = 15, 77 seria esperado. Por exemplo, para x = 10, um valor
de y entre 56,21 e 87,75 e esperado com probabilidade de 95%, com um valor medio de
71,98.
Nos usamos a distribuicao normal como uma base para o intervalo de predicao.
Uma discussao mais detalhada de predicao, que sera dada mais a frente, mostra que o
intervalo de predicao correto sera baseado na distribuicao t-Student, embora o enfoque
acima esteja aproximadamente correto.
Refer
encia
Bent Jrgensen. The Theory of Linear Models. Chapman & Hall. 1993.
Secao 1.6 e Secao 1.7