Beruflich Dokumente
Kultur Dokumente
Material preparado pelo Prof. Dr. Csar Gonalves de Lima E_mail: cegdlima@usp.br
Para uso nas aulas das disciplinas: ZAB 230 - Estatstica I, ZAB 216 - Estatstica II e ZAB 050 - Utilizao de pacotes estatsticos na anlise de dados experimentais
1. INTRODUO
O MINITAB consiste de uma planilha de dados diversos comandos e subcomandos usados para executar operaes matemticas e diversas anlises estatsticas. Uma planilha pode conter: colunas de dados denotadas por C1, C2,..., constantes denotadas por K1, K2, ... matrizes numricas de dados, denotadas por M1, M2,... Na apresentao dos comandos/subcomandos, a letra E pode denotar tanto uma constante, quanto uma coluna ou matriz. Na janela principal do Minitab encontramos uma rgua que disponibiliza os grupos de comandos e subcomandos usados para manipulao de arquivos File; edio de dados Edit; manipulao de dados Manip; clculos envolvendo colunas Calc; clculos de estatsticas e de diversos tipos de anlises estatsticas Stat; contruo de grficos Graph; um editor de comandos Editor; um controlador das janelas de trabalho Window, alm de uma boa tela de auxlio Help.
As quatro janelas de trabalho so apresentadas como: Session: que usada para digitarmos os comandos e visualizarmos a sada dos resultados; Data: que a planilha de dados; History: que guarda uma cpia de todos os comandos usados numa sesso, e Info: que apresenta informaes sobre as colunas, as constantes e as matrizes definidas numa sesso.
As colunas e as constantes podem ter nomes, devendo-se evitar o uso de acentos. Por exemplo: para nomearmos a coluna C1 com o nome Tratamento, a coluna C2 com o nome Producao e a constante K2 com o nome ProducaoMedia utilizamos o seguinte comando: MTB > NAME C1 'Tratamento' C2 'Producao' K1 'ProducaoMedia' Os comandos e subcomandos podem ser digitados em letras maisculas e/ou minsculas, no havendo necessidade de entrarmos com mais do que as suas quatro primeiras letras. Por exemplo, para calcular a menor das produes e colocar o resultado em K2, podemos usar os comandos: MTB > Let K2 = Minimum(C2) ou MTB > Let K2 = Mini(C2) que os resultados sero idnticos. Ao invs do nmero da coluna C2 tambm pode ser usado o seu nome: MTB > Let K2 = Mini(Producao) Os dados da planilha podem ser digitados diretamente na planilha Data, copiados de um outro programa e colados na planilha ou lidos de arquivos j existentes. As colunas com valores numricos apresentam seus valores colados direita e as colunas com valores alfanumricos, alm de indicar essa coluna com uma letra T, apresentam seus valores colados esquerda. A seguir, apresentamos algumas informaes sobre o uso efetivo do Minitab em alguns pontos relevantes do curso de Estatstica II: a) reviso de estatstica descritiva, visando a obteno de medidas de tendncia central e de disperso, alm de grficos e tabelas;
Introduo ao uso do MINITAB
2 b) simulaes e clculo de probabilidades; c) intervalos de confiana para a mdia e para a proporo; d) testes de hipteses para a mdia de uma populao, comparao de mdias e de varincias de duas populaes; e) correlao e anlise de regresso.
Siga corretamente as instrues e tente traduzir as sadas. 1) Para visualizar os dados na tela: Manip > Display data e selecionar em Columns, constants and matrices to display, as colunas C1, C2 e C3. Como alternativa, na janela Session, entrar com: MTB > print c1 c2 c3 ou MTB > print 'Idade' 'Peso' 'Altura' 2) Para obter estatsticas descritivas das variveis: Stat > Basic Statistics > Describe Statistics... e selecionar as colunas C1, C2 e C3. Como alternativa, entrar com o comando: MTB > Desc c1 c2 c3 3) Para obter essas estatsticas para as variveis C2: Peso e C3: Altura, para cada um dos valores de C1: Idade: Stat > Basic Statistics > Describe Statistics... selecionar as colunas C2 e C3 e selecionar em By variables: a coluna C1. Como alternativa, usar: MTB > Desc c2 c3; SUBC> by c1. 4) Para construir um histograma dos dados da varivel C2: Peso: Graph > Histogram.. e escolher C2 em Graph variables. Alternativa: MTB > Histo c2
5) Para construir o histograma de C2 definindo os limites (cutpoints) das classes: Graph > Histogram... escolher C2 em Graph variables, entrar em Options..; em Type of Intervals clicar em Cutpoint; em Definition of Intervals, clicar em Midpoint/Cutpoint positions: e entrar com os valores 1.60 1.70 1.80 1.90 2.00, com espaos entre os nmeros. 6) Para visualizar a relao entre as variveis C2: Peso e C3: Altura: Graph > Plot.. e escolher C2 como Graph variables: Y e C3 como Graph variables: X. Como alternativa, usar: MTB > plot c2*c3
Introduo ao uso do MINITAB
3 7) Para construir um box-plot dos dados de C3: Altura: Graph > Boxplot.. e escolher em Graph variable: Y, a coluna C3. Ou ento, usar: MTB > boxplot C3 8) Para obter uma distribuio de freqncias da varivel discreta C1: idade: Stat > Table > Tally, escolher como Variables: a coluna C1 e marcar Counts e Percents em Display. Como alternativa, usar: MTB > Tally 'Idade'; SUBC> Counts; SUBC> Percents. 9) Para obter uma tela com diversas estatsticas descritivas, distribuio de freqncias, box-plot, teste de normalidade dos dados de C2: Peso, alm de intervalos de confiana para a mdia e para a mediana: MTB> %Describe c2 ou MTB> %Describe 'Peso'
A seguir, apresentaremos alguns detalhes de cada uma das opes deste menu. Maiores informaes sobre as opes podem ser obtidas em Help, no boto , ou usando a tecla F1, Menu Commands e Stat Menu. Basic Statistics (Stat Menu > Basic Statistics) Permite calcular diversas estatsticas descritivas, executar testes de hipteses, calcular a correlao e covarincias entre variveis numricas e testar a normalidade dos dados. Os principais comandos so: Display Descriptive Statistics: produz uma tabela com estatsticas descritivas: nmero de valores (N); mdia (Mean); mediana (Median); tri-mdia (TrMean);desvio padro (StDev); erro padro da mdia (SE Mean); menor valor (Minimum); maior valor (Maximum);1o quartil (Q1) e 3o quartil (Q3). Tambm produz grficos como o histograma (Histogram); grfico de pontos (Dotplot), boxplot (BoxPlot) e um grfico resumo (Graphical summary) com diversas estatsticas descritivas, intervalos de confiana para a mdia, mediana e desvio padro e um teste de normalidade dos dados (Anderson-Darling Normalitty Test).
Store Descriptive Statistics: calcula diversas estatsticas descritivas e grava os resultados na planilha. 1-Sample Z: calcula um Intervalo de Confiana e executa o teste de hiptese para a mdia de uma populao normal com varincia populacional conhecida (z-test). 1-Sample t: calcula um Intervalo de Confiana e executa o teste de hiptese para a mdia de uma populao normal com varincia populacional desconhecida (t-test). 2-Sample t: calcula um Intervalo de Confiana e executa o teste de hiptese para comparar as mdias de duas populaes normais (t-test) de varincias iguais ou no. Paired t: testa a diferena entre mdias quando os dados esto pareados. 1 Proportion: calcula um intervalo de confiana e executa um teste para a proporo. 2 Proportions: calcula um intervalo de confiana e executa um teste para a diferena entre duas propores. 2 Variances: executa um teste para a igualdade (homogeneidade) de varincias de duas populaes usando os testes F e de Levene. Correlation: calcula o coeficiente de correlao de Pearson entre variveis numricas e o nvel descritivo do teste H0: = 0 vs. H1: 0. Opcionalmente, grava os resultados numa matriz de correlaes. Covariance: calcula a covarincia entre variveis numricas e grava os seus valores numa matriz de covarincias. Normality Test: testa a normalidade dos dados (Testes de Anderson-Darling, Ryan-Joiner e Kolmogorov-Smirnov) e apresenta um grfico normal de probabilidades (normal probability plot).
Regression (Stat > Regression) Permite executarmos anlises de regresso simples, polinomial e mltipla com os mecanismos stepwise, forward e backward de seleo de variveis e regresso logstica. Produz grficos para anlise de resduos e ajusta alguns modelos de regresso logstica. ANOVA (Stat > ANOVA) Permite executarmos a anlise de varincia, testar a homogeneidade de varincias e gerar diversos grficos. Os principais comandos so: Oneway: executa a anlise de varincia com um fator (one way), com as respostas em uma coluna e os ndices em outra. Tambm possibilita a comparao das mdias atravs dos testes de Tukey, Dunnett etc. Oneway (Unstacked): executa a anlise de varincia para o modelo com um fator (One way), com as respostas de cada tratamento colocadas em colunas diferentes. Twoway: executa a anlise de varincia para o modelo com dois fatores (Two way) e dados balanceados. Analysis of Means: mostra um grfico de Anlise de Mdias e uma tabela resumo para dados normais, binomiais e de Poisson. Balanced ANOVA: analisa dados uni ou multivariados, balanceados, atravs de modelos mistos com fatores cruzados e hierrquicos. General Linear Model: executa a anlise de varincia para dados uni ou multivariados e desbalanceados com fatores cruzados e hierrquicos e covariveis. Executa tambm a anlise de varincia multivariada. Fully Nested ANOVA: executa a anlise de varincia para modelos hierrquicos (nested) e estima componentes de varincia para cada varivel resposta.
Balanced MANOVA: executa a anlise de varincia multivariada de delineamentos balanceados (todas as combinaes de nveis de fatores devem ter o mesmo nmero de repeties). General MANOVA: executa a anlise de varincia multivariada de delineamentos balanceados ou desbalanceados, ou que envolve covariveis. Test for Equal Variances: executa os testes F, de Bartlett e de Levene para a homogeneidade de varincias. Interval Plot...: produz um grfico de grupos de mdias com barras de erro padro ou de intervalos de confiana das mdias. Main Effects Plot: gera um grfico de mdias dos nveis dos fatores. Interactions Plot: gera um grfico da interao dos nveis dos fatores (ou matriz de grficos)
DOE (Design of Experiments) (Stat > DOE) Disponibiliza diversas opes para criao e anlise de delineamentos experimentais ortogonais. Control Charts (Stat > Control Charts) Disponibiliza diversos tipos de grficos para o controle de qualidade para dados numricos ou no. Quality Tools (Stat > Quality Tools) Disponibiliza diversas tcnicas para construo de grficos de qualidade e checa a acurcia e a preciso de um sistema de medidas. Reliability/Survival (Stat > Reliability/Survival) Disponibiliza alguns comandos para analisar dados de tempos de falha e ferramentas para estimar a variabilidade de funes que descrevem tais distribuies. Possibilita tambm a anlise de tabelas de sobrevivncia. Multivariate (Stat >Multivariate) Proporciona a execuo de anlises multivariadas, como a de Componentes Principais (PCA), Anlise de Fatores ou Fatorial, Anlise Discriminante etc. Time Series (Stat > Time Series) Disponibiliza a anlise de sries temporais e diversas tcnicas de anlise descritiva de tais conjuntos de dados. Tables (Stat > Tables) Imprime tabelas de contingncia com uma ou duas entradas para variveis associadas e executa uma anlise de Qui-quadrado. Cross Tabulation: imprime tabelas de contingncia e tabelas de estatsticas para variveis associadas. Tally: imprime tabelas de freqncia absolutas e percentuais de variveis numricas. Chisquare Test: executa a anlise de Qui-quadrado de tabelas de contingncia. Nonparametrics (Stat > Nonparametrics) Permite a execuo de diversos testes no paramtricos, como os Testes dos sinais, de Wilcoxon, Mann-Whitney, Kruskal-Wallis etc., alm da construo de intervalos de confiana para a mediana. EDA (Exploratory Data Analysis) (Stat > EDA) Disponibiliza diversas ferramentas para fazer uma anlise exploratria de dados, como os grficos de ramos e folhas (stem-and-leaf), boxplot etc. Tais mtodos so utilizados antes dos mtodos tradicionais de anlise, ou para examinar os resduos de um modelo. Tambm so teis
Introduo ao uso do MINITAB
6 para identificar observaes discrepantes e examinar a violao de suposies de modelos, como a no linearidade dos resduos ou a heterocedasticidade das varincias.
ii) Calcular a probabilidade de que a v.a. X ~ B(n = 7 e p = 0.3) assuma o valor k = 4, ou seja, calcular P(X = 4). MTB > PDF 4; SUBC> BINOMIAL 7 0.3.
COMANDO CDF (cumulative distribution function): permite calcular a probabilidade acumulada at um valor k fixado, ou seja, calcular F(k) = P(X k). Para uma distribuio binomial com n = 7 e p = 0.3, podemos calcular P(X 4) utilizando os resultados j calculados anteriormente, fazendo: P(X 4) = P(X = 0) + P(X = 1) + P(X = 2) + P(X = 3) + P(X = 4) = 0,0824 + 0,2471 + 0,3177 + 0,2269 + 0,0972 = 0,9712 Porm, este resultado pode ser obtido mais facilmente utilizando o comando CDF: MTB > CDF 4; SUBC> BINOMIAL 7 0.3.
Cumulative Distribution Function Binomial with n = 7 and p = 0.300000 x P( X <= x) 4.00 0.9712
ou seja: a probabilidade de encontrarmos at 4 sucessos, quando X ~ B(7; 0,3) igual a 0,9712. Podemos estar interessados tambm, em calcular probabilidades acumuladas para diversas distribuies associadas a variveis contnuas, como a normal, qui-quadrado, F-Snedecor, t-Student etc. Por exemplo: para calcular a probabilidade de uma varivel normal reduzida, N( = 0; 2 = 1), assumir valores iguais ou inferiores a 1, P(Z 1), usamos o comando: MTB > CDF 1; SUBC> NORMAL 0 1.
Cumulative Distribution Function Normal with mean = 0 and standard deviation = 1.00000 x P( X <= x) 1.0000 0.8413
OBS: Quando usamos uma varivel normal reduzida, no precisamos indicar quais so os valores da mdia e do desvio padro, ou seja, basta usar os comandos: MTB > CDF 1; SUBC> NORMAL. A probabilidade da varivel aleatria "X = altura dos calouros 99", que tem distribuio normal com mdia 1,70m e varincia 0,01m2 (e desvio padro 0,10m), assumir valores iguais ou inferiores a 1,85, P(X 1,85), pode ser obtida com o comando:
MTB > SUBC> CDF 1.85; NORMAL 1.70 0.10.
Cumulative Distribution Function Normal with mean = 1.70000 and standard deviation = 0.100000 x P( X <= x) 1.8500 0.9332
8 COMANDO INVCDF ( inverse cumulative distribution function): Faz o papel inverso do comando CDF, ou seja, calcula o nmero x , que deixa sua esquerda a probabilidade indicada. Deste modo, o comando:
MTB > SUBC> INVCDF 0.95; NORMAL.
Inverse Cumulative Distribution Function Normal with mean = 0 and standard deviation = 1.00000 P( X <= x) x 0.9500 1.6449
ou seja, o valor 1,6449 1,65, da normal reduzida, deixa sua esquerda uma rea igual a 95%, ou ainda: P(X 1,65) = 0,95. Outro exemplo: Qual a altura, acima da qual esto 28% dos calouros de 99?. Para tanto, basta usar o comando:
MTB > SUBC> INVCDF 0.72; NORMAL 1.70 0.10.
Inverse Cumulative Distribution Function Normal with mean = 1.70000 and standard deviation = 0.100000 P( X <= x) x 0.7200 1.7583
ou seja, abaixo de 1,76m esto 72% dos calouros 99, ou ento, acima de 1,76m esto 28% dos calouros de 99.
COMANDO RANDOM: Permite gerar amostras aleatrias de distribuies tericas associadas a variveis discretas ou contnuas. Por exemplo: estamos interessados em estudar um experimento que consiste em contar o "nmero de eleitores favorveis a um certo candidato A" numa amostra de 10 eleitores, supondo que a porcentagem de eleitores favorveis a este candidato tenha sido estimada em 0,70. (Perceba nesta descrio que a varivel envolvida tem distribuio binomial de parmetros n=10 e p=0,70). Assim os comandos:
MTB > RANDOM 15 C1; SUBC > BINOMIAL 10 0.7. MTB > PRINT C1
simulam (e mostram) os resultados de 15 experimentos binomiais com n = 10 eleitores e p = 0,70, colocando-os na coluna C1:
Data Display C1 8 7 6
Como sabemos que a mdia de uma varivel com distribuio binomial, X ~ B(n; p) igual a E(X) = np e a varincia igual a Var(X) = np(1-p), temos que E(X) = 7 e Var(X) = 2,1 (e desvio padro = 1,4491). Para verificar se a amostra representativa dessa populao, usamos: MTB > DESCRIBE C1
9
Descriptive Statistics Variable C1 Variable C1 N 15 Min 4.000 Mean 6.733 Max 8.000 Median 7.000 Q1 6.000 Tr Mean 6.846 Q3 8.000 StDev 1.223 SE Mean 0.316
e podemos perceber que a amostra representa razoavelmente bem a referida populao, j que a mdia e o desvio padro amostrais foram iguais a 6,733 e 1,2223, respectivamente. Se estivermos interessados em gerar uma amostra de tamanho n = 40 da varivel X = "pesos corporais de frangos da linhagem Hubbard, aos 42 dias de idade", sabendo-se que esta varivel tem distribuio normal N( = 1,80; 2 =0,01), usamos o comando:
MTB > SUBC> RANDOM 40 C5; NORMAL 1.80 0.10.
Data Display C5
1.88368 1.85025 1.70791 1.84269 1.60558 1.90070 1.95905 1.98492 1.74938 1.79857 1.74597 1.70512 1.77098 1.74669 1.66694 1.65488 1.82874 1.67058 1.61301 1.87760 1.74494 1.86497 1.84883 1.84342 1.75625 1.60249 1.96199 1.80105 1.61336 1.70891 1.78853 1.81543 1.84905 1.84578 1.83445 1.75199 1.71719 1.73582 1.84137 1.72964
MTB >
DESCRIBE C2
Descriptive Statistics Variable C1 Variable C1 N 40 Min 1.3367 Mean 1.7807 Max 2.1235 Median 1.7747 Q1 1.6640 Tr Mean 1.7841 Q3 1.9001 StDev 0.1770 SE Mean 0.0280
OBS: dificilmente os pesos que voc obteve utilizando esses mesmos comandos sero idnticos a esses. Lembre-se que o Minitab gera amostras aleatrias... Se estivermos interessados em arredondar para duas casas decimais os pesos dos frangos que esto em C5 e coloc-los em C6, usamos o comando round da seguinte maneira:
MTB > LET C6 = 0.01*ROUND(100*C5) MTB > PRINT C6 Data Display C3
1.88 1.71 1.85 1.85 1.90 1.83 1.80 1.84 1.75 1.86 1.85 1.61 1.65 1.96 1.74 1.80 1.74 1.82 1.84 1.67 1.60 1.72 1.75 1.88 1.79 1.71 1.75 1.76 1.75 1.98 1.61 1.71 1.85 1.77 1.84 1.83 1.96 1.67 1.61 1.73
10
COMANDO SAMPLE: Possibilita sortear amostras com ou sem reposio de alguma populao conhecida. Como exemplo, podemos utilizar os dados de peso da coluna C3 como sendo a populao da qual queremos sortear uma amostra aleatria de tamanho 10. Isto pode ser feito de duas maneiras: i) sem reposio:
MTB > SAMPLE 10 C3 C10
coloca em C10 os dez valores de C3 (peso de frangos aos 42 dias) sorteados ao acaso e sem reposio. ii) com reposio:
MTB > SUBC> SAMPLE 10 C3 C11; REPLACE.
4. INTERVALOS DE CONFIANA
O objetivo principal deste material apresentar os comandos do Minitab que podem ser usados para a construo de intervalos de confiana para a mdia () de uma populao com distribuio normal e para a proporo p de uma varivel dicotmica.
4.1. INTERVALO DE CONFIANA PARA A MDIA DE UMA POPULAO COM DISTRIBUIO NORMAL CASO 1: I.C. () quando a varincia populacional (2) conhecida Usar o caminho Stat > Basic Statistics > 1-Sample z, ou o comando ZINTERVAL:
MTB > ZINTERVAL [coeficiente de confiana] sigma Ci
Comentrios: Esse comando permite calcular o I.C.() a partir dos dados amostrais de uma varivel Ci que tem distribuio normal com desvio padro = sigma, conhecido. Se no informarmos o valor do desvio padro, o Minitab assumir sigma = 1; Se no informarmos qual o valor do coeficiente de confiana, o Minitab assumir = 95%;
Exemplo: Calcular o I.C. para a mdia das idades dos alunos de Estatstica I da turma de 1997, que tem distribuio normal e desvio padro = 1, baseado na seguinte amostra de n = 10 alunos: {19; 17; 19; 18; 17; 20; 18; 19; 20; 18}. Aps colocarmos os dados na coluna C7, usamos o comando:
MTB > NAME C7 'Idade'
11
Confidence Intervals The assumed sigma = 1.00 Variable N Idade 10 Mean 18.500 StDev 1.080 SE Mean 0.316 95.0 % CI (17.880, 19.120)
ou seja: o I.C.(; = 95%) = [17,88; 19,12] anos contem o verdadeiro valor da idade mdia dos alunos de Estatstica I, com 95% de confiana. Se quisermos um I.C.() com uma confiana = 99%, basta trocarmos no comando acima, o valor 95 por 99. CASO 2: I.C.() quando a varincia populacional (2) desconhecida Usar o caminho: Stat > Basic Statistics > 1-Sample t ou o comando TINTERVAL: MTB > TINTERVAL [coeficiente de confiana] Ci Permite calcular o I.C. para a mdia de uma varivel Ci (ou mais variveis) com distribuio normal e varincia populacional (2) desconhecida; O Minitab se incumbe de estimar a varincia, j que ela desconhecida. Exemplo: calcular o I.C. = 95%, para a mdia das idades dos alunos de Estatstica I, que tem distribuio normal, baseado na seguinte amostra de n = 10 alunos: {19; 17; 19; 18; 17; 20; 18; 19; 20; 18}. MTB > TINTERVAL 95 C1
StDev 1.080
SE Mean 0.342
Ou seja: o intervalo [17,727; 19,273] anos, contem o verdadeiro valor da mdia das idades dos alunos do curso de Estatstica I, com = 95% de confiana.
4.2. INTERVALO DE CONFIANA PARA A PROPORO (p) Para calcularmos o I.C.(p) podemos entrar com os dados numa coluna (Ci) ou indicar o tamanho da amostra e o nmero de sucessos. Exemplo: numa amostra de n = 100 elementos, temos 42 sucessos e 58 fracassos, ento devemos criar uma coluna (C8, por exemplo) com 42 nmeros 1 e 58 nmeros 0, de modo que a mdia desta coluna seja igual a 42/100 = 0.42, que coincide com a proporo de sucessos. No Minitab, isso feito com o comando:
MTB > set c8 DATA> 42(1) 58(0) DATA> end
12 CASO 1: Amostras grandes Como neste caso o intervalo de confiana baseado na distribuio normal, usar o caminho Stat > Basic Statistics > 1 Proportion... e escolher C8 em Samples in columns: e em Options marcar Use test and interval based on normal distribution, ou o comando:
MTB > POne c8; SUBC> UseZ.
resultando em:
Test and CI for One Proportion: C8
Test of p = 0.5 vs p not = 0.5 Success = 1 Variable C8 X 42 N 100 Sample p 0.420000 95.0% CI (0.323264; 0.516736) Z-Value -1.60 P-Value 0.110
e podemos afirmar que o intervalo [0,32; 0,52] contem a verdadeira proporo de sucessos com uma confiana de 99%. Note que este comando tambm executa um teste de hipteses para a proporo, cujos resultados sero comentados quando tratarmos desse assunto.
CASO 2: Amostras pequenas (usa a distribuio binomial) Em Stat > Basic Statistics > 1 Proportion... escolher C8 em Samples in columns: ou o comando: MTB > Pone c8 resultando em:
Test and CI for One Proportion: C8
Test of p = 0.5 vs p not = 0.5 Success = 1 Variable C8 X 42 N 100 Sample p 0.420000 95.0% CI (0.321986; 0.522881) Exact P-Value 0.133
OBS: Vale observar que esse intervalo tem uma amplitude maior que o do intervalo de confiana baseado na distribuio normal. Ao invs de entrarmos com os dados na coluna C8 podemos especificar em Stat > Basic Statistics > 1 Proportion... > Summarized data, o nmero de tentativas (Number of trials) igual a 100 e o nmero de sucessos (Number of successess) igual a 42. A seguir devemos escolher se o IC ser baseado na distribuio normal (Use test and interval based on normal distribution) ou no.
13
Executa o teste de hiptese: H0: = 0 vs. H1: < 0 (ou H1: 0 ou H1: > 0) quando a varincia conhecida. Se no informarmos os valores de 0 e sigma, o Minitab assume os valores 0 e 1, respectivamente. Para a hiptese alternativa H1: < 0 devemos escolher k = 1; para H1: 0, usar k = 0 e para H1: > 0, usar k = +1. Se o valor de k for omitido, o programa assume k = 0; Exemplo: Testar a hiptese de que a idade mdia dos alunos de Estatstica I igual a 18 anos, admitindo que 2 = 1, baseado na amostra de n = 10 alunos: {19; 17; 19; 18; 17; 20; 18; 19; 20; 18}. Aps digitarmos os dados na coluna C1, usamos o comando:
MTB > ZTEST 18 1 C1; SUBC> ALTERNATIVE 0.
Ou ento: Stat > Basic Statistics > 1-Sample z, escolhemos C1 em Variables, colocamos o valor 18 em Test mean, escolhemos not equal em Alternative e digitamos o valor 1.0 em Sigma. Em ambos os casos, o resultado o seguinte:
Z-Test
Test of mu = 18.000 vs mu not = 18.000 The assumed sigma = 1.00 Variable N Mean Idade 10 18.500 StDev 1.080 SE Mean 0.316 Z 1.58 P 0.11
que apresenta uma descrio das hipteses envolvidas no teste, o valor do desvio padro ( = 1), o tamanho da amostra (n = 10), o valor da mdia amostral ( x =18,50), o desvio padro amostral (s = 1,080), o erro padro da mdia (s( x ) = 0,316), o valor da estatstica Z (zcalc = 1,58) e o nvel descritivo do teste ( = P = 0,11), ou seja, para rejeitarmos H0 precisamos assumir um nvel de significncia igual ou superior a 11%.
5.2. TESTE PARA A MDIA QUANDO A VARINCIA POPULACIONAL DESCONHECIDA Usar o caminho: Stat > Basic Statistics > 1-Sample t ou o comando TTEST, cuja sintaxe :
MTB > TTEST [0] C; SUBC> ALTERNATIVE [k].
Introduo ao uso do MINITAB
14 usado quando queremos realizar um teste de hiptese para a mdia de uma populao normal e desconhecemos a varincia populacional 2. Sua sintaxe bastante similar do comando ZTEST . Exemplo: Para testar a hiptese de que idade mdia dos alunos de Estatstica I igual a 18 anos, usamos o comando:
MTB > TTest 18 C1; SUBC> Alternative 0.
Ou seguimos o caminho: Stat > Basic Statistics > 1-Sample t, escolhemos C1 em Variables, colocamos o valor 18 em Test mean e escolhemos not equal em Alternative. O resultado o seguinte:
T-Test of the Mean Test of mu = 18.000 vs mu not = 18.000 Variable Idade N 10 Mean 18.500 StDev 1.080 SE Mean 0.342 T 1.46 P 0.18
Como o valor do nvel descritivo do teste relativamente grande ( = P = 0,18), podemos assumir que os alunos de Estatstica I, em mdia, no tm idade diferente de 18 anos.
5.3. TESTE PARA A PROPORO Usar o caminho: Stat > Basic Statistics > 1 Proportion ou o comando Pone. Quando os dados j estiverem digitados em numa coluna (Ci) e utilizarmos a distribuio normal (caso de grandes amostras), devemos usar os comandos:
MTB > SUBC> SUBC> SUBC> POne Ci; Test [p]; Alternative [k]; UseZ.
Se no optarmos pela aproximao normal, devemos excluir o subcomando da ltima linha. Outra possibilidade consiste em indicarmos o nmero de elementos da amostra (Number of trials) e o nmero de casos favorveis (Number of successes) em Summarized data. Exemplo: Precisando saber se um candidato vai se reeleger como prefeito de Pirassununga, foi feita uma pesquisa com 180 eleitores, dentre os quais, 95 so favorveis reeleio. Ao nvel = 5% podemos concluir que a proporo de eleitores favorveis reeleio superior 50%? Seguimos o caminho: Stat > Basic Statistics > 1 Proportion, em Summarized data, digitamos 180 como Number of trials: e 95 em Number of successes. A seguir, em Options, indicamos em Test proportion o valor 0.50, em Alternative: greater then e usamos a opo Use test and interval based on normal distribution. Como alternativa, digitamos:
MTB > POne 180 95; SUBC> Test .50; SUBC> Alternative 1; SUBC> UseZ.
Introduo ao uso do MINITAB
15
Test and CI for One Proportion Test of p = 0.5 vs p > 0.5 Sample X N Sample p 1 95 180 0.527778
Z-Value 0.75
P-Value 0.228
e podemos concluir que a hiptese H0: p = 0,50 no deve ser rejeitada, pois o nvel descritivo do teste muito alto ( = P = 0,228), ou seja, a reeleio do candidato A no est garantida.
Ci e Cj identificam as colunas onde esto inseridos os valores amostrais das duas populaes. Se as varincias populacionais forem consideradas iguais, usamos tambm o subcomando POOLED. Se o coeficiente de confiana () for omitido, ser calculado um I.C. para a diferena entre as mdias populacionais assumindo = 95%. Exemplo: Utilizando os dados do exemplo da seo 4.1e assumindo que uma outra amostra de idades foi retirada da turma de 1998, cujos resultados foram {18; 19; 19; 19; 18; 18; 17; 18; 19; 18}, desejamos testar se as idades mdias das turmas de 1997 e 1998 podem ser consideradas iguais.
C1 1997 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 19 17 19 18 17 20 18 19 20 18
C2 1998 18 19 19 19 18 18 17 18 19 18
C3 Amostra 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2
C4 Idade 19 17 19 18 17 20 18 19 20 18 18 19 19 19 18 18 17 18 19 18
Os dados das amostras podem estar colocados em colunas diferentes (C1 e C2, respectivamente) ou empilhadas na coluna C4, mas com a coluna C3 indicando o nmero da amostra correspondente, de acordo com a figura abaixo: Para empilharmos os dados das colunas C1 (1997) e C2 (1998) na coluna C4, colocando em C3 um ndice associando o nmero da amostra, usamos o comando:
MTB > Stack (c1 c2) c4; SUBC> Subscripts c3.
Como j sabemos, antes de compararmos as mdias, devemos saber se podemos admitir que as varincias das idades das duas turmas podem ser consideradas iguais ou no. Para compararmos as varincias das duas 2 turmas, que consiste em testar H0: 1 = 2 versus 2 2 2 H1: 1 2 , usamos:
16
MTB > %Vartest C4 C3; SUBC> Confidence 95.0.
Resultando em:
Test for Equal Variances
Response Factors ConfLvl Idade Amostra 95.0000 for standard deviations N Factor Levels 10 1 10 2
Bonferroni confidence intervals Lower Sigma Upper 0.706534 1.08012 2.17499 0.441500 0.67495 1.35911 F-Test (normal distribution) Test Statistic: 2.561 P-Value : 0.177
Ou seja, pelos testes F e de Levene, a igualdade das varincias foi aceita, pois o nvel descritivo associado s estatsticas foi igual ou superior a 0,104 (valor que pode ser considerado alto!). Aps a deciso sobre a igualdade (ou no) das varincias, podemos comparar as mdias populacionais, usando o teste t-Student conveniente.
CASO 1. AS VARINCIAS POPULACIONAIS FORAM CONSIDERADAS IGUAIS Seguimos o caminho: Stat > Basic Statistics > 2-Sample t, em > Samples in different columns indicamos C1 em First e C2 em Second. A seguir escolhemos Alternative: not equal e clicamos em Assume equal variances. Alternativamente, usamos o comando:
MTB > TWOSAMPLE 95 c1 c2; SUBC> Alternative 0; SUBC> pooled.
Amostra1 Amostra2
Difference = mu Amostra 1 - mu Amostra 2 Estimate for difference: 0.200 95% CI for difference: (-0.646; 1.046) T-Test of difference = 0 (vs not =): T-Value= 0.50 P-Value= 0.626 DF= 18 Both use Pooled StDev = 0.901
Observe que so apresentados: a mdia (mean), o desvio padro (StDev) e o erro padro da mdia (SE Mean) de cada uma das amostras;
Introduo ao uso do MINITAB
17 um intervalo de confiana para a diferena das mdias, com = 95%; o valor da estatstica t-Student (T=0.50), o nvel descritivo do teste ( = P = 0.626) e o nmero de graus de liberdade (DF=18); o valor do desvio padro comum (Both use Pooled StDev) 0,901 e usado no teste porque assumimos que as varincias podem ser consideradas iguais. Como o nvel descritivo do teste foi alto ( = P = 0,63), no temos motivos para rejeitar a hiptese H0 e conclumos que as idades mdias das turmas de 1997 e 1998 so iguais. Podemos tambm realizar o teste com os dados que esto empilhados em C3 e C4, usando os comandos:
MTB > TWOT 95 C4 C3; SUBC> Alternative 0; SUBC> Pooled.
Ou usando o caminho: Stat > Basic Statistics > 2-Sample t e indicamos C4 em Samples in the column > Samples e C3 em Subscripts. A seguir escolhemos Alternative: not equal e clicamos em Assume equal variances.
CASO 2. AS VARINCIAS POPULACIONAIS FORAM CONSIDERADAS DIFERENTES Para desejamos comparar as mdias de duas populaes normalmente distribudas e com varin-cias desconhecidas e diferentes, usamos o caminho: Stat > Basic Statistics > 2-Sample t, em > Samples in different columns indicamos C1 em First e C2 em Second. A seguir escolhemos Alternative: not equal, mas no selecionamos Assume equal variances. Quando no usamos a opo Assume equal variances, o Minitab faz a comparao das mdias usando a estatstica t-Student aproximada, com nmero de graus de liberdade calculados pela frmula de Sattertwait. Alternativamente, podemos usar o comando:
MTB > TWOSAMPLE C1 C2
DF=15
Ou seja: como o nvel descritivo do teste foi alto (0,63), no temos motivos para rejeitar a hiptese H0 e ento, conclumos que as mdias dos dois grupos de idades so iguais.
18
Para fazermos a comparao de mdias proposta, precisamos criar as trs colunas de dados: C5, C6 e C7, que obtida: MTB > Let c7 = c5 - c6
C5 Com
C6 Sem
0.32 0.49 0.51 0.45 0.70 0.52 0.35 0.60
C7 D=Com-Sem
0.40 0.41 0.16 0.38 -0.03 0.41 0.45 0.15
1 2 3 4 5 6 7 8
Aps a criao da coluna C7, para testarmos H0: D = 0,10 vs H1: D > 0,10, seguimos o caminho: Stat > Basic Statistics > 1-Sample t, escolhemos C7 em Variables, colocamos o valor 0.10 em Test mean e escolhemos greater than em Alternative. Uma maneira alternativa, comsiste em entrar com o comando: MTB > ttest 0.10 C7; SUBC> alternative 1.
Resultado em:
T-Test of the Mean
Test of mu = 0.1000 vs mu > 0.1000 Variable D=COM-SEM N 8 Mean 0.2913 StDev 0.1746 SE Mean 0.0617 T 3.10 P 0.0087
Como o nvel descritivo do teste muito pequeno (p = 0.0087) rejeitamos a hiptese H0 e comclumos que a suplementao de alfafa aumenta o ganho mdio de peso de coelhos em mais de 0,10 kg. Outra alternativa de executar o teste consiste em utilizar os comandos:
MTB > Paired 'Com' 'Sem'; SUBC> Test .10; SUBC> Alternative 1.
ou o caminho: Stat > Basic Statistics > Paired t..., indicando C5 como First sample e C6 em Second sample. Resultando em:
Introduo ao uso do MINITAB
19
Paired T-Test and CI: Com; Sem
Paired T for Com - Sem N Mean Com 8 0.7837 Sem 8 0.4925 Difference 8 0.2912 StDev 0.0988 0.1240 0.1746 SE Mean 0.0349 0.0438 0.0617
95% lower bound for mean difference: 0.1743 T-Test of mean difference = 0.1 (vs > 0.1): T-Value = 3.10
P-Value = 0.009
8.1. COEFICIENTE DE CORRELAO LINEAR DE PEARSON Exemplo (da Apostila de Estatstica II) Com o objetivo de estudar a relao entre o peso mdio de coelhos ao abate (Y), em quilogramas, e o tamanho de ninhada (X), foram coletados na granja do Campus os dados apresentados a seguir.
X: Tamanho da ninhada Y: Peso mdio ao abate 4 2,125 8 1,980 6 2,270 1 2,300 7 1,880 3 2,320 7 1,860 5 2,050
C9 Peso
1 2 3 4 5 6 7 8
4 8 6 1 7 3 7 5
Para visualizarmos a possvel relao entre as variveis: Ninhada e Peso ao Abate, seguimos o caminho: Graph > Plot e em Graph variables escolhemos C9 em Y e C8 em X, por exemplo. Ou ento, digitamos:
MTB > plot C9*C8
(note que os valores da coluna C9 vo aparecer no eixo-y e os valores da coluna C8, no eixo-x)
Pode-se observar no grfico que, medida que o tamanho da ninhada aumenta, ocorre uma diminuio do peso ao abate, indicando uma correlao negativa entre as duas variveis.
20
2.35 2.25
Peso
2.15 2.05
1.95 1.85 1 2 3 4 5 6 7 8
Ninhada
Grfico de disperso dos pesos ao abate (kg) e tamanhos de ninhada de coelhos Para calcularmos o coeficiente de correlao linear de Pearson entre as colunas C8 e C9 seguimos o caminho: Stat > Basic statistics > Correlation... e escolhemos C8 e C9 como Variables. Ou ento, digitamos:
MTB > Correlation C8 C9
Pearson correlation of Ninhada and Peso = -0.776 P-Value = 0.024 confirmada a correlao negativa (0,776) entre o tamanho da ninhada e o peso ao abate. A hiptese H: (X, Y) = 0 foi rejeitada, pois o nvel descritivo do teste (P-Value= 0,024) foi pequeno. Concluimos ento que existe uma dependncia entre X: tamanho da ninhada e Y: peso ao abate de coelhos.
8.2. REGRESSO LINEAR SIMPLES Exemplo (Apostila de Estatstica II) Determinar a reta que relaciona a Absorbncia (Y) com a concentrao de nitrito (X, em mg/100ml) em amostras de mortadela. Os dados experimentais so:
X: nitrito Y: Absorbncia 0,5 0,040 1,0 0,078 2,0 0,145 3,0 0,215 4,0 0,300 5,0 0,340 6,0 0,395 7,0 0,460 8,0 0,560 9,0 0,715
Antes de realizarmos os clculos, importante visualizarmos a (possvel !) relao linear entre as variveis X: Nitrito e Y: Absorbncia. Isso pode ser feito atravs do comando:
MTB > plot C11*C10
21 Colocando os dados de X: Nitrito e Y: Absorbncia nas colunas C10 e C11, respectivamente, a anlise de regresso feita da seguinte maneira: Stat > Regression > Regression... e escolhemos C11 como Response, e C10 como Predictors. Ou ento, usamos o comando:
MTB > Regress C11 1 C10
The regression equation is Y:Absorbncia = - 0.0044 + 0.0724 X:Nitrito Predictor Constant X:Nitrit Coef -0.00439 0.072350 SE Coef 0.01975 0.003698 T -0.22 19.56
R-Sq(adj) = 97.7%
MS 0.40947 0.00107 F 382.69 P 0.000
(6) Unusual Observations Obs X:Nitrit Y:Absorb Fit SE Fit Residual 10 9.00 0.7150 0.6468 0.0194 0.0682 R denotes an observation with a large standardized residual
St Resid 2.59R
Onde podemos identificar: (1) A equao da reta ajustada: Y:Absorbncia = 0.0044 + 0.0724 X:Nitrito. (2) A estimativa do intercepto ( a = 0,00439), o seu erro padro (0,01975), o valor da estatstica para o teste H0: a = 0 vs. H1: a 0 T = 0,22 e o nvel descritivo do teste P = 0,830. (3) A estimativa da inclinao ( b = 0,072350), o seu erro padro (0,003698), o valor da estatstica para o teste H0: b = 0 vs. H1: b 0 T = 19,56 e o nvel descritivo do teste P = 0,000. (4) A estimativa do desvio padro s = 0,03271, o coeficiente de determinao (R2) R-Sq = 98,0% e o coeficiente de determinao ajustado (R2ajust) para o nmero de parmetros RSq(adj) = 97,7% (5) O quadro da anlise de varincia para a regresso, indicando que o modelo de regresso linear foi significativo (isto , explica bem o relacionamento entre Y e X), j que a fonte de variao associada ao modelo (Regression) significativa (P = 0.000) (6) Indica que a dcima observao (X = 9 e Y = 0,7150) apresenta um grande residuo padronizado, sendo uma sria candidata a outlier. Comentrios: o intercepto pode ser retirado do modelo, pois a hiptese H0: a = 0 no foi rejeitada; o coeficiente angular da reta (inclinao) no nulo, pois a hiptese H0: b = 0 foi rejeitada; o valor alto do coeficiente de determinao (R2) indica uma boa qualidade do ajuste. Para solicitarmos a construo de um grfico dos resduos do modelo em funo da varivel X: Nitrito, aps definirmos o modelo de regresso linear, vamos para Graphs > Residuals for Plots > Regular e em Residuals versus the variables: escolhemos C10. O grfico resultante sugere a no existncia de aleatoriedade dos resduos e a presena de um outlier.
22
outlier
0.05
Residual
0.00
-0.05 0 1 2 3 4 5 6 7 8 9
X:Nitrit
Se quisermos que o modelo de regresso no contenha o intercepto, fazemos: Stat > Regression > Regression..., como Response escolhemos a coluna C11 e como Predictors, a coluna C10 e em Options desmarcamos a opo Fit intercept. Ou ento, utilizamos o comando:
MTB > Regress 'Y:Absorbancia' 1 'X:Nitrito'; SUBC> NoConstant;
The regression equation is Y:Absorbancia = 0.0716 X:Nitrito Predictor Noconstant X:Nitrito S = 0.03094 Analysis of Variance Source DF Regression 1 Residual Error 9 Total 10 Unusual Observations Obs X:Nitrit Y:Absorb 10 9.00 0.71500 Coef 0.071649 SE Coef 0.001832 T 39.12 P 0.000
MS 1.4644 0.0010
F 1530.18
P 0.000
Fit 0.64484
SE Fit 0.01648
Residual 0.07016
St Resid 2.68R
Dos resultados apresentados, temos que a estimativa da inclinao da reta que passa pela origem 0,071649, um pouco inferior do modelo com intercepto (0.072350). Mais uma vez, o Minitab indica que a dcima observao candidata a valor discrepante. Sugesto: retirar este par de valores (X=9, Y=0,7150) do conjunto de dados e refazer a anlise. Como exerccio, faa isso e verifique que o problema da presena de outlier fica resolvido e as concluses sobre o modelo no se alteram.
Introduo ao uso do MINITAB
23
9. TABELAS DE CONTINGNCIA
No mdulo Stat > Tables encontramos as ferramentas para construo de tabelas, como: Cross tabulation: constri tabelas de contingncia para uma, duas ou mais variveis categricas. As suas clulas podem conter contagens, porcentagens e estatsticas descritivas tais como a mdia e o desvio padro, associadas a variveis numricas. Tambm disponibiliza o teste de Quiquadrado testar a associao de variveis. Tally: constri tabelas com freqncias absolutas, percentuais e percentuais acumuladas para os valores distintos das variveis. Chi-Squared Test: faz o teste de Quiquadrado de uma tabela de contingncia. Multiple Correspondence Analysis: executa a anlise de correspondncia para trs ou mais variveis categricas.
Para exercitar o uso de alguns desses comandos, vamos utilizar os dados da tabela com caractersticas da turma de Estatstica II de 1997.
1) Para construir uma distribuio de freqncias da varivel Idade, seguimos o caminho Stat > Tables > Tally..., selecionamos a varivel Idade e todas as opes de Display, ou digitamos:
MTB > Tally 'Idade'; SUBC> Counts; SUBC> CumCounts; SUBC> Percents; SUBC> CumPercents. Tally for Discrete Variables: Idade Idade Count CumCnt Percent CumPct 18 5 5 16.13 16.13 19 9 14 29.03 45.16 20 8 22 25.81 70.97 21 6 28 19.35 90.32 22 1 29 3.23 93.55 23 2 31 6.45 100.00 N= 31
2) Ser que a maioria dos alunos que fizeram escola pblica (2o grau) tambm fez cursinho? Para ajudar a responder essa pergunta, vamos construir uma tabela de contingncia das variveis: Escola pblica? e Cursinho? usando: Stat > Tables > Cross tabulation..., escolhendo as variveis: Escola pblica? e Cursinho? e selecionando como Display: Counts e Row percents, ou digitamos:
MTB > Table 'Escola Pblica?' 'Cursinho?'; SUBC> Counts; SUBC> RowPercents.
24
Rows: Escola Pblica? no no 10 40.00 1 16.67 11 35.48 sim 15 60.00 5 83.33 20 64.52
sim
All
onde podemos perceber que 83,33% dos alunos que fizeram o 2o em Escola Pblica precisaram fazer cursinho; dentre os alunos de escola particular, essa porcentagem cai para 60%. Para testarmos se existe alguma relao entre essas duas variveis categricas, podemos solicitar o teste de Quiquadrado para as hipteses H0: Cursinho? independente de Escola Pblica? H1: Cursinho? dependente de Escola Pblica? usando os comandos:
MTB > Table 'Escola Pblica?' 'Cursinho?'; SUBC> Chisquare.
Chi-Square = 1.151; DF = 1; P-Value = 0.283 2 cells with expected counts less than 5.0
como o nvel descritivo alto (P-value=0,283) no rejeitamos H0 e conclumos que as duas variveis classificatrias so independentes.
3) Construir uma tabela com estatsticas bsicas da varivel C4: peso, por C2: sexo e por C13: Fuma?, mais o teste de Quiquadrado para verificar se o ato fumar independe do sexo:
MTB > table c2 c13; SUBC> stats c4; SUBC> chisq.
25
Columns: Fuma? sim 3 62.333 15.373 3 3 79.000 13.077 3 All 13 57.754 8.582 13 18 80.056 15.414 18
25 6 31 70.712 70.667 70.703 17.614 15.693 17.007 25 6 31 Chi-Square = 0.199; DF = 1; P-Value = 0.656 2 cells with expected counts less than 5.0 Cell Contents -Peso:N Mean StDev Count
All
4) Para construir uma tabela com trs variveis classificatrias C2: Sexo, C10: Alojamento? e C12: Esporte?, podemos usar o comando
MTB > table c2 c10 c12
Control: Esporte? = no Rows: Sexo Columns: Alojamen no F M All 1 4 5 sim 2 1 3 All 3 5 8
Control: Esporte? = sim Rows: Sexo Columns: Alojamen no F M All 1 6 7 sim 9 7 16 All 10 13 23
Se trocarmos a ordem das colunas no comando, mudamos a disposio das variveis na tabela. Podemos tambm alterar a apresentao dos resultados na tabela, para evidenciar alguma relao ou para compactar a sada dos resultados, utilizando o subcomando layout.
Introduo ao uso do MINITAB
26 Neste mesmo exemplo, onde temos 3 variveis classificatrias, se quisermos que a tabela apresente uma varivel nas linhas e duas variveis nas colunas, devemos usar:
MTB > table c2 c10 c12; SUBC> layout 1 2.
Rows: Sexo
Se quisermos ainda, que seja apresentada a porcentagem de alunos por sexo nas diversas classes e a mdia de C14: Estatstica I, usamos:
MTB > SUBC> SUBC> SUBC> table c2 c10 c12; layout 1 2; rowpercents; mean C14.
Columns: Alojamen / Esporte? sim -------------no sim 15.38 2.9500 5.56 4.4000 9.68 3.4333 69.23 4.3667 38.89 5.6000 51.61 4.9063 All ----All 100.00 4.5846 100.00 5.0556 100.00 4.8581
Rows: Sexo
no -------------no sim F 7.69 6.0000 22.22 6.5250 16.13 6.4200 7.69 8.4000 33.33 3.5500 22.58 4.2429
All
Onde podemos notar: que a porcentagem de alunas que praticam esporte maior dentre aquelas que moram no alojamento; essa caracterstica tambm se mantm entre os alunos, mas de forma menos sensvel; dentre os alunos de ambos os sexos que no moram no alojamento, a mdia em Estatstica I foi maior entre aqueles que no praticam qualquer tipo de esporte.
27
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
A criao de uma planilha (Worksheet) com esses dados envolve a digitao dos dados em trs colunas: a primeira (C1) de nome Farelo, indicando os nveis de tratamento; a segunda (C2) de nome Repet, com o nmero da repetio dentro de cada tratamento e a terceira (C3) de nome GP, com os correspondentes ganhos de peso. Para exibir esses dados no monitor, usamos o mouse e clicamos em Manip > Display data... A seguir selecionamos as colunas C1, C2 e C3 com um clique duplo sobre seus nomes e depois clicamos em Ok. Uma forma alternativa consiste em entrar com o seguinte comando na janela Session:
MTB > print c1-c3
Descriptive Statistics Variable Farelo N Mean GP 0 5 0.62000 10 5 0.80800 20 5 0.81400 30 5 0.80200 Variable GP Farelo 0 10 20 30 Min 0.60000 0.78000 0.79000 0.79000
Resultando em:
Median 0.62000 0.80000 0.82000 0.80000 Max 0.64000 0.85000 0.83000 0.82000
28 Se quizermos calcular somente a mdia e o desvio padro de GP de cada um dos tratamentos, podemos fazer: Stat > Table > Cross Tabulation, escolher como Classification variables a coluna C1 Farelo; em Summaries escolher C2 GP como Associated variables: e marcar no Display os nomes Means e Standard deviations. Como alternativa, entramos com o comando:
MTB > table c1; SUBC> mean c3; SUBC> stdev c3.
Rows: Farelo Ganho Mean 1 0.62000 2 0.80800 3 0.81400 4 0.80200 All 0.76100 Ganho StDev 0.01581 0.02775 0.01517 0.01304 0.08540
Se quisermos testar a homogeneidade das varincias dos tratamentos, devemos clicar em Stat > ANOVA > Homogeneity of variance e a seguir, escolher em Response a coluna C3 GP e em Factors a coluna C1 Farelo. Ou ento usar o comando:
MTB > %Vartest c3 c1
O resultado consiste de um grfico com intervalos de confiana para os desvios padres dos tratamentos e os resultados dos testes de Bartlett e de Levene. Vale lembrar que podemos assumir que as varincias so iguais se o P-value (nvel descritivo do teste) for superior a 5% (mais comum!) ou a 10%.
20
30
0.00
0.05
0.10
Para fazer a anlise de varincia dos dados desse experimento, cujo delineamento o inteiramente casualizado com 5 repeties/tratamento, comparar as mdias atravs do teste de Tukey
Introduo ao uso do MINITAB
29 (= 5%) e calcular os resduos (e gravar em C5) para, posteriormente, verificarmos se os erros tm distribuio normal, devemos clicar em Stat > ANOVA > Oneway, escolher em Response a coluna C3 GP, em Factor a coluna C1 Farelo, em Comparisons a opo Tukey, family error rate: 5 e clicar no quadro Store residuals. Ou ento, entrar com o comando:
MTB > oneway c3 c1 c4; SUBC> Tukey 5.
Analysis of Variance for Ganho Source Farelo Error Total DF 3 16 19 SS 0.132900 0.005680 0.138580 (1) F 124.79 P 0.000
MS 0.044300 0.000355
Level 1 2 3 4
N 5 5 5 5
Pooled StDev =
Individual 95% CIs For Mean Based on Pooled StDev (2) ----+---------+---------+---------+-(--*-) (-*--) (-*--) (--*-) ----+---------+---------+---------+-0.630 0.700 0.770 0.840
Tukey's pairwise comparisons Family error rate = 0.0500 Individual error rate = 0.0113 Critical value = 4.05
(3)
Intervals for (column level mean) - (row level mean) 1 2 -0.22213 -0.15387 -0.22813 -0.15987 -0.21613 -0.14787 -0.04013 0.02813 -0.02813 0.04013 -0.02213 0.04613 2 3
Comentrios sobre os resultados: (1) no quadro da anlise de varincia podemos verificar a significncia do fator Farelo (p<0,0001), ou seja, podemos afirmar que existe pelo menos um efeito no nulo do fator Farelo sobre o GP, ou que pelo menos duas das mdias do fator Farelo so diferentes entre si, quanto ao GP. (2) o nmero de observaes, a mdia e o desvio padro de cada nvel do fator Farelo, alm de intervalos de confiana para as mdias, podendo-se observar que os animais que receberam os nveis 10, 20 e 30 tiveram um GP similar entre si e superior ao nvel 0 (zero). (3) resultados da comparao das mdias do fator Farelo utilizando o teste de Tukey (5%). So apresentados intervalos de confiana para a diferena entre as mdias dos diversos nveis. Diferenas significativas entre mdias podem ser identificadas nos intervalos onde os limites (inferior e superior) tm o mesmo sinal. Pode-se perceber que as comparaes envolvendo o nvel 0 so significativas e que as comparaes envolvendo outras duas mdias no so significativas. A tabela seguinte, resume esses resultados:
Introduo ao uso do MINITAB
30
Farelo 0 10 20 30
a b b b
OBSERVAO IMPORTANTE: como o fator Farelo uma varivel quantitativa, no indicado o uso de qualquer mtodo de comparao mltipla para avaliar as possveis diferenas entre as mdias desse fator. Neste caso, indicado um estudo de regresso, para estudarmos a relao entre os nveis do fator Farelo e os ganhos de peso dos animais. Com o Minitab, podemos visualizar o comportamento das respostas mdias fazendo: Stat > ANOVA > Main Effects plot.. e escolhendo C3 GP como Responses: e C1 Farelo como Factors:. Do grfico resultante pode-se perceber uma tendncia quadrtica de resposta de Y (ganho de peso) em funo de X (% de substituio por farelo bruto). Para ajustar uma equao do segundo grau, fazemos Stat > Regression > Fitted Line Plot... e escolhemos C3 GP como Response (Y) e C1 Farelo como Predictor (X) e finalmente, escolhemos Quadratic em Type of Regression Model.
O resultado um grfico de disperso com o desenho da curva ajustada, sua equao GP = 0.6282 + 0.02052 Farelo - 0.0005 Farelo**2, uma estimativa do desvio padro dos dados S = 0,0270120, o coeficiente de determinao R-Sq = 91.0 % e o coeficiente de determinao ajustado R-Sq(adj) = 90.0 %, indicando um timo ajuste do modelo. A partir da equao de regresso ajustada, podemos estimar a porcentagem de substituio de farelo que proporciona o maior ganho de peso. Para tanto, igualamos a zero a derivada primeira de GP em relao a X (Farelo): 0,02052 d (GP) = 0,02052 0,0010X = 0 X = = 20,52 dx 0,0010 e obtemos o ponto de resposta mxima Farelo = 20,52% e GP = 0,84 kg no intervalo de 28 dias.
31 Se os dados de GP dos tratamentos 0, 10, 20 e 30% estivessem digitados nas colunas C5, C6, C7 e C8, respectivamente:
C5 0% 0.60 0.62 0.61 0.64 0.63 C6 10% 0.82 0.85 0.78 0.79 0.80 C7 20% 0.79 0.83 0.82 0.81 0.82 C8 30% 0.82 0.81 0.79 0.80 0.79
1 2 3 4 5
A mesma anlise pode ser feita clicando-se em Stat > ANOVA > Oneway (Unstacked) e, a seguir, escolher em Responses (in separate columns) as colunas C5 a C8, ou entrar com o comando:
MTB > aovoneway C5-c8
Com esta opo, somente sero mostrados os quadros (1) e (2), no havendo possibilidade de se comparar os pares de mdias atravs do teste de Tukey. Para testar a normalidade dos erros podemos clicar em Stat > Basic Statistics > Normality test e a seguir escolher em Variable a coluna C5 RESI1 e em Tests for Normality, escolher um dos testes disponveis (Anderson-Darling, Ryan-Joiner ou Kolmogorov-Smirnov). O resultado do teste de Anderson-Darling permite concluir que os erros do modelo (estimados pelos resduos gravados em C5 RESI1) tm distribuio normal, pois o teste forneceu um nvel descritivo muito alto (P-Value = 0,909). Um modo mais rpido de executar esse teste consiste em usar o comando:
MTB > %NormPlot c5
Probability
.80 .50 .20 .05 .01 .001 -0.03 -0.02 -0.01 0.00 0.01 0.02 0.03 0.04
RESI1
Average: 0 StDev: 0.0172901 N: 20 Anderson-Darling Normality Test A-Squared: 0.176 P-Value: 0.909
Comentrios: a) neste tipo de anlise ainda podemos utilizar alguns grficos, como por exemplo, o dotplot e o boxplot, para avaliar a distribuio, a variabilidade, a assimetria, a presena de valores discrepantes nos dados originais, alm do histograma, normal plot etc. dos resduos para avaliar a sua distribuio. b) se a varivel que define o fator quantitativa, sempre devemos optar por uma anlise de regresso para estudar o comportamento das respostas em funo dos nveis desse fator.
Introduo ao uso do MINITAB
32 EXEMPLO 2. DELINEAMENTO INTEIRAMENTE CASUALIZADO - EXPERIMENTO FATORIAL No setor de suinocultura do Campus foi feito um estudo sobre o consumo dirio de rao, em kg/dia, em sunos no perodo de crescimento/ acabamento, envolvendo trs tipos de rao (R1: farelada; R2: granulada e R3: peletizada) e duas formas de arraoamento (A1: vontade e A2: controlada) e utilizando 4 animais/tratamento. Os dados experimentais resultantes esto apresentados na tabela abaixo: Arraoamento Rao Farelada 2.63 2.64 2.65 2.70 2.28 Controlada 2.26 2.23 2.20 Granulada 2.19 2.21 2.22 2.20 2.32 2.30 2.31 2.30 Peletizada 2.31 2.30 2.30 2.28 2.19 2.18 2.16 2.21
vontade
A planilha com os dados construda de modo similar do Exemplo 1: nas trs primeiras colunas esto as informaes sobre o tipo de rao (C1), o tipo de arraoamento (C2) e o nmero da repetio (C3); em C4 esto os dados do consumo diria de rao, em kg/dia. Uma parte da planilha est apresentada a seguir. Vale notar que a letra -T nas colunas C1 e C2 indica que elas no so numricas.
C1-T Racao Farelada Farelada Farelada Farelada Farelada Farelada Farelada Farelada C2-T C3 C4 Arracoamento Repet Consumo A vontade 1 2.63 A vontade A vontade A vontade Controlada Controlada Controlada Controlada 2 3 4 1 2 3 4
1 2 3 4 5 6 7 8
continua... Uma tabela com as mdias de consumo, por tipo de rao e tipo de arraoamento obtida com os comandos:
MTB > table c1 c2; SUBC > means c4.
33
Rows: Racao
vontad Controla Farelada Granulad Peletiza All 2.6550 2.2050 2.2975 2.3858 2.2425 2.3075 2.1850 2.2450
Rows: Arracoam
Farelada Granulad Peletiza vontad Controla All 2.6550 2.2425 2.4488 2.2050 2.3075 2.2563 2.2975 2.1850 2.2413
Para testar a homogeneidade de varincias clicamos em Stat > ANOVA > Homogeneity of variance e a seguir, escolhemos em Response a coluna C4 Consumo e em Factors as colunas C1 Racao e C2 Arracoam. Ou ento, podemos usar o comando:
MTB > %vartest c4 c1 c2
34
Da figura, podemos perceber que pelos testes de Bartlett (P-Value = 0,225) e de Levene (P-Value = 0,265) a homogeneidade das varincias foi aceita, e podemos realizar anlise de varincia. IMPORTANTE: Se a homogeneidade das varincias for rejeitada, a anlise de varincia no deve ser utilizada para comparar os tratamentos, j que isso pode interferir nos resultados finais. Solues para este problema envolvem a busca de uma transformao da varivel resposta ou o uso de mtodos de anlise no paramtricos.
A anlise de varincia do experimento fatorial 3x2 (3 tipos de rao e 2 tipos de arraoamento) em um delineamento inteiramente casualizado com r = 4 repeties, considerando os fatores de efeito fixo, feita clicando-se em Stat > ANOVA > Twoway, escolher em Response a coluna C4 Consumo, em Row factor a coluna C1 Racao, em Column factor a coluna C2 Arracoam Store, alm de clicar em Display means e Store residuals.
Individual 95% CI ----------+---------+---------+---------+(--*--) (--*--) (--*-) ----------+---------+---------+---------+2.2800 2.3400 2.4000 2.4600 Individual 95% CI ----+---------+---------+---------+------(--*--) (--*--) ----+---------+---------+---------+------2.2500 2.3000 2.3500 2.4000
Como o nmero de repeties o mesmo para todos os tratamentos, uma alternativa para realizar a anlise, consiste em utilizar a opo Balanced Anova... Escolhemos ento Stat > ANOVA > Balanced Anova...; em Responses C4 Consumo; em Model escrevemos Racao Arracoam Racao*Arracoam e em Storage marcamos Residuals. Em Options... > Display means corresponding to the terms escrevemos Racao Arracoam Racao*Arracoam. Ou ento, entramos com o comando:
MTB > anova c4 = c1 c2 c1*c2; SUBC > means c1 c2 c1*c2; SUBC > residuals c4.
35
ANOVA: Consumo versus Racao; Arracoamento Factor Racao Arracoam Type Levels Values fixed 3 Farelada Granulada Peletizada fixed 2 A vontade Controlada
MS 0.10712 0.11900 0.13382 0.00051 F 211.30 234.75 263.97 P 0.000 0.000 0.000
Analysis of Variance for Consumo Source DF SS Racao 2 0.21423 Arracoam 1 0.11900 Racao*Arracoam 2 0.26763 Error 18 0.00912 Total 23 0.61000 Means Racao Farelada Granulada Peletizada Arracoam vontade Controlada Racao Farelada Farelada Granulada Granulada Peletizada Peletizada N 8 8 8 N 12 12 Consumo 2.4488 2.2563 2.2413 Consumo 2.3858 2.2450 N 4 4 4 4 4 4
Comentrios: a interao Racao*Arracoam foi significativa (P < 0,001), indicando que o consumo dos animais que receberam um certo tipo de rao (farelada, granulada ou peletizada) depende do tipo de arraoamento ( vontade ou controlada) ou vice-e-versa. os efeitos individuais de Rao (P < 0,001) e de Arraoamento (P < 0,001) foram significativos, mas esses resultados no tem grande importncia porque a interao foi significativa. A interao pode ser melhor entendida analisando-se os grficos apropriados que so obtidos em Stat > ANOVA > Interactions plot , escolhendo a coluna C4: Consumo em Responses:, em Factors, as colunas C1: Racao e C2: Arracoam e selecionando Display full interaction plot matrix. De forma alternativa, pode-se utilizar o comando
MTB > %Interact c1 c2; SUBC> Response c4; SUBC> Full.
36
a ad el ar F
da la ro nt o
Racao
Peletizada
2.6
2.4 Granulada
Farelada
2.2
Arracoamento
Controlada
2.6
2.4
A vontade
2.2
Exemplo 3. DELINEAMENTO EM BLOCOS CASUALIZADOS E EXPERIMENTO EM PARCELAS SUBDIVIDIDAS Para estudar o efeito de trs nveis de adubao (A) e de dois espaamentos (E) na altura (em centmetros) de certo tipo de plantas, planejou-se um experimento em parcelas subdivididas num delineamento em blocos casualizados. Os tratamentos principais correspondem a trs nveis de adubao (A0, A1 e A2) e os tratamentos secundrios a dois espaamentos (E1 e E2). Os blocos (I, II, III, IV) controlam a fertilidade do solo. Os dados so apresentados a seguir: A0 Bloco I II III IV E1 58 77 38 52 E2 44 59 30 34 E1 85 90 73 77 A1 E2 59 68 45 55 E1 66 93 67 64 A2 E2 54 75 53 48
A planilha com os dados construda de modo similar dos exemplos anteriores: nas trs primeiras colunas esto as informaes sobre os nveis de adubao (C1: Adubacao), os dois espaamentos (C2: Espacamento) e os blocos (C3: Bloco); em C4 esto as alturas em centmetros (C4: Altura). Se os quadros auxiliares de totais forem necessrios para o clculo de somas de quadrados da interao entre Adubao e Espaamento, podemos utilizar os comandos
MTB > table c1 c2; SUBC> sums c4.
resultando em:
37
Tabulated Statistics
Rows: Espacame Columns: Adubacao A0 A1 A2 All E1 225.000 325.000 290.000 840.000 E2 167.000 227.000 230.000 624.000 All 392.000 552.000 520.000 1464.000 Cell Contents -Altura:Sum
Para testar a homogeneidade das varincias, podemos (verifique!) utilizar o comando: MTB > %Vartest C4 C1 C2 e, como os nveis descritivos dos testes de Bartlett (P = 0.883) e de Levene (P= 0.953) so muito altos podemos aceitar a hiptese de homogeneidade das varincias. (Verifique!!!) Para realizar a anlise de varincia deste experimento em parcelas subdivididas num delineamento em blocos casualizados, consideraremos os nveis do fator C1: Adubacao aplicados s parcelas e os nveis de C2: Espacamento, aplicados s subparcelas, ambos de efeito fixo. Para que os testes F de significncia sejam feitos corretamente, devemos considerar o fator Bloco como de efeito aleatrio. Da utilizarmos a seqncia: Stat > ANOVA > Balanced Anova... e inserimos as informaces necessrias como apresentado na figura seguinte. Em Storage marcamos Residuals e em Options... > Display means corresponding to the terms escrevemos: Adubacao Espacamento Adubacao*Espacamento. De modo alternativo, podemos entrar com o comando:
MTB > SUBC> SUBC> SUBC> anova c4 = c3 c1 c1*c3 c2 c1*c2; random c3; residuals c5; means c1 c2 c1*c2;
Resultando em:
Introduo ao uso do MINITAB
38
Vale notar que os testes de significncia da ANOVA foram realizados corretamente: para testar o efeito de Bloco e de Adubao, que esto relacionados variao entre parcelas, foi utilizado o QM da interao Bloco*Adubacao, que corresponde ao QMResiduo(a); nos demais testes relacio-nados variao entre subparcelas, foi utilizado o QM do Error, que corresponde ao QMResiduo(b). Como a interao entre os fatores Adubacao e Espacamento foi significativa, podemos estud-la atravs dos grficos apropriados: Stat > ANOVA > Interactions plot, escolhendo em Factors C1 Adubacao e C2 Espacamento, em Raw response data in: a coluna C4 Altura e clicando em Display full interaction plot matrix.
39
Se quisermos que tambm sejam calculadas as E(QM) e as estimativas dos componentes de varincias dos fatores de efeito aleatrio, que so muito teis no melhoramento animal, basta selecionarmos em Options... o item Display expected mean squares, ou incluirmos o subcomando
SUBC> EMS;
CONSIDERAES FINAIS: o MINITAB no executa testes de comparaes de mdias dos nveis de fatores envolvidos na interao Para obtermos algumas informaes sobre o comportamento das mdias dos nveis de um fator dentro dos nveis do outro fator, podemos utilizar os grficos Interactions plot..., no caso de um experimento fatorial ou em parcelas subdivididas. A opo Stat > ANOVA > Balanced ANOVA... deve ser utilizada na anlise de experimentos oneway ou de experimentos mais complexos, desde que o conjunto de dados seja balanceado (mesmo nmero de repeties). No caso de experimentos mais complexos ou desbalanceados deveremos utilizar a opo Stat > ANOVA > General Linear Model, cujos detalhes no sero apresentados nesta apostila.