0 Bewertungen0% fanden dieses Dokument nützlich (0 Abstimmungen)
601 Ansichten230 Seiten
O documento apresenta um resumo do conteúdo de um curso de estatística, abordando conceitos como probabilidade, distribuição normal, intervalo de confiança, regressão, mineração de dados e árvores de decisão. Também discute conceitos básicos como variáveis, amostragem, medidas descritivas e exemplos práticos.
O documento apresenta um resumo do conteúdo de um curso de estatística, abordando conceitos como probabilidade, distribuição normal, intervalo de confiança, regressão, mineração de dados e árvores de decisão. Também discute conceitos básicos como variáveis, amostragem, medidas descritivas e exemplos práticos.
O documento apresenta um resumo do conteúdo de um curso de estatística, abordando conceitos como probabilidade, distribuição normal, intervalo de confiança, regressão, mineração de dados e árvores de decisão. Também discute conceitos básicos como variáveis, amostragem, medidas descritivas e exemplos práticos.
2.0 PROBABILIDADE: BINOMIAL E POISSON 3.0 A DISTRIBUIO NORMAL 4.0 INTERVALO DE CONFIANA PARA A MDIA 5.0 ANLISE DE REGRESSO SIMPLES 6.0 ANLISE DE REGRESSO MLTIPLA 7.0 DATA MINING (MINERAO DE DADOS) 8.0 RVORES DE DECISO
1.0 PORQUE ESTATSTICA? A estatstica utiliza teorias e distribuies de probabilidades para entender e descrever a ocorrncia de eventos, atravs da observao direta de fenmenos ou atravs da realizao de experimentos, buscando descrever modelos matemticos que considerem a aleatoriedade e a incerteza dos resultados, estimando ou prevendo fenmenos futuros, conforme o caso. Estatstica a cincia que se ocupa de coletar, organizar, analisar e interpretar dados para que se tomem decises. A estatstica a arte de torturar os nmeros at que eles confessem. E eles sempre confessam.
Um dos pontos principais da estatstica a coleta, anlise e interpretao de dados, bem como tirar concluses sobre as caractersticas das fontes de onde estes dados foram retirados, para melhor compreender as situaes. O escritor H. G. Wells (1866-1945) disse que "no futuro, o pensamento estatstico ser to necessrio para a cidadania eficiente como saber ler e escrever." Pois bem, estamos hoje no futuro de H. G. Wells e de fato para compreendermos o mundo temos que saber estatstica! Leonard Milodnow publicou seu mais recente livro O Andar do Bbado um tratado sobre estatstica e aleatoriedade, mostrando, atravs de exemplos divertidos do cotidiano, o poder do acaso em reas da nossa vida que vo de jogar futebol, conseguir emprego e receber um diagnstico mdico. O caso do acertador aleatrio da loteria que sonhou 7 dias com o nmero 7 e a 7 X 7 = 48 que estava no final do nmero vencedor 1.1 A REGRESSO MDIA Muitas vezes elogiei entusiasticamente meus alunos por manobras areas muito bem executadas, e na vez seguinte sempre se saram pior, disse o instrutor de voo. E j gritei com eles por manobras mal executadas, e geralmente melhoraram na vez seguinte. No venha me dizer que a recompensa funciona e a punio no. Minha experincia contradiz essa ideia. Os outros instrutores concordaram. Para Kahneman, a experincia deles parecia genuna. Por outro lado, ele acreditava nos experimentos com animais que demonstravam que a recompensa funcionava melhor que a punio. Ele meditou sobre esse aparente paradoxo. E ento se deu conta: os gritos precediam a melhora, porm, ao contrrio do que parecia, no a causavam. A resposta se encontra num fenmeno chamado regresso mdia. Isto , em qualquer srie de eventos aleatrios, h uma grande probabilidade de que um acontecimento extraordinrio seja seguido, em virtude puramente do acaso, por um acontecimento mais corriqueiro.
1.2 TIPOS DE VARIVEIS E SEUS DADOS GERADOS Varivel a caracterstica de interesse que medida em cada elemento da amostra ou populao. Como o nome diz, seus valores variam de elemento para elemento. As variveis podem ter valores numricos ou no numricos. Populao um conjunto de elementos que possuem ao menos uma caracterstica comum entre si.
Variveis Quantitativas: so as caractersticas que podem ser medidas em uma escala quantitativa, ou seja, apresentam valores numricos que fazem sentido. Podem ser contnuas ou discretas. Variveis contnuas: caractersticas mensurveis que assumem valores em uma escala contnua (na reta real), para as quais valores fracionais fazem sentido. Usualmente devem ser medidas atravs de algum instrumento. Exemplos: peso (balana), altura (rgua), tempo (relgio), presso arterial, idade. Variveis discretas: caractersticas mensurveis que podem assumir apenas um nmero finito ou infinito contvel de valores e, assim, somente fazem sentido valores inteiros. Geralmente so o resultado de contagens. Exemplos: nmero de filhos, nmero de bactrias por litro de leite, nmero de cigarros fumados por dia. Variveis Qualitativas (ou categricas): so as caractersticas que no possuem valores quantitativos, mas, ao contrrio, so definidas por vrias categorias, ou seja, representam uma classificao dos indivduos. Podem ser nominais ou ordinais. Variveis nominais: no existe ordenao dentre as categorias. Exemplos: sexo, cor dos olhos, fumante/no fumante, doente/sadio. Variveis ordinais: existe uma ordenao entre as categorias. Exemplos: escolaridade (1o, 2o, 3o graus), estgio da doena (inicial, intermedirio, terminal), ms de observao (janeiro, fevereiro,..., dezembro).
Entretanto, ao se aplicar tcnicas estatsticas de anlise de dados, variveis contnuas podem ser representadas por distribuies contnuas, sendo a distribuio mais comumente utilizada a distribuio normal (em funo do teorema do limite central). E no caso das variveis discretas, nominais e ordinais, utilizam-se com mais frequncia as distribuies de dados discretos, como a distribuio Binomial e a distribuio de Poisson. 1.3 QUANTIFICANDO DADOS CONTNUOS As mtricas mais comuns de quantificao de dados contnuos so a mdia e o desvio padro. A mdia d uma medida da posio central dos dados, enquanto que o desvio padro d uma medida de disperso, isto , o quanto esses dados esto agrupados ou espalhados em torno da mdia. Observe a figura a seguir. Considere que os quadrados azuis representam pesos iguais, distribudos em uma fina rgua de metal. Agora tente encontrar o ponto de equilbrio dessas rguas. Em que posio da rgua est o ponto de equilbrio de cada rgua? Entretanto, observando esses grupos de dados, podemos facilmente concluir que eles so diferentes, apesar de todos terem o mesmo valor de mdia. E essa diferena est relacionada com o espalhamento (ou disperso) dos dados. Tomando-se como referncia o seu ponto de equilbrio foi elaborada uma forma de medir essa disperso, atravs do clculo MDIO da disperso em torno da mdia. A somatria desses desvios em torno da mdia (elevados ao quadrado) e posteriormente divididos pelo nmero de dados chamada de varincia. Ao extrair a raiz quadrada desse resultado, tm-se o desvio padro. O resumo desses clculos: Atravs desses clculos pode-se verificar que o desvio padro pode ser visualizado como uma mdia dos desvios dos dados em torno do ponto mdio dos dados. Tm-se ento a definio dessas 2 medidas de dados contnuos, concebidas de forma bastante intuitiva, para representar essas caractersticas bsicas de um determinado grupo de dados contnuos. 1.4 AMOSTRANDO DADOS CONTNUOS Uma das principais finalidades de representar dados de forma resumida poder condensar a informao de uma populao inteira em poucos valores. Esse raciocnio deu origem a amostragem, e para tal uma notao matemtica especfica foi desenvolvida, como mostrada a seguir. Basicamente utilizam-se caracteres gregos para representar todos os dados (ou populao) e algarismos romanos para representar a poro de dados que foi observada desse todo (amostra). 1.5 ESTATSTICA DESCRITIVA DE DADOS CONTNUOS A estatstica descritiva um ramo da estatstica dedicada a aplicao de vrias tcnicas que objetivam descrever e resumir um conjunto de dados. Sua diferena da estatstica inferencial, ou indutiva que a estatstica descritiva busca organizar e resumir os dados, o que pode ser encarado como o passo inicial para o entendimento das caractersticas da populao. Considerando os dados das medidas de espessura de uma pea apresentados nessa figura, pode-se obter uma estatstica descritiva completa dos dados. Como os dados apresentados so contnuos, alm de informaes referentes a sua posio e disperso, alguns indicadores relacionados com o formato da distribuio so considerados, como a Curtose e a Assimetria. 1.6 EXERCCIOS
Classifique as variveis em qualitativa (nominal ou ordinal) ou quantitativa (contnua ou discreta): i. Populao: alunos de uma Universidade. Varivel: cor dos cabelos (louro, castanho, ruivo, preto) ii. Populao: funcionrios de uma empresa. Varivel: escolaridade (E.Fund., E.Mdio, E.Sup., Ps-Grad.) iii. Populao: peas produzidas por certa mquina. Varivel: dimetro externo (2mm x 4mm ) iv. Populao: estao meteorolgica de uma cidade. Varivel: precipitao pluviomtrica, durante um ano. (250mm x 300mm ) v. Populao: Bolsa de Valores de So Paulo. Varivel: nmero de aes negociadas. (0,1,2,3,..) vi. Populao: pregos produzidos por uma mquina. Varivel: comprimento. (1,5cm x 2,8cm ) vii. Populao: aparelhos produzidos em uma linha de montagem. Varivel: nmero de defeitos por unidade. (0,1,2,3,..) Observe as variveis constantes na planilha abaixo. Em seguida, assinale a alternativa que identifica as variveis de acordo com sua classificao.
a) grau de instruo, funo, salrio, estado civil, gnero, idade, nmero de filhos, moradia. b) naturalidade, grau de instruo, funo, salrio, idade, nmero de filhos, moradia. c) naturalidade, grau de instruo, funo, salrio, estado civil, gnero, idade, moradia. d) salrio, estado civil, gnero, idade, nmero de filhos, moradia. e) naturalidade, grau de instruo, funo, estado civil, gnero, moradia.
Estatstica descritiva: Em uma Tabela anote a altura de todos os alunos da sala de aula. Em seguida faa uma Estatstica Descritiva desses dados.
2.0 PROBABILIDADE A histria da teoria das probabilidades se deu juntamente com o inicio dos jogos de cartas, dados e de roleta. Por essa razo, muitos exemplos de probabilidade so relacionados e esses tipos de jogos. Os estudos de probabilidade possibilitam o calculo da chance de ocorrncia de certo resultado especfico de um espao amostral em um evento chamado experimento aleatrio. Experimento Aleatrio aquele experimento que, quando repetido em iguais condies, podem fornecer resultados diferentes (dentro de um espao amostral), ou seja, so resultados explicados ao acaso. Espao Amostral o conjunto de todos os resultados possveis de um experimento aleatrio. 2.1 O PROBLEMA DE MONTY HALL A questo a seguir, proposta originalmente por Marilyn Vos Savant, escritora e colunista da revista Parade estadunidense, que em 9 de setembro de 1990, talvez tenha se tornado o caso mais conhecido envolvendo sua coluna. Suponha que voc esteja em um game show, e dada a voc a escolha de trs portas. Atrs de uma porta est um carro, atrs das outros, cabras. Voc escolhe uma porta, por exemplo, a No. 3. O anfitrio, que sabe o que est por trs das portas, abre a porta No. 1, que tem uma cabra. E ele pergunta: Voc quer escolher a porta No. 2? vantajoso mudar a sua escolha de porta? Marilyn Vos Savant respondeu argumentando que a seleo deve ser trocar para a porta No. 2 porque ela tem 2/3 de chance de sucesso, enquanto a porta No. 3 tem apenas 1/3. Esse clculo utiliza uma forma elementar do cmputo de probabilidade:
Esta resposta provocou cartas de milhares de leitores, quase todas argumentando que as portas No. 2 e No. 3 cada um tem uma chance igual de sucesso. Uma coluna de sequncia reafirmando sua posio serviu apenas para intensificar o debate e logo se tornou um artigo na primeira pgina do The New York Times. Entre as fileiras dos argumentos contrrios quase mil PhDs escreveram cartas, e muitos deles eram professores de matemtica e pareciam especialmente irados. Um desses, que trabalhava no Instituto de Pesquisa do Exrcito dos Estados Unidos afirmou:
Mas o fato que Marilyn estava certa, como pode ser visto no quadro a seguir. Considere que o participante sempre escolhe inicialmente a porta 2 e o apresentador abre uma das outras 2 portas, eliminando-a. A probabilidade de ganhar maior se fora dotada a estratgia de mudar de opinio.
Esse acontecimento ilustra muito bem a nossa falta de capacidade de julgar apropriadamente sobre probabilidades se no houver um entendimento claro do espao amostral, bem como a estratgia do experimento realizado.
2.2 EXEMPLO DE ESPAO AMOSTRAL E DISTRIBUIO DE PROBABILIDADES Considere o experimento de lanamento de dados de forma aleatria. Todas os possveis resultados do lanamento de 1 dado so mostrados na tabela a seguir, comas suas respectivas probabilidades. Considerando que o dado no est viciado, de se esperar que o resultado dos lanamentos resulte na seguinte distribuio de probabilidades:
2.3 O CASO DAS PROBABILIDADES METEREOLGICAS Ike: Contagem Regressiva para o Dia D um filme histrico retratando os 90 dias que antecederam a Invaso da Normandia em 4 de junho de 1944, durante a Segunda Guerra Mundial. O filme enfatiza as decises estratgicas e relaes polticas de Dwight Eisenhower, comandante supremo das foras Aliadas para batalhas europeias. Destacam-se no filme as relaes com o ento primeiro-ministro ingls Winston Churchill, com o general americano George S. Patton, com o general britnico Bernard Montgomery e com o presidente francs Charles de Gaulle. Dwight "Ike" Eisenhower interpretado por Tom Selleck e a grande qualidade do filme demonstrar o drama de um homem com o poder de colocar milhes de vidas em risco, bem como as dificuldades de organizar diferentes estratgias militares em uma mesma operao. Apesar de se ter conhecimento que as foras armadas so grandes utilizadores de estudos estatsticos, pode-se notar neste filme em particular como inmeras informaes so tratadas com muita seriedade, em funo da seriedade das suas consequncias. Destaque especial pode ser dado a cena onde o protagonista pergunta ao responsvel pelo comunicado de informaes referentes ao clima. Ao ouvir que h a uma possibilidade metereolgica, Eisenhower retruca que no pode tomar decises baseadas em possibilidades. Ele enfatiza que sejam reportadas a cada hora as probabilidades metereolgicas que o permitam decidir sobre o desembarque na Normandia, fator crucial para o sucesso da misso e da guerra. Destaque especial pode ser dado a cena onde o protagonista pergunta ao responsvel pelo comunicado de informaes referentes ao clima. Ao ouvir que h a uma possibilidade metrolgica, Eisenhower retruca que no pode tomar decises baseadas em possibilidades. Ele enfatiza que sejam reportadas a cada hora as probabilidades metrolgicas que o permitam decidir sobre o desembarque na Normandia, fator crucial para o sucesso da misso e da guerra.
2.4 QUANTIFICANDO DADOS DISCRETOS E QUALITATIVOS Frequentemente temos a necessidade de analisar dados oriundos de situaes onde os dados gerados so discretos ou qualitativos, tambm chamados de dados categricos, onde sua escala pode ser ordinal, nominal, ou simplesmente nmeros inteiros. Dados discretos podem ser representados por quantidades, bem como taxas, ndices ou probabilidades, que podem ser representadas atravs de determinadas distribuies. As distribuies comumente utilizadas para representar dados discretos so a distribuio Binomial e a distribuio de Poisson. 2.4.1 A DISTRIBUIO BINOMIAL A Distribuio Binomial uma distribuio discreta mostrando a probabilidade de um evento que pode assumir dois valores. (Exemplo: Cara ou coroa de uma moeda, PASSA/NO PASSA, produtos bons / defeituosos). As seguintes condies devem ser satisfeitas para que se aplique a distribuio binomial: 1. Experimento Bernoulli - O resultado do experimento pode assumir somente dois valores, como o lanamento de uma moeda. 2. Igualdade dos Experimentos - Uma srie de experimentos feita sob as mesmas condies. 3. Independncia dos Experimentos - O resultado de um experimento no influencia nem influenciado por outros. 4. Igualdade de Probabilidades - A probabilidade do resultado de um experimento a mesma probabilidade do mesmo resultado em qualquer outro experimento. Os parmetros da distribuio Binomial so: X = Nmero de resultados esperados aps n experimentos. (x pode assumir os valores 0, 1, 2, 3, ..., n) n = Nmero de experimentos p = probabilidade do resultado esperado de cada experimento individualmente
Exemplo: Suponha que um hospital possui um ndice de absentesmo (faltas dos funcionrios) de 5%. Qual a probabilidade de que, em uma visita surpresa, o responsvel pelo hospital encontre presentes todos os funcionrios de um grupo de 10, escolhidos aleatoriamente?
n = 10 ; x = 0 ; p = 0,0 5; P(x=0) = ?
Resposta: A probabilidade de se no encontrar nenhum funcionrio ausente de 59,87%.
Calculando o valor da probabilidade de outros valores de x temos o resultado apresentado na tabela a seguir:
De acordo com os valores apresentados acima, o grfico da distribuio de probabilidades binomial desse evento pode ser observado a seguir.:
Pode-se notar que, sendo uma distribuio discreta, no h valores de probabilidade entre os valores inteiros do eixo X. De forma alternativa, pode-se responder a pergunta: Qual a probabilidade de, nesse grupo de 10 funcionrios, ao menos 1 estar ausente? Nesse caso, procura-se a probabilidade P(x>0), que por ser uma distribuio discreta, o mesmo valor de P(x>1). Sendo P(x=0)=0,5987 pode-se encontrar P(x>0) da seguinte forma: P(x > 0) = 1 P(x=0) = 1 0,5987 = 0,4013 40,13%
Pode-se ento concluir que, ao fazer essa visita surpresa, a probabilidade de se encontrar algum funcionrio ausente, em uma amostra de 10, de aproximadamente 40%. Em estudos estatsticos, normalmente toma-se decises com base em um valor de probabilidade igual ou superior a 80%. Nesse caso, sugere-se que haja um aumento no tamanho da amostra para uma lista de 32 funcionrios, o que daria o seguinte resultado: P(x = 0) = 0,1937 P(x > 0) = 0,8063
2.4.2 A DISTRIBUIO DE POISSON A Distribuio de Poisson uma distribuio discreta mostrando a probabilidade de um nmero de ocorrncias de um evento em um intervalo. Alguns Exemplos: Nmero de clientes chegando loja, por hora; Nmero de acidentes de trnsito, por dia; Nmero de acertos de passes de um jogador, por partida; Nmero de falhas em um rolo de papel, por metro; Nmero de acidentes em uma estrada, por dia. A distribuio de Poisson se encaixa em eventos discretos que ocorrem de forma aleatria Os parmetros da distribuio de Poisson so: X = Nmero de resultados por intervalo (x pode assumir os valores 0, 1, 2, 3, ..., ) = taxa mdia de ocorrncia por intervalo. Frmula:
EXEMPLO: Esta a histria de um tcnico de um determinado processo. Em mdia, trs chamados de inspeo acontecem por dia. Baseado em um levantamento anterior, dois tcnicos podem atender a esses trs chamados. Se mais de trs chamados acontecerem em um dia, temos que considerar a opo de aumentar o nmero de tcnicos. Encontre a probabilidade de que quatro ou mais chamados por dia aconteam. x = 4 chamados = 3 chamados por dia P (x4) = ? Sendo a distribuio de Poisson uma distribuio de dados discretos, a probabilidade P(X 4) pode ser obtida da seguinte forma: P(x 4) = 1 [P(x =0) + P(x=1) + P(x=2) + P(x=3)] Atravs da equao de probabilidade de Poisson, os valores de P(X=0), P(X=1), P(X=2) e P(X=3) podem ser calculados.:
Calculando o valor da probabilidade de outros valores de x temos o resultado apresentado na tabela a seguir:
Tabela 2.2 Probabilidades de x seguindo uma distribuio de Poisson. Logo, a probabilidade de 4 ou mais chamados ocorrerem igual a: P(x 4) = 1 (0,0498 + 0,1494 + 0,2240 + 0,2240) = 0,3528 Ou seja, 35,28%
x 0 1 2 3 4 5 6 P(X=x) 0,0498 0,1494 0,224 0,224 0,168 0,1008 0,0504 O grfico mostrado na figura a seguir representa as probabilidades de Poisson para os valores de x igual a 0, 1, 2, 3, 4, 5 e 6:
2.5 EXERCCIOS
Estudo De Caso Binomial
O seu fornecedor de materiais alega que est cumprindo com as exigncias contratuais de fornecimento com uma taxa de defeito no maior que 1%. Suponha que durante uma auditoria no seu estoque, voc colha uma amostra de 20 itens, aleatoriamente. Considerando que a taxa de defeito 0,01 qual a probabilidade de que voc no encontre nenhum defeito nessa amostra de 20 itens? Estudo De Caso Poisson 01 Tubos de plstico so produzidos com a mdia de um defeito (falha) a cada 30 metros. Se os tubos so cortados em tiras de 3 metros, qual ser a proporo de tiras que contenham defeito? Estudo De Caso Poisson 02 O Problema do Enfermeiro Em um determinado hospital, os enfermeiros trabalham em turnos de 8 horas na enfermaria. Se h em mdia, 6 situaes de emergncia por dia, nos pacientes internados nessa enfermaria, e caso acontea, o enfermeiro fica em torno de 1 hora atendendo a emergncia. Quantos enfermeiros so necessrios, em qualquer turno, para que se tenha no mais que 1% de chance de uma situao de emergncia no ser atendida?
3.0 A DISTRIBUIO NORMAL Exemplo: Observamos o peso, em kg, de 1500 pessoas adultas selecionadas ao acaso em uma populao. O histograma por densidade o seguinte:
60 45 15 30 a distribuio dos valores aproximadamente simtrica em torno de 70kg; A anlise do histograma indica que: - a maioria dos valores (88%) encontra-se no intervalo (55 - 85); - existe uma pequena proporo de valores abaixo de 48kg (1,2%) e acima de 92kg (1%). Vamos definir a varivel aleatria: A curva contnua da figura denomina-se curva Normal. Como se distribuem os valores da varivel aleatria X, isto , qual a distribuio de probabilidades de X ? X: peso, em kg, de uma pessoa adulta escolhida ao acaso da populao. A distribuio normal uma das mais importantes distribuies contnuas de probabilidade pois muitos fenmenos aleatrios comportam-se de forma prxima a essa distribuio. Exemplos de dados contnuos que obedecem a uma distribuio normal so: Medies do peso de pes; Peso de uma poro de carne; Comprimento de vrios lpis; Confirmao da real quantidade de suco em uma garrafa; Tempo de realizao de uma determinada tarefa; Tempo de resposta de certo exame; Consumo de gua de certa residncia. Em todos esses casos, se espera que os valores estejam em torno de um valor central, mas admite-se certa variabilidade em torno desse valor central. Considere o seguinte exemplo: Dados do consumo de gua, em litros por dia, em uma determinada residncia. Qual a estimativa mdia de consumo por dia? Qual a faixa de consumo mnimo? Qual a faixa de consumo mximo?
Para responder essa pergunta, temos que distribuir esses valores em faixas, e para fazer essa distribuio, vamos utilizar a tcnica de distribuio que se aplica distribuio normal. Inicialmente tem-se que saber a quantidade total de dados, nesse caso 50 (n=50).
Em seguida, encontram-se os valores mximo e mnimo dessa amostra, e a amplitude, que a diferena do valor mximo pelo valor mnimo. Nesse caso os valores so: Mximo = 47 Mnimo = 6 Amplitude = 41 Ento se estima a largura de cada faixa a ser observada utilizando-se da seguinte equao: Largura de Faixa = Amplitude / raiz (n) Neste caso, a largura de cada faixa ser igual a [41/raiz(50)] = 5,80. Esse valor ser arredondado, por questes prticas, para 6. Nesse caso, tm-se ento as faixas de dados mostradas a seguir. Contando-se os valores dos dados correspondentes a cada faixa, utilizando a conveno de incluir os dados nos limites superiores das faixas, para que no haja contagem duplicada, tm-se os resultados apresentados na coluna de frequncia observada.
Nesse exemplo de cmputo dos dados em cada faixa considerando o valor do limite superior na faixa na prpria faixa, chama-se, em notao matemtica, de intervalos abertos para o valor inferior da faixa e intervalos fechados no valor superior da faixa. Com os dados resumidos da tabela do consumo de gua, pode-se montar um grfico da distribuio do consumo como apresentado a seguir.
Pode-se ento estimar que a faixa de consumo mdio entre 18 e 24 litros, que a faixa de consumo mnimo at 6 litros e que a faixa de consumo Mximo entre 42 e 48litros de gua por dia nessa residncia em particular. Analisando os dados de consumo de gua atravs de uma estatstica descritiva, obtm-se os seguintes resultados.
3.1 A DISTRIBUIO NORMAL PADRONIZADA A distribuio Normal Padronizada representa uma distribuio normal genrica, com mdia no ponto zero ( = 0) e desvio padro unitrio ( = 1). Essa distribuio utilizada para que se faam estimativas relacionadas s distribuies de dados coletados, bem como comparaes entre distribuies diferentes. A v. a. X tem distribuio normal com parmetros e 2 se sua funo densidade de probabilidade dada por
Pode ser mostrado que: 1. o valor esperado (mdia) de X ( - < < ); 2. 2 a varincia de X ( 2 > 0).
Propriedades de X~ N( ; 2 ) E(X) = (mdia ou valor esperado); Var(X) = 2 (e portanto, DP(X) = ); x= ponto de mximo de f (x); f (x) 0 quando x - e + so pontos de inflexo de f (x); a curva Normal simtrica em torno da mdia .
Considerando, atravs da estatstica descritiva obtida, os valores da mdia e desvio padro do consumo de gua como sendo 22,88 e 7,93, respectivamente, as faixas de + 1 desvio padro, +2 desvio padro e +3 desvio padro so: A Distribuio Normal Padronizada dividida em faixas, onde cada faixa tem o tamanho do desvio padro. Os estudos da distribuio normal estabeleceram a probabilidade de concentrao de resultados em cada faixa da distribuio. Essas probabilidades podem ser aplicadas a quaisquer distribuies de dados contnuos, desde que se verifique que eles obedecem s caractersticas da distribuio normal. Tomemos como exemplo os dados de consumo de gua anteriormente apresentados. Ao observar o grfico da faixa de consumo de gua, verificamos um formato muito semelhante ao formato da distribuio normal padronizada. Para ter-se certeza dessa afirmao necessrio que se faa um teste de hiptese de normalidade, mas vamos considerar que esse teste j foi feito e que os dados apresentados obedecem a uma distribuio normal. 3.2 O TEOREMA DO LIMITE CENTRAL Para muitos estatsticos como o conceito mais importante de toda a teoria estatstica o teorema do limite central, ligao entre a distribuio normal e as distribuies de amostragem, considerado como a chave da estocstica. O teorema do lime central postula que, para quase todos os tipos de populao de dados, a distribuio das mdias das amostras pode ser aproximada por uma distribuio normal, desde que o tamanho das amostras seja suficientemente grande. Consideremos um exemplo prtico do teorema do limite central a anlise de uma populao de dados, cujo formato esperado de sua distribuio o de uma distribuio uniforme. Para confirmar isso, vamos realizar alguns lanamentos de dados, digamos 200, em 20 sries de 10 lanamentos. O resultado desses lanamentos pode ser observado na tabela a seguir. Computando-se os valores dos resultados iguais a 1, 2, 3, 4, 5 e 6, temos na tabela a seguir o resumo das observaes.
Representando graficamente as propores das observaes, pode-se ver que a distribuio da quantidade dos valores observados se aproxima de uma distribuio uniforme.
Entretanto, ao avaliar a coluna representando a mdia de cada srie de 10 lanamentos, tem-se o seguinte resultado:
Desta forma, a distribuio da mdia das 20 sries de 10 lanamentos fica conforme o grfico da figura a seguir, o que notadamente se encaixa com o formato de uma distribuio normal.
3.3 O HISTOGRAMA Suas aplicaes no se encerram na observao do formato da distribuio. Utiliza- se o histograma tambm para se observar algum padro que possa dar um maior entendimento do processo que originou os dados coletados. Alguns pontos de observao mais comuns podem ser exemplificados na figura a seguir. Entretanto, para melhor se observar as caractersticas dos dados representados no histograma, um adequado ajuste de escala deve ser feito. Esse ajuste de escala depende da faixa de valores utilizada para computar as frequncias observadas. Essas faixas so tambm chamadas de intervalo de classe ou w (do termo ingls width, que significa largura). 3.4 EXERCCIOS
1. Altura dos Alunos Com os dados do Exerccio de Estatstica Descritiva da Aula 01 construa um histograma das alturas dos alunos da sala de aula. Comente os resultados. 2. Produo de Leite Os dados relacionados a seguir, referem-se a produo diria de leite de vacas da raa Holandesa obtida em duas ordenhas, em Kg.
Faa a Estatstica Descritiva e o Histograma desses dados. Comente os resultados.
3. Tanques de leo Os dados que seguem (j ordenados) referem-se tonelagem (em milhares de toneladas) de grandes tanques de leo.
a. Construa uma tabela de frequncias (absolutas, relativas e acumuladas) para esses dados utilizando sete classes e intervalo constante. b. Represente graficamente o conjunto de frequncias relativas. c. Indique no grfico o local aproximado da mediana e da moda.
4.0 INTERVALO DE CONFIANA PARA A MDIA DA POPULAO Estimar qual a mdia da populao com base na mdia da amostragem um dos problemas mais comuns na estatstica inferencial. O fato de isso ser um problema corriqueiro e importante pode ser evidenciado por alguns dos cenrios apresentados a seguir, onde a obteno do valor mdio da populao pode ser invivel (por razes de custo ou tempo) ou at mesmo por ser impossvel. a) O gerente regional de uma rede de lojas necessita saber qual o tempo mdio de permanncia dos clientes nas filas dos caixas aps ter instalado um novo sistema de cdigo de barras nos produtos. b) Uma empresa area gostaria de saber qual o tempo mdio de vida dos trens de pouso das aeronaves de sua frota. c) Uma empresa preocupada com o nvel de estresse dos seus funcionrios quer estimar qual a presso sangunea mdia deles. d) O departamento de trnsito gostaria de estimar o trfego mdio em um determinado horrio (em nmero de carros) de um importante cruzamento da cidade. e) Um gerente de frota de veculos de uma empresa de transporte coletivo gostaria de estimar o consumo mdio de gasolina dos nibus de sua frota. f) Um hospital particular gostaria de estimar a proporo mdia de atrasos nas cobranas em funo de erros do seu pessoal interno. g) Uma empresa de software gostaria de estimar o nmero mdio de desvios a cada 1000 linhas de cdigo de programa. Vamos ilustrar agora como dados amostrados podem ser utilizados para estimar a mdia da populao. Consideremos o cenrio do supermercado apresentado anteriormente. Atravs de uma amostra aleatria de 36 clientes e do registro do tempo que permaneceram no caixa do supermercado, temos os dados presentados na tabela a seguir. Desses dados amostrados ns gostaramos de estimar a mdia da populao (), isto , a verdadeira, mas desconhecida, mdia de tempo de permanncia no caixa de todos os clientes. A mdia da amostra desses dados = 14 minutos, e certamente pode ser utilizada para se estimar a mdia . Este tipo de estimativa chamado de estimativa de ponto, porque um simples nmero utilizado para a estimativa. Com o conceito de distribuio da mdia das amostras do teorema do limite central, podemos quantificar o erro associado com a essa estimativa. Isso pode ser feito atravs do desenvolvimento de um mtodo chamado de estimativa de intervalo para a mdia da populao. O teorema do limite central postula que a distribuio de onde foi obtida a mdia = 14 minutos um cenrio de uma distribuio normal. Ento, a mdia da populao est no centro dessa distribuio, apesar de no sabermos o seu valor
Dessa forma, intuitivamente foi estabelecida seguinte equao: = erro Onde esse erro, depende de algumas consideraes estatsticas. Aps algum desenvolvimento matemtico com base na distribuio normal padronizada, tambm chamada de distribuio Z, esse erro foi estabelecido como sendo: erro = Z . ( /) Onde Z um valor padronizado em funo do nvel de confiana (chamado ) na estimativa, o desvio padro e n o tamanho da amostra. Essa estimativa de erro considera que o desvio padro da populao conhecido, entretanto, se o tamanho da amostra n maior ou igual a 30, pode-se utilizar o desvio padro da amostra como estimativa do desvio padro da populao. A tabela a seguir mostra os valores de Z mais utilizados para a estimativa de intervalo, em funo do nvel de confiana .
Estimativas de intervalo normalmente utilizam um desses nveis de confiana para . Caso seja necessrio um nvel de confiana diferente desses valores apresentados, deve ser consultada uma tabela detalhada dos valores e Z.
Desta forma, considerando os 36 dados de minutos de permanncia dos clientes no caixa do supermercado, um valor de 95% de confiana, e considerando = 5,0 como o desvio padro conhecido da populao, pode ser feita a seguinte estimativa de intervalo: = Z . ( /) = 14 1,96 . ( 5,0 /36) = 14 1,63 Dessa forma, podemos afirmar que a mdia da populao est entre o seguinte intervalo, com uma probabilidade de 95% = 12,37 < < 15,63 Sabendo que o estabelecimento de uma probabilidade envolve variveis aleatrias, e um valor desconhecido, no uma varivel, os estatsticos preferem utilizar o termo confiana ao invs de probabilidade. Dessa forma, a declarao que pode ser feita nesse caso :
4.2 INTERVALO DE CONFIANA PARA A MDIA DA POPULAO ( DESCONHECIDO) O clculo do intervalo de confiana para a mdia da populao considerando o desvio padro da populao desconhecido, difere ligeiramente da condio anterior, com a substituio da distribuio Z pela distribuio t-student, conforme mostrado na equao a seguir. = t (n-1 , /2) . ( s /) onde s o desvio padro da amostra, e t o valor da distribuio t-student determinado em funo do grau de liberdade (n-1) e do risco (/2) estabelecido para o teste. Considerando o mesmo exemplo da seo anterior, o clculo do intervalo de confiana fica da seguinte forma:
t (36-1 , 0.05/2) = 2,34 (valor obtido de uma tabela ou software estatstico) S = 4,2 = 14 2,34 . ( 4,2 /36) = 14 1,64
Dessa forma, podemos afirmar que a mdia da populao est entre o seguinte intervalo, com uma probabilidade de 95%.
12,36 < < 15,64 4.3 INTERVALO DE CONFIANA PARA A PROPORO DA POPULAO Na seo anterior foi apresentada uma estratgia para se determinar estimativas da mdia de uma populao de dados contnuos. Quando os dados so discretos h interesse em estimativas da proporo da populao, com base na proporo p da amostra, pode-se utilizar a seguinte equao alternativa.
Onde p a proporo da amostra e n o tamanho da amostra. Essa equao pode ser utilizada se n for suficientemente grande. Em termos prticos pode se considerar atravs da verificao se n.p > 5 e n(1-p) > 5.
Considere o seguinte exemplo. Nas proximidades de uma eleio, certa empresa de pesquisa de opinio entrevistou 2.400 eleitores de forma aleatria e perguntou sobre as preferncias de voto, sendo computados 42% de inteno de votar no candidato que estava atualmente no cargo. Calcule, com um nvel de confiana de 95%, qual o intervalo de confiana para a verdadeira, mas desconhecida, proporo de votos que esse candidato pode ter.
Resposta: Sendo p = 0,42 ; n = 2.400 e Z = 1,96, pode- se calcular
4.4 TESTE DE HIPTESES Uma hiptese estatstica uma afirmao sobre algum estado real da natureza que no completamente compreendido. Alguns exemplos podem ser: a) A mdia de consumo de combustvel difere em funo do uso do tipo de combustvel A ou B; b) O tipo de analgsico determina a quantidade de alvio dor; c) A probabilidade de morte em acidentes de carro difere, dependendo se os passageiros utilizam cinto de segurana ou no; d) A filtragem de elementos txicos melhor se utilizar o mtodo 1 ao invs do mtodo 2; e) A variabilidade na espessura da pea depende do tipo de ferramenta utilizada; f) Estudantes oriundos de regies urbanas tem melhor desempenho na escola que estudantes oriundos de regies rurais; g) A fora de compresso de um determinado tipo de concreto est dentro das especificaes; h) A qualidade do produto depende do fornecedor de matria prima; Uma hiptese a ser testada consiste de duas afirmaes complementares sobre um estado real da natureza. Por exemplo, para um dado processo de medio de tempo de resposta de um grupo de alunos, as seguintes hipteses podem ser estabelecidas: Ho = O tempo mdio de resposta dos alunos igual a 20 minutos. H1 = O tempo mdio de resposta dos alunos no igual a 20 minutos. Essas duas afirmaes complementares so definidas como hiptese nula (Ho) e hiptese alternativa (H1). Como o estado real da natureza raramente conhecido com 100% de certeza, essas duas afirmaes podem ser argumentadas e testadas. Uma analogia ao teste de hipteses pode ser feita com o sistema legal onde um acusado em julgamento pressuposto inocente at que os acusadores apresentem evidencias irrefutveis que convenam o contrrio. Nesse exemplo, as hipteses a serem testadas so: Ho = O ru inocente. H1 = O ru culpado. Independente da concluso do jri, eles nunca realmente tem certeza sobre o estado real da natureza. Concluir Ho: O ru inocente no significa que o ru de fato inocente. Uma concluso Ho simplesmente significa que no se tem evidencias suficientes para justificar sua condenao. Por outro lado, concluir H1 no prova que ele culpado, ao invs disso, implica somente que as evidencias so irrefutveis e d ao jri certo nvel de confiana em declarar o ru como culpado. Considerando que os vereditos so dados com menos de 100% de certeza, h uma probabilidade de erro em qualquer uma das duas concluses. Considere a tabela a seguir, a probabilidade de cometer um erro Tipo I definida como (0 < < 1) e a probabilidade de cometer um erro Tipo II definida como (0 < < 1).
No exemplo do julgamento, , a probabilidade de condenar uma pessoa inocente (erro Tipo I) a maior preocupao. Para minimizar o risco desse tipo de concluses errneas, o sistema penal sempre requer evidencias irrefutveis para concluir H1. Embora a minimizao de tenha as suas vantagens, claro que buscar evidncias irrefutveis para se concluir H1 pode aumentar o risco , a probabilidade do erro Tipo II. Para resolver esse dilema, as hipteses estatsticas foram concebidas de forma que:
i. A deciso mais crtica a que leva ao erro Tipo I; ii. ajustado em um nvel mnimo, usualmente 5%, 1%, ou 0,1% dependendo do quo critica a deciso associada ao erro (por exemplo, em reas acadmicas ou sociais normalmente se utiliza 5%, enquanto que em hospitais ou reas mais crticas, utiliza-se 1% ou 0,1%); iii. Baseado nos itens acima, a afirmao a ser testada fica com um nvel de confiana mnimo de (100% - ) com relao a Ho; iv. A natureza de muitos testes estatsticos requer igualdade de condies em H1; v. Minimizar enquanto se mantm constante requer aumento nos tamanhos das amostras.
De forma geral, os testes de hipteses podem ser agrupados em 3 tipos, testes de valores contnuos, testes de valores discretos e testes no paramtricos. 4.5 TESTES DE VALORES CONTNUOS Considerando novamente o cenrio postulado pelo teorema do limite central, os testes de valores contnuos levam em considerao os parmetros relacionados com a distribuio normal, a saber, a mdia e o desvio padro. Por esse motivo sero abordados testes de hipteses relacionados com esses dois parmetros, considerando condies de testes com uma e com duas amostras. 4.5.1 TESTE DA MDIA DA POPULAO COM 1 AMOSTRA Para testar se a mdia de uma populao difere de um valor especfico o, vamos conduzir um teste de uma amostra bicaudal atravs de um exemplo. O tempo de concluso de uma determinada atividade era de 16 horas (o) no passado (desvio padro = 0.5). Como preparativo para a introduo de um novo sistema, uma reviso completa foi feita nos procedimentos dessa atividade. Por fim, realizou-se um teste piloto durante algumas semanas aps essa reviso. O resultado pode ser visto abaixo. Voc pode ver se houveram melhorias?
No caso deste exemplo, P (0,0023) < R (0,025), pode-se dizer que a mdia aps a reviso dos procedimentos menor que a mdia histrica. Ou comparando com os valores de Z na curva normal Padronizada:
Como Zo 2,93 est na regio azul do grfico acima, rejeita-se Ho e aceita-se H1. Pode-se dizer que a mdia aps a reviso dos procedimentos menor que a mdia histrica.
-1,96 0 No-Rejeitar H 0 Rejeitar H 0
/2 Rejeitar H 0
/2 +1,96 4.5.2 TESTE DA MDIA DA POPULAO COM 2 AMOSTRAS Para testar se a mdia de 2 populaes so diferentes, a nica diferena no passo 3 anteriormente descrito, referente ao clculo do valor Zo, e ser explicado atravs de um exemplo a seguir: Para aumentar a vazo do processo, a empresa mudou alguns ajustes dos parmetros. Em seguida a essa mudana, a vazo aumentou de uma mdia 1,3 litros/seg. e desvio padro 0,2litros/seg. para uma mdia de 1,5 litros/seg. e desvio padro 0,1 litros/seg. Esta mudana em funo da mudana nos parmetros ou mera variao no processo? 4.6 TESTES DE VALORES DISCRETOS Para testar valores discretos, utiliza-se o mesmo procedimento dos testes de valores contnuos, entretanto o clculo do valor Z feito da seguinte forma:
4.7 EXERCCIOS 1- O valor mdio nacional do leo lubrificante R$ 6,00 (com desvio padro de 50 centavos). Voc suspeitou que o preo do leo lubrificante em sua regio maior que a mdia de preos nacional. Ento, voc coletou amostras de 20 lojas em sua regio e encontrou uma mdia de R$ 6,20 (com desvio padro de cinquenta e cinco centavos). Decida se pode afirmar que o preo do leo lubrificante em sua regio mais caro que a mdia nacional.
2- Os laboratrios A e B foram examinados e suas condies de anlise foram remodeladas para evitar problemas ocasionados por variaes em seus resultados de anlise. Aps isso, voc conduziu uma anlise nos dois laboratrios utilizando 10 amostras padro, com o resultado mostrado na tabela abaixo. Se no houver uma diferena significativa na mdia dos valores analisados voc pode considerar como padro essas condies de anlise. Considere que os dados possuem a dmenso de mg/100 ml.
3- Pesquisas anteriores apontaram que 30% dos colaboradores estavam satisfeitos. Uma campanha foi feita para aumentar esse ndice de satisfao, seguida por uma nova pesquisa feita em 50 colaboradores escolhidos aleatoriamente. Esta pesquisa revelou que 20 desses colaboradores estavam satisfeitos. Comente sobre o resultado da campanha.
5.0 ANLISE DE REGRESSO
5.1 Exemplo de Regresso Linear Simples Observe os 16 pontos no grfico mostrado a seguir e desenhe uma linha reta que corresponda ao que voc acredita ser a linha que melhor representa esses dados (isto , desenhe uma linha de regresso atravs desses pontos). A equao que representa esta linha de regresso tem o formato de = bo + b1x. O valor de bo pode ser obtido se a linha for extendida at o ponto que intercepta o eixo y, onde bo corresponde ao valor resultante dessa interseo. J o valor de b1 a inclinao da reta. Para encontrar b1, obtenha os valores de y quando x for igual a 0 e 10, respectivamente. Subtraia o segundo valor de y do primeiro. A diferena chamada de y. O clculo de x ser 10 0 = 10. Agora encontre y/x. Quando terminar, voc ter encontrado os valores de b1 e bo. Substitua os valores nos quadrados a seguir, e voc ter a equao de regresso de y.
Voc pode querer comparar a sua soluo com as dos outros colegas de classe. Se voc fizer isso, muito provvel que encontre diferentes solues provenientes das outras pessoas. Essas comparaes mostram a diversidade de opinies a respeito de como essa linha deve ser desenhada e, portanto, a diversidade de combinaes de bo e b1. y x natural perguntar, qual a melhor linha? Ou talvez, h uma melhor linha?. Enquanto opinies so permitidas, devemos ter algum critrio para definir uma melhor linha. H um mtodo chamado de mtodo dos mnimos quadrados que o mais aceito como padro para encontrar a melhor equao que encaixa esses dados. Este mtodo tambm capaz de ser aplicado em dados que possuam mais de uma varivel independente (por exemplo, = bo + b1x + b2x). Ele fornece formas de julgar o qual bem foram estimados os coeficientes do modelo real, alm de fornecer caractersticas de previso. Matematicamente, a obteno dos valores de bo e b1 atravs do mtodo dos mnimos quadrados resulta nas seguintes equaes: Atravs dos dados originais, podemos obter os seguintes resultados: Esses coeficientes obtidos atravs da equao apresentada e dos clculos da tabela se aproximam dos valores estimados de olho que foram feitos anteriormente, mas no so exatamente iguais. Dessa forma, precisamos utilizar mtodos estatsticos de modelagem como estes da regresso linear simples e mnimos quadrados para podermos, de forma consistente, analisar dados amostrados. 5.2 A ANLISE DE REGRESSO Considere o cenrio da medio do rendimento de determinado processo em 4diferentes nveis de temperatura: 70, 80, 90 e 100 graus Celsius. Assuma que o nosso objetivo desenvolver um modelo que permita estimar a resposta em nveis diferentes dos mencionados acima, bem como estar aptos a determinar intervalos com relao a essas estimativas. Ns tambm desejamos medir a efetividade desse modelo. A tcnica chamada Regresso Linear Simples possibilita alcanar esses objetivos. Assumindo que foram coletados trs valores de resposta, ou observaes, para cada um dos quatro ajustes de temperaturas, conforme os dados mostrados na tabela a seguir, um grfico representado a relao da temperatura com o rendimento pode ser construdo. Neste grfico, o segmento de reta construda a olho ou a mo livre representa a linha de regresso. A proximidade de todas as observaes com a linha indica a preciso da previso dos valores de y para uma dada temperatura. O ponto chave da localizao da linha que ela fique num lugar que minimize a sua distncia das observaes. Utilizando a frmula de uma funo linear [f(x) = bo + b1x] onde bo representa o ponto de interseo com o eixo y e b1 representa a inclinao da reta, podemos estimar o valor de bo graficamente como zero, simplesmente observando o grfico. O valor da inclinao pode ser estimado atravs da medio da mudana de y (y) para alguma mudana especifica de x (x), isto ,
Ento, a linha de regresso construda a mo pode tomar a seguinte forma, y = 0,035x. Considerando que todas as observaes no ficam nessa linha, obviamente h certo erro em nossa linha estimada. Para incorporar esse erro na formula de previso de y, vamos considerar:
Para incorporar esse erro na formula de previso de y, para um valor qualquer de x, pode-se utilizar a equao y = bo + b1x, + , onde representa o erro, que tipicamente considerado como normalmente distribudo em torno de zero. Considera-se tambm que tem igual variabilidade para todos os valores de x, dessa forma pode-se dizer que o erro independente. O modelo matemtico y = bo + b1x, + aplicvel aos dados da populao, isto , todos os possveis valores de x e y. A real equao de regresso desse modelo pode ser representada por E(y) = o + 1x. Porm o e 1 so parmetros desconhecidos da populao. Ento, a real equao de regresso desconhecida. Dados coletados atravs de experimentao e de processos controlados so dados amostrados (um subconjunto da populao), e desta forma, utiliza-se de como aproximao da equao real. Isto , , bo e b1 so estimativas de E(y) , o e 1 respectivamente. Adicionalmente, ei chamado de i-simo resduo estimado do i. Esses termos so representados no grfico da figura a seguir, onde se utiliza i associado com a i- sima observao.
Elevando ao quadrado cada um dos lados dessa equao e somando todas as observaes, aps algumas manipulaes, resulta na seguinte equao:
SSE e SSR so representados pelas equaes:
Desta forma, em notao abreviada tem-se que
5.3 O COEFICIENTE DE CORRELAO Uma forma de medir a fora da relao linear entre y e x o coeficiente de correlao, cuja representao matemtica se d por:
Para o exemplo apresentado na primeira sesso desse captulo (Tabela 5.1), temos:
O valor de R limitado ao intervalo [-1,+1], onde -1 indica uma correlao negativa perfeita e +1 indica uma correlao positiva perfeita. Zero indica que no h correlao linear entre y e x. Para a Regresso Linear Simples, o sinal de R ser o mesmo do valor b (que representa a inclinao da reta). A frmula para R mostrada acima chamada de frmula do coeficiente de correlao da amostra. Quando |R| > 0,7 pode-se dizer que h uma correlao relativamente forte entre x e y. 5.4 O COEFICIENTE DE DETERMINAO Por outro lado, uma forma mais apropriada de medir a relao entre x e y pode ser atravs de uma interpretao com base na variabilidade entre eles e do clculo do coeficiente de determinao, denominado R2. A proporo da variabilidade em y que explicada pelo relacionamento dos valores de y com os valores de x medida pelo R2. Para entender o significado de R2, considere a equao anteriormente estabelecida, SST = SSR + SSE. Se ambos os lados dessa equao forem divididos por SST, se obtm: Como SST representa a soma quadrtica total, o termo SSE/SST representa a proporo da variabilidade total dada pelos pontos ao longo da linha de regresso, e SSR/SST representa a proporo da variabilidade total que pode ser explicada utilizando a linha de regresso, ao invs da linha horizontal , para prever os valores de y. Utilizando um pouco de lgebra, pode ser mostrado que:
No exemplo da Tabela 5.1 o valor de R igual a 0,64. Isso indica que 64% da variabilidade de y pode ser explicada atravs da relao linear de y com x. A fora dessa relao linear entre essas duas variveis est diretamente relacionada com a poro de variabilidade em y que pode ser computada como em funo de x. 5.4.1 TESTANDO AS HIPTESES DE R2
Considerando que R2 computado de dados amostrados, ele apenas uma estimativa de R2, a verdadeira (mas desconhecida) fora da relao linear entre x e y ao longo de todas as suas populaes. Nesse sentido, ns pretendemos testar o valor de R2 para garantir que ele significativamente diferente de zero. Para tal, vamos formular as seguintes hipteses: Ho: R2 = 0 (hiptese nula) H1: R2 0 (hiptese alternativa) No caso da regresso linear simples, testar equivalente a testar o parmetro da inclinao da curva, no caso 1. E de forma alternativa, o teste de hipteses ficaria da seguinte forma: Ho: 1 = 0 (hiptese nula) H1: 1 0 (hiptese alternativa) Em qualquer um dos casos, concluir Ho implica que os dados amostrados no fornecem evidncias para indicar uma relao linear significativa entre y e x. Concluir H1 indica a presena de uma relao linear significativa com (1 - p)100% de confiana. Alguns softwares estatsticos j fornecem esse valor de p sem a necessidade de nenhum clculo adicional, como o caso do software STATISTICA.
5.5 EXERCCIOS
1. Relacionando Altura e Peso: Dadas as seguintes alturas (x) e pesos (y) de 12 homens, de acordo com a seguinte tabela, construa um grfico de correlao dos dados relacionando x e y. Encontre os valores de bo e b1. Construa a equao de regresso linear representando x e y. ( = bo + b1x.)
2. Custos versus Produo Uma amostra de um determinado grupo de empresas trouxe os seguintes dados:
a) Construa o grfico de correlao entre essas duas variveis. b) Determine a equao de regresso linear. c) Encontre o coeficiente de determinao.
3. Poluio versus Chuva : Para estudar a poluio de um rio, um cientista mediu a concentrao de um determinado composto orgnico (Y) e a precipitao pluviomtrica na semana anterior (X), resumindo sua amostra de acordo com a tabela a seguir:
a) Construa o grfico de correlao entre essas duas variveis. b) Determine a equao de regresso linear. c) Calcule o coeficiente de determinao. d) Existe alguma relao entre o nvel de poluio e a precipitao pluviomtrica?
6.0 ANLISE DE REGRESSO MLTIPLA
6.1 Exemplo Simples de Regresso Linear Mltipla Observe o exemplo mostrado na tabela a seguir. Sendo y (Salrio Anual) a varivel dependente e relacionando o par de variveis x1 (Anos de Educao) e x2 (Anos de Experincia) como as variveis explanatrias (ou variveis independentes), pode-se pensar em estabelecer uma relao entre essas variveis, utilizando a tcnica de regresso linear. Neste caso, quando h mais de uma varivel explanatria, denomina se regresso linear mltipla.
O mesmo mtodo dos mnimos quadrados capaz de ser aplicado em dados que possuam mais de uma varivel independente (por exemplo = bo + b1x + b2x). Ele fornece formas de julgar o quo bem foram estimados os coeficientes do modelo real, alm de fornecer caractersticas de previso. Matematicamente, a obteno dos valores de bo, b1 e b2 atravs do mtodo dos mnimos quadrados resulta na seguinte equao.: = 0,98 + 1,24x1 + 0,99x2 Entretanto, para se avaliar adequadamente a qualidade dessa equao de previso, algumas consideraes estatsticas precisam ser realizadas., o que caracteriza o mtodo de anlise de regresso mltipla. 6.2 A ANLISE DE REGRESSO MLTIPLA No caso da regresso linear simples visto anteriormente, a utilizao do mtodo dos mnimos quadrados possibilita encontrar os coeficientes de uma equao de reta representando a relao entre as variveis x e y, como pode ser visto na figura a seguir. Os valores de bo e b1 so obtidos de forma a minimizar o ei, por esse motivo a tcnica chamada de mtodo dos mnimos quadrados. Entretanto, quando se tem 2 variveis independentes e se busca a relao com uma varivel dependente das duas primeiras, atravs deste mesmo mtodo dos mnimos quadrados, a equao de relacionamento = bo + b1x + b2x representa um plano, como pode ser visualizado na exemplificao da figura a seguir. A tabela a seguir mostra o resultado obtido pelo software STATISTICA da regresso mltipla do exemplo de salrio anual:
Ao avaliar o resultado de uma regresso linear mltipla, especial ateno deve ser dada ao coeficiente de correlao R2 aos valores dos coeficientes (b) e ao valor p (p-level) do teste de hiptese realizado para cada varivel explanatria. O valor-p est associado ao risco a do teste de hipteses. Caso seja menor ou igual a 0,05, considera-se como relevante a incluso da varivel no modelo matemtico da regresso linear mltipla. Se o valor p estiver entre 0,05 e 0,10 a incluso da varivel pode ser considerada. Caso o valor p seja maior que 0,10 no recomendada a incluso da varivel no modelo da regresso linear mltipla. 6.3 EXEMPLO DE REGRESSO LINEAR MLTIPLA COM 3 VARIVEIS Considere o seguinte exemplo apresentado na tabela a seguir. Para avaliar a quantidade de cartes de credito que uma famlia tem, foram observadas 3 caractersticas dessa famlia: O tamanho, a renda familiar mensal e quantidade de carros que a famlia possui. Com base nesses dados, a anlise de regresso mltipla mostra que a nica varivel recomendada para compor uma equao de previso de y o tamanho da famlia, com base no valor p. A figura a seguir mostra o resultado do valor p de cada varivel, onde somente a varivel tamanho da famlia apresentou valor p abaixo de 0,10. 6.4 EXERCCIOS
1 Estudo de Fecundao Um bilogo marinho est estudando a reproduo de determinado peixe e pretende entender como alguns fatores podem estar afetando a fecundao da fmea (quantidade de ovos gerados). Um modelo de regresso foi criado utilizando dados relativos ao nmero de ovos e 3 variveis consideradas como possveis influenciadoras da fecundao do peixe: Tamanho do peixe, Carga parasitria na gua e percentual de gordura do peixe. Os dados necessrios para a gerao do modelo de regresso linear so apresentados na tabela a seguir.
Encontre o modelo de regresso linear mltipla e discuta quais fatores podem ser considerados relevantes na fecundao dos peixes.
2 Evoluo do Preo Unitrio Considere a tabela a seguir, que apresenta a evoluo anual do preo unitrio de um produto e tambm a quantidade de unidades vendidas deste produto.
Com base nos dados apresentados na tabela, deseja-se saber se h uma relao do ano com a quantidade vendida e qual ser a previso da quantidade de produtos vendidos quando o preo alcanar o valor unitrio de 2,0. Esta previso deve considerar apenas os dados da tabela, sem levar em considerao outros fatores. 3 As Vendas da Loja Os dados apresentados na tabela a seguir so de uma cadeia de lojas de certa rede de lojas nacional. Utilizando a tcnica de regresso linear mltipla identifique quais so os fatores que tem uma relao forte com as vendas mensais das lojas. 4 Os Custos de Manuteno Um fazendeiro quer saber o custo de manuteno de seu caminho durante o corrente ano, para tanto foram coletadas informaes de quilometragem e tempo do caminho. A tabela abaixo nos mostra esses valores.
7.0 DATA MINING (MINERAO DE DADOS) A minerao de dados envolve o trabalho simultneo de problemas complexos, vrias fontes de dados, diferentes qualidades de dados, vrios algoritmos de extrao de conhecimento, diferentes formas de medir o sucesso de minerao de dados, e assim por diante. Um roteiro pr-definido para minerao de dados garante que todos os pontos importantes e as questes crticas sejam abordados e que o minerador de dados no se perca em meio s complexidades. 7.1 A METODOLOGIA CRISP-DM O processo de minerao de dados modelo recomendado para uso com o software Clementine o Cross-Industry Standard Process for Data Mining (CRISP-DM). O modelo com as seis etapas pode ser conhecido em detalhes pelo site www.crisp-dm.org. 1) Compreenso do Negcio Esta talvez a fase mais importante da minerao de dados. A compreenso do negcio inclui a determinao de objetivos de negcio, avaliao da situao, determinao de metas de minerao de dados e a elaborao de um plano de projeto.
2) Compreenso dos Dados Os dados fornecem a "matria prima" de minerao de dados. Esta fase contempla a necessidade de entender os recursos dos dados e as caractersticas desses recursos. Isso inclui a coleta inicial de dados, descrio dos dados, explorao dos dados e verificao da qualidade dos dados. 3) Preparao dos Dados Depois de catalogar seus recursos de dados, voc precisar preparar seus dados para a minerao. Os preparativos incluem a seleo, limpeza, construo, integrao e formatao de dados.
4) Modelagem Esta a etapa na qual os mtodos sofisticados de anlise so usados para extrair informaes dos dados. Esta fase envolve a seleo de tcnicas de modelagem, gerao de projetos de teste, construo e avaliao dos modelos. 5) Avaliao Depois de escolhida e executada a modelagem, chega-se a etapa de avaliar como os resultados de minerao de dados podem auxiliar no alcance dos objetivos elencados na etapa de compreenso do negcio. Nesta etapa faz-se avaliao de resultados, a reviso do processo de minerao de dados e determinao das prximas etapas.
6) Implantao a etapa de colheita dos benefcios. Esta fase centra-se na integrao de seus novos conhecimentos aos processos de modo a resolver um problema do negcio. Esta fase inclui o plano de implantao, monitoramento manuteno, elaborao de um relatrio final, e reviso do projeto.
No entanto, decises e informaes recolhidas durante a fase de modelagem podem muitas vezes levar a repensar a fase de preparao de dados. As duas fases realimentam e influencia uma a outra, at que as questes sejam resolvidas adequadamente. O segundo ponto fundamental a natureza iterativa da minerao de dados. Raramente suficiente planejar um projeto de minerao de dados, execut-lo e, em seguida, dar como finalizado o trabalho. A minerao de dados um esforo contnuo. O conhecimento obtido com um ciclo de minerao de dados, quase invariavelmente, levam a novas questes, novos problemas e novas oportunidades. 7.2 O DATA MINING E A METODOLOGIA CRISP-DM Os conhecimentos especficos de um projeto ou negcio devem ser utilizados conjuntamente com tecnologias avanadas para identificar relaes subjacentes e as caractersticas dos dados. Padres aparentemente inteis em dados descobertos pela minerao de dados podem ser transformados em uma pea valiosa de informaes teis com base na experincia de negcios e especializao.
Muitas das tcnicas utilizadas em minerao de dados so conhecidas como "aprendizagem de mquina" ou "modelagem". Na minerao de dados usam-se bases de dados para gerar modelos, que podem ser aplicados posteriormente para classificao, predio, avaliao e apoio deciso. 7.2.1 DISPONIBILIDADE DOS DADOS Os dados precisam estar em um formato acessvel. So frequentes os casos onde os arquivos de dados esto dispersos e em formatos diferentes. H tambm a situao onde os dados no esto em formato eletrnico, e precisaro ser digitalizados antes do processo de minerao. Deve-se atentar tambm condio sigilosa ou de proteo poltica ou jurdica dos dados. 7.2.2 ABRANGNCIA DOS DADOS Para fazer um projeto de minerao de dados de valor, importante que os dados contenham todos os elementos pertinentes. A tarefa de identificar os fatores relevantes nos dados tambm objeto da minerao de dados. No entanto, uma maior exatido das previses pode ser conseguida se for dada maior ateno a este aspecto. 7.2.3 RUDO O rudo um termo coletivo dado a erros nos dados. Os rudos podem se apresentar na forma de discrepncias o mesmo a falta de dados. Quanto mais rudo houver nos dados, mais difcil ser fazer previses precisas. 7.2.4 SUFICINCIA Para cada problema deve-se analisar a quantidade de dados. Muitas vezes no o tamanho dos dados que provoca dificuldades na minerao de dados, e sim a natureza representativa deles e cobertura de todos os possveis resultados. Tal como acontece com a maioria das tcnicas de anlise de dados, quanto mais complexos os padres ou relacionamentos, mais registros so necessrios para encontr-los. Se os dados tm uma boa cobertura dos possveis resultados, resultados razoveis podem ser atingidos mesmo com pequeno nmero de registros. 7.2.5 CONHECIMENTO Nem sempre a pessoa que cuida da tarefa de minerar os dados conhece a problemtica envolvida e a natureza dos dados. extremamente desejvel que haja pessoas disponveis para que sejam consultadas e que conheam os problemas e dados em anlise. Pode vir da um auxlio na identificao de fatores relevantes, na interpretao dos resultados e na eliminao de informaes enganosas.
7.3 A ESTRATGIA DE DATA MINING A minerao de dados muito mais eficaz se for feita de uma forma sistemtica: 1) Qual o problema de fundo que se quer resolver? 2) Que fontes de dados esto disponveis, e que partes dos dados so relevantes para o problema atual? 3) Que tipo de pr-processamento e limpeza de dados necessrio antes de iniciar a minerao de dados? 4) Qual tcnica dever ser utilizada? 5) Como sero avaliados os resultados da minerao de dados? 6) Como voc vai tirar o mximo proveito das informaes obtidas a partir de minerao de dados? 7.4 APLICAES DO DATA MINING Aplicaes de Data Mining tm sido observadas em vrias reas do conhecimento, entre elas esto as finanas, a sade, criminologia, sociologia, ecologia, saneamento bsico, climatologia, atuaria, manufatura, controle de qualidade, marketing e medicina. 7.4.1 DATA MINING EM COMRCIO Grandes grupos supermercadistas utilizam Data Mining para estudar o comportamento de compra de seus clientes. Atravs do cadastramento de clientes com um carto especfico, que utilizado no momento da compra, identifica as caractersticas pessoais do cliente, tais como, sexo, idade, estado civil, etc, e as caractersticas dos produtos adquiridos. A anlise dos dados pode motivar novos clientes ou ainda manter a clientela padro, com promoes, eventos, vendas casadas, entre outras. 7.4.2 DATA MINING EM FINANAS Bancos, instituies financeiras e entidades de proteo ao crdito, vm utilizando tcnicas de Data Mining em seus bancos de dados para criar sistemas de avaliao de crdito, objetivando predizer se o cliente ser adimplente ou inadimplente. 7.4.3 DATA MINING EM SEGUROS Grandes companhias de seguro apresentam perdas devido ao cancelamento de aplices e custos gerados para obteno de novos clientes. Ferramentas de Data Mining podem ser utilizadas analisando as caractersticas dos clientes, predizendo quem cancelaria as suas aplices com certa margem de segurana. 7.4.4 DATA-MINING EM CINCIA E TECNOLOGIA Tcnicas Data Mining esto encontrando padres de estruturas moleculares, dados genticos, mudana global no clima e na temperatura. O NASA Jet PropulsionLaboratory (JPL) e Caltech,Inc. desenvolveram o SKICAT (SKY Image Cataloging and Analysis Tool), um avanado sistema Data Mining para analisar e catalogar automatizadamente descobertas do segundo Observatrio Espacial Palomar. Com as tcnicas de data mining os astrnomos da Caltech obtiveram em menos de seis meses resultados que levariam 3 ou 4 anos com os mtodos tradicionais. 7.4.5 DATA-MINING NO PODER JUDICIRIO Beverly Cook, uma pesquisadora da Universidade de Wisconsin em Milwaukee, modelou algumas aplicaes Data Mining com o software IDIS para avaliar um processo judicirio que envolvia a pena de morte - foram correlacionados dados como opinies pessoais e votos dados pela Suprema Corte de Justia americana em referncia a um caso especfico que esteve em julgamento, conhecido como o caso Byron White. O relatrio final da Universidade indicava que o comportamento de escolha pela penalidade de morte estava sempre relacionado com filiao do membro do jri ao bloco conservador da Corte de Justia, e que o seu padro de voto era geralmente ligado raa do acusado. 7.4.6 DATA-MINING NA SADE Pesquisadores da Universidade Changhua de Taiwan, propuseram um processo de data mining para deteco de casos abusivos ou fraudulentos nos sistemas de sade. A motivao do trabalho vem da constatao do grande percentual de comportamentos abusivos e fraudulentos ocorridos nos sistemas de seguro sade. Com o trabalho foram construdos modelos a partir dos quais se distinguiam automaticamente, comportamentos fraudulentos de atividades normais Pesquisadores da Alabama University apresentaram um processo de data-mining para anlise de dados capaz de identificar, automaticamente, novos e interessantes padres nos dados referentes a infeco hospitalar e vigilncia sanitria.
7.4.7 APLICAES DO DATA MINING EM UNIVERSIDADES Utilizando as tcnicas da minerao de dados, os responsveis pelo Vestibular da PUC/RJ detectou a seguinte regra: se o candidato do sexo feminino, trabalha e teve aprovao com boas notas no vestibular, ento no efetiva a matrcula. Estranho, ningum havia pensado nisso. Mas uma reflexo justifica a regra oferecida pelo programa: de acordo com os costumes do Rio de Janeiro, uma mulher em idade de vestibular, se trabalha porque precisa, e neste caso deve ter feito inscrio para ingressar na universidade pblica gratuita. Se ela teve boas notas provavelmente foi aprovada na universidade pblica onde efetivar matrcula. 7.5 O STATISTICA DATA-MINER O STATISTICA Data Miner fornece o mais abrangente conjunto de ferramentas para anlise, gesto e visualizao de bases de dados e Data Mining. As suas tcnicas incluem a mais vasta seleo de modelao preditiva, agrupamentos (clustering) e ferramentas exploratrias - tudo numa nica plataforma. O STATISTICA Data Miner uma avanada plataforma de modelagem preditiva e descoberta de conhecimento, com uma das mais amplas selees de algoritmos analticos e tcnicas estatsticas presentes em um nico software. 7.5.1 CARACTERSTICAS DO STATISTICA DATA MINER Um dos sistemas mais completos do mercado, pois possui as principais tcnicas estatsticas e as principais tcnicas computacionais de inteligncia artificial. Disponibiliza mais de 11.000 funes analticas, grficas e de gerenciamento de dados, alm da mais ampla e exaustiva coleo de algoritmos de mquina de aprendizado do mercado, a sua disposio incluindo: Support Vector Machines EM and k-Means Clustering Classification & Regression Trees Generalized Additive Models Independent Component Analysis Stochastic Gradient Boosted Trees
Suas caractersticas so altamente otimizadas com algoritmos refinados, verdadeiro processamento multi-threading (cliente- servidor) local e remoto de banco de dados, totalmente disponibilizado em ambiente WEB, com uma incomparvel escalabilidade para banco de dados da ordem de terabytes; Suporta todos os padres de formatos de arquivos de dados industriais bem como os padres ODBC, OLE DB e SQL.. Todas as anlises podem ser customizadas de forma simples e convencional via mtodos de arrastar e soltar ou via a linguagem padro da indstria o Visual Basic; 7.6 PRINCIPAIS TAREFAS DO DATA MINING Em geral, as tarefas do data mining podem ser classificadas em duas categorias. O data-mining descritivo descreve o conjunto de dados de uma maneira concisa e resumida e apresenta propriedades gerais interessantes dos dados; O data-mining preditivo constri um ou um conjunto de modelos, realiza inferncias sobre o conjunto de dados disponveis e tenta predizer o comportamento de novos conjuntos de dados. 7.6.1 CLASSIFICAO Analisa um conjunto de dados de treinamento (i.e., um conjunto de objetos cuja classificao j conhecida) e constri um modelo para cada classe baseado nas caractersticas dos dados.
Uma rvore de deciso ou um conjunto de regras de classificao gerado por tal processo de classificao, que pode ser usado para entender melhor cada classe no banco de dados e para classificao de futuros dados.
Por exemplo, a descrio de classe pode ser usada para comparar clientes e promover a segmentao deles em cliente prime, gold e silver. Esta estratgia bastante utilizada nos programas de milhagem e de cartes de crdito: Um modelo de classificao deve ser induzido. Por exemplo, com base na tabela 1 de registros histricos de um clube de tnis, tem-se as informaes de tempo, vento, umidade e temperatura e o status sobre a deciso de jogar ou no. Com base na tabela anterior, pode-se induzir um modelo e posteriormente utiliz-lo para a tomada de deciso. A figura a seguir ilustra o modelo gerado. 7.6.2 ASSOCIAO Uma regra de associao da forma X Y interpretada como "tuplas (conjunto de valores de atributos) de base de dados que satisfazem X so provveis que satisfaam Y". Anlise de associao extensamente usada em "transaction data analysis for directed marketing", design de catlogo e outros processos de decises comerciais. Um exemplo clssico utilizado aqui o do WALMART. Esta rede identificou um hbito curioso dos consumidores. Ao procurar eventuais relaes entre o volume de vendas e os dias da semana, o software apontou que, s sextas-feiras, as vendas de cervejas cresciam na mesma proporo que as de fraldas. Crianas bebendo cerveja? No. Uma investigao mais detalhada revelou que, ao comprar fraldas para seus bebs, os pais aproveitavam para abastecer as reservas de cerveja para o final de semana. 7.6.3 AGRUPAMENTO Anlise de "clusters" ou de agrupamento consiste em identificar possveis agrupamentos nos dados, onde um agrupamento uma coleo de objetos que so "semelhantes uns aos outros. Um bom exemplo dado na figura a seguir: Ela expressa uma amostragem de Idade Vs Salrio de alguns jogadores de futebol. Tem-se no eixo Y a faixa salarial e no eixo X a distribuio de idade. A partir de um processo de clusterizao, pode-se encontrar 4 classes de jogadores, conforme expresso na figura. Na figura a seguir observa-se os 4 agrupamentos obtidos atravs de uma tcnica de clusterizao denominada K-Means. O grupo em vermelho composto por jovens atletas, entre 15 e 19 anos com faixa salarial bem inferior a R$ 20.000,00. Em azul escuro tem-se um grupo de atletas de 28 a 36 anos com faixa salarial abaixo de R$ 20.000, mas superior a mdia de salrios do grupo vermelho. Em verde tem-se um grupo de jogadores entre 34 e 35 anos e com faixa salarial em torno de R$ 300.000,00. Em azul claro tem-se um jogador de 19 anos e com salrio de R$ 1.000.000,00. Anlise de srie temporal - analisa um grande conjunto de dados de sries temporais para encontrar certas regularidades e caractersticas interessantes, incluindo a pesquisa de sequncias ou subsequncias semelhantes e descobrindo assim padres sequenciais, periodicidades, tendncias e divergncias. Por exemplo, pode-se predizer a tendncia dos valores das aes da Petrobrs em um momento futuro baseando-se em sua histria acionria, situao empresarial, desempenho dos competidores e mercado atual. 8.0 RVORES DE DECISO Segundo Tan Pagn-Ning, em seu livro Introduo ao Data Mining, as rvores de deciso so modelos estatsticos que utilizam um treinamento supervisionado para a classificao e previso de dados. O treinamento supervisionado aquele onde utilizado um conjunto de treinamento formado por entradas e sadas. Assim, os valores da classe ou atributo da classe so conhecidos. As sadas podem ter domnios contnuos (numricos) ou discretos (categricos). Se o domnio do atributo classe discreto, tem-se um problema de classificao. Se numrico, tem-se um problema de regresso ou aproximao de funes. Surge da os dois propsitos da classificao: a modelagem descritiva e a modelagem preditiva. A modelagem descritiva til quando se quer descrever o motivo pelo qual um determinado exemplo pertence a uma determinada classe. Na modelagem preditiva, um modelo utilizado para classificar exemplos cujas classes so desconhecidas.
Os dados de entrada so definidos pelo par ordenado (x,y), em que x um vetor que representa os atributos preditivos, x= (x _1+x_2+x_3,,x_n) , e y o rtulo da classe qual este exemplo pertence. Alguns pares ordenados podem ser tomados como conjunto de treinamento, e a partir deste conjunto de dados, faz-se a inferncia indutiva, que pode criar hipteses verdadeiras ou no. Um grande desafio para os algoritmos de aprendizado construir modelos que possuam boa capacidade de generalizao, ou seja, consigam predizer com alta taxa de acerto, rtulos de classe para exemplos que no foram utilizados na construo do modelo. Outra caracterstica dos classificadores a ser observada diz respeito a interpretabilidade do conhecimento adquirido. As redes neurais criam classificadores do tipo Black-box onde o conhecimento obtido estar representado pelo peso das entradas dos neurnios. J o conhecimento obtido por rvores de deciso e explicitado a partir de regras do tipo SE (condio) ENTO (classe). Estas regras so expressas em linguagem natural, facilitando o entendimento por parte das pessoas. A avaliao do desempenho de um modelo de classificao baseado nas contagens dos registros de teste previstos correta e incorretamente pelo modelo. Estas contagens so tabuladas em uma tabela conhecida como matriz de confuso. A tabela 8.1 mostra a matriz de confuso para um problema de classificao binria.
Cada entrada f_ii nesta tabela denota o nmero de registros da classe 0 previstos incorretamente como classe 1. Baseado nas entradas da matriz de confuso, o nmero total de previses corretas feita pelo modelo (f_11+f_00 ) e o nmero total de previses incorretas (f_10+f_01 ). Embora a matriz de confuso fornea as informaes necessrias para determinar o quo bem um modelo de classificao executado, resumir estas informaes com um nico nmero tornaria mais conveniente comparar o desempenho de diferentes modelos. Isto pode ser feito usando uma mtrica de desempenho como a preciso que pode ser definida conforme a equao a seguir.
De forma equivalente, o desempenho de um modelo pode ser expresso em termos da sua taxa de erro, que dada pela equao a seguir.
8.1 CARACTERSTICAS DA RVORE C&RT Segundo J. Fonseca em sua dissertao de mestrado intitulada Induo de rvores de deciso, as rvores do tipo Classification and Regression Tree (C&RT) foram propostas por Friedman Breiman e consistem numa tcnica no paramtrica que induz tanto rvores de classificao quanto rvores de regresso, dependendo se o atributo de classe categrico (classificao) ou contnuo (regresso). Uma das principais virtudes da C&RT a grande capacidade de pesquisa de relaes entre os dados, mesmo quando elas no so evidentes, bem como a produo de resultados sob a forma de rvores de deciso de grande simplicidade e legibilidade. Para Mrcio Porto Basgalupp, as rvores geradas pelo algoritmo C&RT so sempre binrias, as quais podem ser percorridas da sua raiz at as folhas respondendo apenas a questes simples do tipo sim e no. Os ns de deciso que correspondem aos atributos categricos so representados por agrupamento de valores em dois conjuntos. O algoritmo usa a tcnica de pesquisa exaustiva para definir os limiares a serem utilizados nos ns para dividir atributos contnuos.
8.2 INDUO DE UMA RVORE DE DECISO A figura a seguir representa uma rvore de deciso onde cada n de deciso contm um teste para algum atributo, cada ramo descendente corresponde a um possvel valor deste atributo, cada folha est associada a uma classe e, cada percurso da rvore, da raiz folha corresponde uma regra de classificao. No exemplo a raiz da rvore o atributo carga de energia. Trata-se da raiz porque no h ramos chegando e h um ou mais ramos saindo. Os nodos internos so Gerao Hidrulica e Gerao trmica, visto que tais ns possuem ramos chegando e saindo. As folhas ou ns terminais so PLD1, PLD2, PLD3, PLD4 e PLD 5. PLD a sigla para o preo da energia eltrica. No espao definido pelos atributos, cada folha corresponde a um hiper-retngulo onde a interseo destes vazia e a unio todo o espao, conforme a figura a seguir.
Na fase de construo da rvore de deciso, uma rvore gerada pelo particionamento recursivo dos dados de treinamento. O conjunto de treinamento separado em duas ou mais parties usando restries sobre os conjuntos de valores de cada atributo. O processo repetido recursivamente at que todos ou a maioria dos exemplos em cada partio pertenam a uma classe. A rvore gerada abrange todo o conjunto de treinamento e construda por meio da estratgia de busca em largura. Assim, todos os ns em uma determinada altura da rvore devem ser processados antes do incio do processo do nvel subsequente. Uma vez determinado o melhor ponto de separao de cada n, as parties podem ser criadas pela simples aplicao do critrio de separao identificado. Para a o tipo de rvore sob anlise, C&RT, o ndice utilizado o ndice Gini. 8.3 NDICE GINI O ndice Gini utilizado nas rvores do tipo C&RT para isolar num ramo da rvore os registros que representam a classe mais frequente. Segundo Breiman et al. (1984), o ndice mede o grau de heterogeneidade dos dados. Para cada diviso ocorrida a partir da criao de um n, deve-se calcular o gini index. Trata-se de uma medida de impureza, calculada conforme a equao a seguir.
8.4 PASSO-A-PASSO NO STATISTICA Passo 1: O primeiro passo no desenvolvimento do exerccio de criao de rvores de deciso digitar o conjunto de registros em cima do qual ser desenvolvida a experincia. Crie uma spreadsheet e digite as informaes da figura abaixo. Atente para acentos e maisculas/minsculas. Passo 2: Clique no menu principal em Statistics, neste marque a opo Data-Mining e ento escolha General Classification / Regression Tree Models.
Passo 3: Escolha as opes Standard C&RT e Quick specs dialog e clique em OK.
Passo 4: Marque a caixa de seleo categorical response visto a base de dados ser formada por variveis nominais. Clique depois no boto Variables. Passo 5: escolha como varivel dependente a classe dos animais e como variveis independentes os itens de 2 a 8, a saber: temperatura corporal, cobertura de pele, ovparo, criatura aqutica, criatura area, possui pernas e hiberna. Passo 6: devido ao nmero de registros da amostra ser pequeno, apenas 13 unidades, deve-se diminuir o nmero mnimo de casos de 5 para 4, conforme a figura abaixo. Logo depois clique em OK. Passo 7: no menu de resultados clique na aba Summary e logo depois em Tree Graph. Passo 8: aparecer uma rvore conforme a figura abaixo. Mamfero ovparo = no Pssaro ovparo = sim + cobertura da pele = penas Anfbio ovparo = sim + cobertura da pele = others Peixe ovparo = sim + cobertura da pele = escamas + criatura aqutica = sim Rptil ovparo = sim + cobertura da pele = escamas + criatura aqutica = no