Estatística Descritiva e Inferencial

EMENTA DO CURSO
1.0 PORQUE ESTATSTICA?

2.0 PROBABILIDADE: BINOMIAL E POISSON
3.0 A DISTRIBUIO NORMAL
4.0 INTERVALO DE CONFIANA PARA A MDIA
5.0 ANLISE DE REGRESSO SIMPLES
6.0 ANLISE DE REGRESSO MLTIPLA
7.0 DATA MINING (MINERAO DE DADOS)
8.0 RVORES DE DECISO

1.0 PORQUE ESTATSTICA?
A estatstica utiliza teorias e distribuies de
probabilidades para entender e descrever a
ocorrncia de eventos, atravs da observao direta
de fenmenos ou atravs da realizao de
experimentos, buscando descrever modelos
matemticos que considerem a aleatoriedade e a
incerteza dos resultados, estimando ou prevendo
fenmenos futuros, conforme o caso.
Estatstica a cincia que se ocupa de coletar,
organizar, analisar e interpretar dados para que se
tomem decises.
A estatstica a arte de torturar os nmeros at que
eles confessem. E eles sempre confessam.

Um dos pontos principais da estatstica a coleta,
anlise e interpretao de dados, bem como tirar
concluses sobre as caractersticas das fontes de
onde estes dados foram retirados, para melhor
compreender as situaes.
O escritor H. G. Wells (1866-1945) disse que "no futuro,
o pensamento estatstico ser to necessrio para a
cidadania eficiente como saber ler e escrever."
Pois bem, estamos hoje no futuro de H. G. Wells e de
fato para compreendermos o mundo temos que saber
estatstica!
Leonard Milodnow publicou seu mais recente livro O
Andar do Bbado um tratado sobre estatstica e
aleatoriedade, mostrando, atravs de exemplos
divertidos do cotidiano, o poder do acaso em reas da
nossa vida que vo de jogar futebol, conseguir
emprego e receber um diagnstico mdico.
O caso do acertador aleatrio da loteria que sonhou 7
dias com o nmero 7 e a 7 X 7 = 48 que estava no
final do nmero vencedor
1.1 A REGRESSO MDIA
Muitas vezes elogiei entusiasticamente meus alunos por manobras
areas muito bem executadas, e na vez seguinte sempre se
saram pior, disse o instrutor de voo. E j gritei com eles por
manobras mal executadas, e geralmente melhoraram na vez
seguinte. No venha me dizer que a recompensa funciona e a
punio no. Minha experincia contradiz essa ideia. Os outros
instrutores concordaram. Para Kahneman, a experincia deles
parecia genuna. Por outro lado, ele acreditava nos experimentos
com animais que demonstravam que a recompensa funcionava
melhor que a punio. Ele meditou sobre esse aparente
paradoxo. E ento se deu conta: os gritos precediam a melhora,
porm, ao contrrio do que parecia, no a causavam.
A resposta se encontra num fenmeno chamado
regresso mdia. Isto , em qualquer srie de
eventos aleatrios, h uma grande probabilidade de
que um acontecimento extraordinrio seja seguido,
em virtude puramente do acaso, por um
acontecimento mais corriqueiro.

1.2 TIPOS DE VARIVEIS E SEUS DADOS GERADOS
Varivel a caracterstica de interesse que medida em cada
elemento da amostra ou populao. Como o nome diz, seus
valores variam de elemento para elemento. As variveis podem
ter valores numricos ou no numricos.
Populao um conjunto de elementos que possuem ao menos
uma caracterstica comum entre si.

Variveis Quantitativas: so as caractersticas que podem ser medidas em
uma escala quantitativa, ou seja, apresentam valores numricos que
fazem sentido. Podem ser contnuas ou discretas.
Variveis contnuas: caractersticas mensurveis que assumem valores em
uma escala contnua (na reta real), para as quais valores fracionais
fazem sentido. Usualmente devem ser medidas atravs de algum
instrumento. Exemplos: peso (balana), altura (rgua), tempo (relgio),
presso arterial, idade.
Variveis discretas: caractersticas mensurveis que podem assumir
apenas um nmero finito ou infinito contvel de valores e, assim,
somente fazem sentido valores inteiros. Geralmente so o resultado de
contagens. Exemplos: nmero de filhos, nmero de bactrias por litro de
leite, nmero de cigarros fumados por dia.
Variveis Qualitativas (ou categricas): so as caractersticas que
no possuem valores quantitativos, mas, ao contrrio, so
definidas por vrias categorias, ou seja, representam uma
classificao dos indivduos. Podem ser nominais ou ordinais.
Variveis nominais: no existe ordenao dentre as categorias.
Exemplos: sexo, cor dos olhos, fumante/no fumante,
doente/sadio.
Variveis ordinais: existe uma ordenao entre as categorias.
Exemplos: escolaridade (1o, 2o, 3o graus), estgio da doena
(inicial, intermedirio, terminal), ms de observao (janeiro,
fevereiro,..., dezembro).

Entretanto, ao se aplicar tcnicas estatsticas de anlise de dados,
variveis contnuas podem ser representadas por distribuies
contnuas, sendo a distribuio mais comumente utilizada a distribuio
normal (em funo do teorema do limite central).
E no caso das variveis discretas, nominais e ordinais, utilizam-se com mais
frequncia as distribuies de dados discretos, como a distribuio
Binomial e a distribuio de Poisson.
1.3 QUANTIFICANDO DADOS CONTNUOS
As mtricas mais comuns de quantificao de dados contnuos so
a mdia e o desvio padro.
A mdia d uma medida da posio central dos dados, enquanto
que o desvio padro d uma medida de disperso, isto , o
quanto esses dados esto agrupados ou espalhados em torno
da mdia.
Observe a figura a seguir. Considere que os quadrados azuis representam
pesos iguais, distribudos em uma fina rgua de metal.
Agora tente encontrar o ponto de equilbrio dessas rguas. Em que posio
da rgua est o ponto de equilbrio de cada rgua?
Entretanto, observando esses grupos de dados, podemos facilmente concluir
que eles so diferentes, apesar de todos terem o mesmo valor de mdia. E
essa diferena est relacionada com o espalhamento (ou disperso) dos
dados. Tomando-se como referncia o seu ponto de equilbrio foi
elaborada uma forma de medir essa disperso, atravs do clculo MDIO da
disperso em torno da mdia.
A somatria desses desvios em torno da mdia (elevados ao quadrado) e
posteriormente divididos pelo nmero de dados chamada de varincia.
Ao extrair a raiz quadrada desse resultado, tm-se o desvio padro. O
resumo desses clculos:
Atravs desses clculos pode-se verificar que o desvio padro pode ser visualizado
como uma mdia dos desvios dos dados em torno do ponto mdio dos dados.
Tm-se ento a definio dessas 2 medidas de dados contnuos, concebidas de
forma bastante intuitiva, para representar essas caractersticas bsicas de um
determinado grupo de dados contnuos.
1.4 AMOSTRANDO DADOS CONTNUOS
Uma das principais finalidades de representar dados de forma resumida
poder condensar a informao de uma populao inteira em poucos
valores.
Esse raciocnio deu origem a amostragem, e para tal uma notao
matemtica especfica foi desenvolvida, como mostrada a seguir.
Basicamente utilizam-se caracteres gregos para representar todos os dados
(ou populao) e algarismos romanos para representar a poro de
dados que foi observada desse todo (amostra).
1.5 ESTATSTICA DESCRITIVA DE DADOS CONTNUOS
A estatstica descritiva um ramo da estatstica dedicada a aplicao de
vrias tcnicas que objetivam descrever e resumir um conjunto de
dados.
Sua diferena da estatstica inferencial, ou indutiva que a estatstica
descritiva busca organizar e resumir os dados, o que pode ser encarado
como o passo inicial para o entendimento das caractersticas da
populao.
Considerando os dados das medidas de espessura de uma pea
apresentados nessa figura, pode-se obter uma estatstica descritiva
completa dos dados.
Como os dados apresentados so contnuos, alm de informaes
referentes a sua posio e disperso, alguns indicadores relacionados
com o formato da distribuio so considerados, como a Curtose e a
Assimetria.
1.6 EXERCCIOS

Classifique as variveis em qualitativa (nominal ou ordinal) ou quantitativa
(contnua ou discreta):
i. Populao: alunos de uma Universidade.
Varivel: cor dos cabelos (louro, castanho, ruivo, preto)
ii. Populao: funcionrios de uma empresa.
Varivel: escolaridade (E.Fund., E.Mdio, E.Sup., Ps-Grad.)
iii. Populao: peas produzidas por certa mquina.
Varivel: dimetro externo (2mm x 4mm )
iv. Populao: estao meteorolgica de uma cidade.
Varivel: precipitao pluviomtrica, durante um ano. (250mm x
300mm )
v. Populao: Bolsa de Valores de So Paulo.
Varivel: nmero de aes negociadas. (0,1,2,3,..)
vi. Populao: pregos produzidos por uma mquina.
Varivel: comprimento. (1,5cm x 2,8cm )
vii. Populao: aparelhos produzidos em uma linha de montagem.
Varivel: nmero de defeitos por unidade. (0,1,2,3,..)
Observe as variveis constantes na planilha abaixo. Em seguida, assinale a alternativa que
identifica as variveis de acordo com sua classificao.

a) grau de instruo, funo, salrio, estado civil, gnero, idade, nmero de filhos, moradia.
b) naturalidade, grau de instruo, funo, salrio, idade, nmero de filhos, moradia.
c) naturalidade, grau de instruo, funo, salrio, estado civil, gnero, idade, moradia.
d) salrio, estado civil, gnero, idade, nmero de filhos, moradia.
e) naturalidade, grau de instruo, funo, estado civil, gnero, moradia.

Estatstica descritiva:
Em uma Tabela anote a altura de todos os alunos da sala de aula.
Em seguida faa uma Estatstica Descritiva desses dados.

2.0 PROBABILIDADE
A histria da teoria das probabilidades se deu juntamente com o inicio dos
jogos de cartas, dados e de roleta. Por essa razo, muitos exemplos de
probabilidade so relacionados e esses tipos de jogos. Os estudos de
probabilidade possibilitam o calculo da chance de ocorrncia de certo
resultado especfico de um espao amostral em um evento chamado
experimento aleatrio.
Experimento Aleatrio aquele experimento que, quando repetido em
iguais condies, podem fornecer resultados diferentes (dentro de um
espao amostral), ou seja, so resultados explicados ao acaso.
Espao Amostral o conjunto de todos os resultados possveis de um
experimento aleatrio.
2.1 O PROBLEMA DE MONTY HALL
A questo a seguir, proposta originalmente por Marilyn Vos Savant, escritora e
colunista da revista Parade estadunidense, que em 9 de setembro de 1990,
talvez tenha se tornado o caso mais conhecido envolvendo sua coluna.
Suponha que voc esteja em um game show, e dada a voc a escolha de trs
portas. Atrs de uma porta est um carro, atrs das outros, cabras. Voc escolhe
uma porta, por exemplo, a No. 3. O anfitrio, que sabe o que est por trs das
portas, abre a porta No. 1, que tem uma cabra. E ele pergunta: Voc quer
escolher a porta No. 2? vantajoso mudar a sua escolha de porta?
Marilyn Vos Savant respondeu argumentando que a seleo deve ser trocar para a
porta No. 2 porque ela tem 2/3 de chance de sucesso, enquanto a porta No. 3
tem apenas 1/3. Esse clculo utiliza uma forma elementar do cmputo de
probabilidade:

Esta resposta provocou cartas de milhares de leitores, quase todas argumentando
que as portas No. 2 e No. 3 cada um tem uma chance igual de sucesso. Uma
coluna de sequncia reafirmando sua posio serviu apenas para intensificar o
debate e logo se tornou um artigo na primeira pgina do The New York Times.
Entre as fileiras dos argumentos contrrios quase mil PhDs escreveram cartas, e
muitos deles eram professores de matemtica e pareciam especialmente irados.
Um desses, que trabalhava no Instituto de Pesquisa do Exrcito dos Estados
Unidos afirmou:

Mas o fato que Marilyn estava certa, como pode ser visto no quadro a
seguir.
Considere que o participante sempre escolhe inicialmente a porta 2 e o
apresentador abre uma das outras 2 portas, eliminando-a. A
probabilidade de ganhar maior se fora dotada a estratgia de mudar
de opinio.

Esse acontecimento ilustra muito bem a nossa falta de capacidade de
julgar apropriadamente sobre probabilidades se no houver um
entendimento claro do espao amostral, bem como a estratgia do
experimento realizado.

2.2 EXEMPLO DE ESPAO AMOSTRAL E
DISTRIBUIO DE PROBABILIDADES
Considere o experimento de lanamento de dados de forma aleatria. Todas os
possveis resultados do lanamento de 1 dado so mostrados na tabela a seguir,
comas suas respectivas probabilidades.
Considerando que o dado no est viciado, de se esperar que o resultado dos
lanamentos resulte na seguinte distribuio de probabilidades:

2.3 O CASO DAS PROBABILIDADES METEREOLGICAS
Ike: Contagem Regressiva para o Dia D um filme histrico retratando os 90 dias que
antecederam a Invaso da Normandia em 4 de junho de 1944, durante a Segunda
Guerra Mundial. O filme enfatiza as decises estratgicas e relaes polticas de
Dwight Eisenhower, comandante supremo das foras Aliadas para batalhas europeias.
Destacam-se no filme as relaes com o ento primeiro-ministro ingls Winston Churchill,
com o general americano George S. Patton, com o general britnico Bernard
Montgomery e com o presidente francs Charles de Gaulle. Dwight "Ike" Eisenhower
interpretado por Tom Selleck e a grande qualidade do filme demonstrar o drama de
um homem com o poder de colocar milhes de vidas em risco, bem como as
dificuldades de organizar diferentes estratgias militares em uma mesma operao.
Apesar de se ter conhecimento que as foras armadas so grandes utilizadores de
estudos estatsticos, pode-se notar neste filme em particular como inmeras
informaes so tratadas com muita seriedade, em funo da seriedade das suas
consequncias.
Destaque especial pode ser dado a cena onde o protagonista pergunta ao responsvel
pelo comunicado de informaes referentes ao clima. Ao ouvir que h a uma
possibilidade metereolgica, Eisenhower retruca que no pode tomar decises
baseadas em possibilidades. Ele enfatiza que sejam reportadas a cada hora as
probabilidades metereolgicas que o permitam decidir sobre o desembarque na
Normandia, fator crucial para o sucesso da misso e da guerra.
Destaque especial pode ser dado a cena onde o protagonista pergunta ao
responsvel pelo comunicado de informaes referentes ao clima. Ao ouvir que
h a uma possibilidade metrolgica, Eisenhower retruca que no pode tomar
decises baseadas em possibilidades. Ele enfatiza que sejam reportadas a cada
hora as probabilidades metrolgicas que o permitam decidir sobre o
desembarque na Normandia, fator crucial para o sucesso da misso e da guerra.

2.4 QUANTIFICANDO DADOS DISCRETOS E
QUALITATIVOS
Frequentemente temos a necessidade de analisar dados oriundos de
situaes onde os dados gerados so discretos ou qualitativos, tambm
chamados de dados categricos, onde sua escala pode ser ordinal,
nominal, ou simplesmente nmeros inteiros.
Dados discretos podem ser representados por quantidades, bem como
taxas, ndices ou probabilidades, que podem ser representadas atravs
de determinadas distribuies.
As distribuies comumente utilizadas para representar dados discretos
so a distribuio Binomial e a distribuio de Poisson.
2.4.1 A DISTRIBUIO BINOMIAL
A Distribuio Binomial uma distribuio discreta mostrando a probabilidade de um
evento que pode assumir dois valores. (Exemplo: Cara ou coroa de uma moeda,
PASSA/NO PASSA, produtos bons / defeituosos). As seguintes condies devem ser
satisfeitas para que se aplique a distribuio binomial:
1. Experimento Bernoulli - O resultado do experimento pode assumir somente dois valores,
como o lanamento de uma moeda.
2. Igualdade dos Experimentos - Uma srie de experimentos feita sob as mesmas
condies.
3. Independncia dos Experimentos - O resultado de um experimento no influencia nem
influenciado por outros.
4. Igualdade de Probabilidades - A probabilidade do resultado de um experimento a
mesma probabilidade do mesmo resultado em qualquer outro experimento.
Os parmetros da distribuio Binomial so:
X = Nmero de resultados esperados aps n experimentos.
(x pode assumir os valores 0, 1, 2, 3, ..., n)
n = Nmero de experimentos
p = probabilidade do resultado esperado de cada experimento individualmente

Exemplo:
Suponha que um hospital possui um ndice de absentesmo (faltas dos funcionrios)
de 5%. Qual a probabilidade de que, em uma visita surpresa, o responsvel
pelo hospital encontre presentes todos os funcionrios de um grupo de 10,
escolhidos aleatoriamente?

n = 10 ; x = 0 ; p = 0,0 5; P(x=0) = ?

Resposta: A probabilidade de se no encontrar nenhum
funcionrio ausente de 59,87%.

Calculando o valor da probabilidade de outros valores de x temos o resultado
apresentado na tabela a seguir:

De acordo com os valores apresentados acima, o grfico da distribuio de
probabilidades binomial desse evento pode ser observado a seguir.:

Pode-se notar que, sendo uma distribuio discreta, no h valores
de probabilidade entre os valores inteiros do eixo X.
De forma alternativa, pode-se responder a pergunta:
Qual a probabilidade de, nesse grupo de 10 funcionrios, ao
menos 1 estar ausente?
Nesse caso, procura-se a probabilidade P(x>0), que por ser uma
distribuio discreta, o mesmo valor de P(x>1).
Sendo P(x=0)=0,5987 pode-se encontrar P(x>0) da seguinte forma:
P(x > 0) = 1 P(x=0) = 1 0,5987 = 0,4013 40,13%

Pode-se ento concluir que, ao fazer essa visita surpresa, a probabilidade
de se encontrar algum funcionrio ausente, em uma amostra de 10,
de aproximadamente 40%.
Em estudos estatsticos, normalmente toma-se decises com base em um
valor de probabilidade igual ou superior a 80%.
Nesse caso, sugere-se que haja um aumento no tamanho da amostra para
uma lista de 32 funcionrios, o que daria o seguinte resultado:
P(x = 0) = 0,1937 P(x > 0) = 0,8063

2.4.2 A DISTRIBUIO DE POISSON
A Distribuio de Poisson uma distribuio discreta mostrando a
probabilidade de um nmero de ocorrncias de um evento em um
intervalo.
Alguns Exemplos:
Nmero de clientes chegando loja, por hora;
Nmero de acidentes de trnsito, por dia;
Nmero de acertos de passes de um jogador, por partida;
Nmero de falhas em um rolo de papel, por metro;
Nmero de acidentes em uma estrada, por dia.
A distribuio de Poisson se encaixa em eventos discretos que ocorrem de
forma aleatria
Os parmetros da distribuio de Poisson so:
X = Nmero de resultados por intervalo (x pode assumir os valores 0, 1, 2,
3, ..., )
= taxa mdia de ocorrncia por intervalo.
Frmula:

EXEMPLO:
Esta a histria de um tcnico de um determinado processo. Em mdia,
trs chamados de inspeo acontecem por dia. Baseado em um
levantamento anterior, dois tcnicos podem atender a esses trs
chamados. Se mais de trs chamados acontecerem em um dia, temos
que considerar a opo de aumentar o nmero de tcnicos.
Encontre a probabilidade de que quatro ou mais chamados por dia
aconteam.
x = 4 chamados
= 3 chamados por dia
P (x4) = ?
Sendo a distribuio de Poisson uma distribuio de dados discretos, a
probabilidade P(X 4) pode ser obtida da seguinte forma:
P(x 4) = 1 [P(x =0) + P(x=1) + P(x=2) + P(x=3)]
Atravs da equao de probabilidade de Poisson, os valores de P(X=0),
P(X=1), P(X=2) e P(X=3) podem ser calculados.:

Calculando o valor da probabilidade de outros valores de x temos o
resultado apresentado na tabela a seguir:

Tabela 2.2 Probabilidades de x seguindo uma distribuio de
Poisson.
Logo, a probabilidade de 4 ou mais chamados ocorrerem igual a:
P(x 4) = 1 (0,0498 + 0,1494 + 0,2240 + 0,2240) = 0,3528
Ou seja, 35,28%

x 0 1 2 3 4 5 6
P(X=x) 0,0498 0,1494 0,224 0,224 0,168 0,1008 0,0504
O grfico mostrado na figura a seguir representa as probabilidades de
Poisson para os valores de x igual a 0, 1, 2, 3, 4, 5 e 6:

2.5 EXERCCIOS

Estudo De Caso Binomial

O seu fornecedor de materiais alega que est cumprindo com as exigncias
contratuais de fornecimento com uma taxa de defeito no maior que
1%. Suponha que durante uma auditoria no seu estoque, voc colha
uma amostra de 20 itens, aleatoriamente. Considerando que a taxa de
defeito 0,01 qual a probabilidade de que voc no encontre nenhum
defeito nessa amostra de 20 itens?
Estudo De Caso Poisson 01
Tubos de plstico so produzidos com a mdia de um defeito (falha)
a cada 30 metros. Se os tubos so cortados em tiras de 3
metros, qual ser a proporo de tiras que contenham defeito?
Estudo De Caso Poisson 02
O Problema do Enfermeiro
Em um determinado hospital, os enfermeiros trabalham em turnos de 8
horas na enfermaria.
Se h em mdia, 6 situaes de emergncia por dia, nos pacientes
internados nessa enfermaria, e caso acontea, o enfermeiro fica em
torno de 1 hora atendendo a emergncia.
Quantos enfermeiros so necessrios, em qualquer turno, para que se
tenha no mais que 1% de chance de uma situao de emergncia no
ser atendida?

3.0 A DISTRIBUIO NORMAL
Exemplo: Observamos o peso, em kg, de 1500 pessoas adultas selecionadas ao
acaso em uma populao.
O histograma por densidade o seguinte:

60
45
15
30
a distribuio dos valores aproximadamente simtrica em torno de 70kg;
A anlise do histograma indica que:
- a maioria dos valores (88%) encontra-se no intervalo (55 - 85);
- existe uma pequena proporo de valores abaixo de 48kg (1,2%) e acima de 92kg
(1%).
Vamos definir a varivel aleatria:
A curva contnua da figura denomina-se curva Normal.
Como se distribuem os valores da varivel aleatria X, isto , qual a distribuio de
probabilidades de X ?
X: peso, em kg, de uma pessoa adulta escolhida ao acaso da populao.
A distribuio normal uma das mais importantes distribuies contnuas de
probabilidade pois muitos fenmenos aleatrios comportam-se de forma
prxima a essa distribuio.
Exemplos de dados contnuos que obedecem a uma distribuio normal so:
Medies do peso de pes;
Peso de uma poro de carne;
Comprimento de vrios lpis;
Confirmao da real quantidade de suco em uma garrafa;
Tempo de realizao de uma determinada tarefa;
Tempo de resposta de certo exame;
Consumo de gua de certa residncia.
Em todos esses casos, se espera que os valores estejam em torno de um valor
central, mas admite-se certa variabilidade em torno desse valor central.
Considere o seguinte exemplo:
Dados do consumo de gua, em litros por dia, em uma determinada residncia. Qual
a estimativa mdia de consumo por dia? Qual a faixa de consumo mnimo?
Qual a faixa de consumo mximo?

Para responder essa pergunta, temos que distribuir esses valores em faixas, e para
fazer essa distribuio, vamos utilizar a tcnica de distribuio que se aplica
distribuio normal.
Inicialmente tem-se que saber a quantidade total de dados, nesse caso 50 (n=50).

Em seguida, encontram-se os valores mximo e mnimo dessa amostra, e a
amplitude, que a diferena do valor mximo pelo valor mnimo. Nesse caso os
valores so:
Mximo = 47 Mnimo = 6 Amplitude = 41
Ento se estima a largura de cada faixa a ser observada utilizando-se da seguinte
equao:
Largura de Faixa = Amplitude / raiz (n)
Neste caso, a largura de cada faixa ser igual a [41/raiz(50)] = 5,80. Esse valor ser
arredondado, por questes prticas, para 6. Nesse caso, tm-se ento as faixas
de dados mostradas a seguir. Contando-se os valores dos dados
correspondentes a cada faixa, utilizando a conveno de incluir os dados nos
limites superiores das faixas, para que no haja contagem duplicada, tm-se os
resultados apresentados na coluna de frequncia observada.

Nesse exemplo de cmputo dos dados em cada faixa considerando o valor
do limite superior na faixa na prpria faixa, chama-se, em notao
matemtica, de intervalos abertos para o valor inferior da faixa e
intervalos fechados no valor superior da faixa.
Com os dados resumidos da tabela do consumo de gua, pode-se montar
um grfico da distribuio do consumo como apresentado a seguir.

Pode-se ento estimar que a faixa de consumo mdio entre
18 e 24 litros, que a faixa de consumo mnimo at 6
litros e que a faixa de consumo Mximo entre 42 e
48litros de gua por dia nessa residncia em particular.
Analisando os dados de consumo de gua atravs de uma estatstica
descritiva, obtm-se os seguintes resultados.

3.1 A DISTRIBUIO NORMAL PADRONIZADA
A distribuio Normal Padronizada representa uma distribuio normal
genrica, com mdia no ponto zero ( = 0) e desvio padro unitrio ( =
1).
Essa distribuio utilizada para que se faam estimativas relacionadas s
distribuies de dados coletados, bem como comparaes entre
distribuies diferentes.
A v. a. X tem distribuio normal com parmetros e
2
se sua funo
densidade de probabilidade dada por

Pode ser mostrado que:
1. o valor esperado (mdia) de X ( - < < );
2.
2
a varincia de X (
2
> 0).

Propriedades de X~ N( ;
2
)
E(X) = (mdia ou valor esperado);
Var(X) =
2
(e portanto, DP(X) = );
x= ponto de mximo de f (x);
f (x) 0 quando x
- e + so pontos de inflexo de f (x);
a curva Normal simtrica em torno da mdia .

Considerando, atravs da estatstica descritiva obtida, os valores da mdia e desvio
padro do consumo de gua como sendo 22,88 e 7,93, respectivamente, as
faixas de + 1 desvio padro, +2 desvio padro e +3 desvio padro so:
A Distribuio Normal Padronizada dividida em faixas, onde cada faixa
tem o tamanho do desvio padro. Os estudos da distribuio normal
estabeleceram a probabilidade de concentrao de resultados em cada
faixa da distribuio. Essas probabilidades podem ser aplicadas a
quaisquer distribuies de dados contnuos, desde que se verifique que
eles obedecem s caractersticas da distribuio normal.
Tomemos como exemplo os dados de consumo de gua anteriormente
apresentados. Ao observar o grfico da faixa de consumo de gua,
verificamos um formato muito semelhante ao formato da distribuio
normal padronizada. Para ter-se certeza dessa afirmao necessrio
que se faa um teste de hiptese de normalidade, mas vamos
considerar que esse teste j foi feito e que os dados apresentados
obedecem a uma distribuio normal.
3.2 O TEOREMA DO LIMITE CENTRAL
Para muitos estatsticos como o conceito mais importante de toda a teoria
estatstica o teorema do limite central, ligao entre a distribuio
normal e as distribuies de amostragem, considerado como a chave da
estocstica.
O teorema do lime central postula que, para quase todos os tipos de
populao de dados, a distribuio das mdias das amostras pode ser
aproximada por uma distribuio normal, desde que o tamanho das
amostras seja suficientemente grande.
Consideremos um exemplo prtico do teorema do limite central a anlise de uma
populao de dados, cujo formato esperado de sua distribuio o de uma
distribuio uniforme.
Para confirmar isso, vamos realizar alguns lanamentos de dados, digamos 200, em
20 sries de 10 lanamentos. O resultado desses lanamentos pode ser
observado na tabela a seguir.
Computando-se os valores dos resultados iguais a 1, 2, 3, 4, 5 e 6, temos na tabela a
seguir o resumo das observaes.

Representando graficamente as propores das observaes, pode-se ver que a
distribuio da quantidade dos valores observados se aproxima de uma
distribuio uniforme.

Entretanto, ao avaliar a coluna representando a mdia de cada srie de 10
lanamentos, tem-se o seguinte resultado:

Desta forma, a distribuio da mdia das 20 sries de 10 lanamentos fica conforme
o grfico da figura a seguir, o que notadamente se encaixa com o formato de
uma distribuio normal.

3.3 O HISTOGRAMA
Suas aplicaes no se encerram na observao do formato da distribuio. Utiliza-
se o histograma tambm para se observar algum padro que possa dar um
maior entendimento do processo que originou os dados coletados. Alguns pontos
de observao mais comuns podem ser exemplificados na figura a seguir.
Entretanto, para melhor se observar as caractersticas dos dados representados no
histograma, um adequado ajuste de escala deve ser feito. Esse ajuste de escala
depende da faixa de valores utilizada para computar as frequncias observadas.
Essas faixas so tambm chamadas de intervalo de classe ou w (do termo ingls
width, que significa largura).
3.4 EXERCCIOS

1. Altura dos Alunos
Com os dados do Exerccio de Estatstica Descritiva da Aula 01
construa um histograma das alturas dos alunos da sala de aula.
Comente os resultados.
2. Produo de Leite
Os dados relacionados a seguir, referem-se a produo diria de
leite de vacas da raa Holandesa obtida em duas ordenhas, em
Kg.

Faa a Estatstica Descritiva e o Histograma desses dados. Comente
os resultados.

3. Tanques de leo
Os dados que seguem (j ordenados) referem-se tonelagem (em milhares
de toneladas) de grandes tanques de leo.

a. Construa uma tabela de frequncias (absolutas, relativas e acumuladas) para
esses dados utilizando sete classes e intervalo constante.
b. Represente graficamente o conjunto de frequncias relativas.
c. Indique no grfico o local aproximado da mediana e da moda.

DA POPULAO
Estimar qual a mdia da populao com base na mdia da amostragem
um dos problemas mais comuns na estatstica inferencial. O fato de isso
ser um problema corriqueiro e importante pode ser evidenciado por
alguns dos cenrios apresentados a seguir, onde a obteno do valor
mdio da populao pode ser invivel (por razes de custo ou tempo) ou
at mesmo por ser impossvel.
a) O gerente regional de uma rede de lojas necessita saber qual o tempo mdio de
permanncia dos clientes nas filas dos caixas aps ter instalado um novo
sistema de cdigo de barras nos produtos.
b) Uma empresa area gostaria de saber qual o tempo mdio de vida dos trens de
pouso das aeronaves de sua frota.
c) Uma empresa preocupada com o nvel de estresse dos seus funcionrios quer
estimar qual a presso sangunea mdia deles.
d) O departamento de trnsito gostaria de estimar o trfego mdio em um
determinado horrio (em nmero de carros) de um importante cruzamento da
cidade.
e) Um gerente de frota de veculos de uma empresa de transporte coletivo gostaria
de estimar o consumo mdio de gasolina dos nibus de sua frota.
f) Um hospital particular gostaria de estimar a proporo mdia de atrasos nas
cobranas em funo de erros do seu pessoal interno.
g) Uma empresa de software gostaria de estimar o nmero mdio de desvios a cada
1000 linhas de cdigo de programa.
Vamos ilustrar agora como dados amostrados podem ser utilizados para
estimar a mdia da populao. Consideremos o cenrio do
supermercado apresentado anteriormente. Atravs de uma amostra
aleatria de 36 clientes e do registro do tempo que permaneceram no
caixa do supermercado, temos os dados presentados na tabela a seguir.
Desses dados amostrados ns gostaramos de estimar a mdia da
populao (), isto , a verdadeira, mas desconhecida, mdia de tempo
de permanncia no caixa de todos os clientes. A mdia da amostra
desses dados = 14 minutos, e certamente pode ser utilizada para
se estimar a mdia . Este tipo de estimativa chamado de estimativa
de ponto, porque um simples nmero utilizado para a estimativa.
Com o conceito de distribuio da mdia das amostras do teorema do
limite central, podemos quantificar o erro associado com a essa
estimativa. Isso pode ser feito atravs do desenvolvimento de um
mtodo chamado de estimativa de intervalo para a mdia da
populao.
O teorema do limite central postula que a distribuio de onde foi obtida a
mdia = 14 minutos um cenrio de uma distribuio normal. Ento,
a mdia da populao est no centro dessa distribuio, apesar de
no sabermos o seu valor

Dessa forma, intuitivamente foi estabelecida seguinte equao: =
erro
Onde esse erro, depende de algumas consideraes estatsticas. Aps
algum desenvolvimento matemtico com base na distribuio normal
padronizada, tambm chamada de distribuio Z, esse erro foi
estabelecido como sendo:
erro = Z . ( /)
Onde Z um valor padronizado em funo do nvel de confiana (chamado
) na estimativa, o desvio padro e n o tamanho da amostra.
Essa estimativa de erro considera que o desvio padro da populao
conhecido, entretanto, se o tamanho da amostra n maior ou igual a
30, pode-se utilizar o desvio padro da amostra como estimativa do
desvio padro da populao.
A tabela a seguir mostra os valores de Z mais utilizados para a estimativa
de intervalo, em funo do nvel de confiana .

Estimativas de intervalo normalmente utilizam um desses nveis de
confiana para . Caso seja necessrio um nvel de confiana diferente
desses valores apresentados, deve ser consultada uma tabela
detalhada dos valores e Z.

Desta forma, considerando os 36 dados de minutos de permanncia dos clientes no
caixa do supermercado, um valor de 95% de confiana, e considerando = 5,0
como o desvio padro conhecido da populao, pode ser feita a seguinte
estimativa de intervalo:
= Z . ( /)
= 14 1,96 . ( 5,0 /36)
= 14 1,63
Dessa forma, podemos afirmar que a mdia da populao est entre o seguinte
intervalo, com uma probabilidade de 95% = 12,37 < < 15,63
Sabendo que o estabelecimento de uma probabilidade envolve variveis aleatrias,
e um valor desconhecido, no uma varivel, os estatsticos preferem utilizar o
termo confiana ao invs de probabilidade.
Dessa forma, a declarao que pode ser feita nesse caso :

DA POPULAO ( DESCONHECIDO)
O clculo do intervalo de confiana para a mdia da populao
considerando o desvio padro da populao desconhecido, difere
ligeiramente da condio anterior, com a substituio da distribuio Z
pela distribuio t-student, conforme mostrado na equao a seguir.
= t (n-1 , /2) . ( s /)
onde s o desvio padro da amostra, e t o valor da distribuio t-student
determinado em funo do grau de liberdade (n-1) e do risco (/2)
estabelecido para o teste.
Considerando o mesmo exemplo da seo anterior, o clculo do intervalo de
confiana fica da seguinte forma:

t (36-1 , 0.05/2) = 2,34 (valor obtido de uma tabela ou software estatstico)
S = 4,2
= 14 2,34 . ( 4,2 /36)
= 14 1,64

Dessa forma, podemos afirmar que a mdia da populao est entre o seguinte
intervalo, com uma probabilidade de 95%.

12,36 < < 15,64
4.3 INTERVALO DE CONFIANA PARA A
PROPORO DA POPULAO
Na seo anterior foi apresentada uma estratgia para se determinar
estimativas da mdia de uma populao de dados contnuos. Quando
os dados so discretos h interesse em estimativas da proporo da
populao, com base na proporo p da amostra, pode-se utilizar a
seguinte equao alternativa.

Onde p a proporo da amostra e n o tamanho da amostra.
Essa equao pode ser utilizada se n for suficientemente grande. Em
termos prticos pode se considerar atravs da verificao se n.p > 5 e
n(1-p) > 5.

Considere o seguinte exemplo.
Nas proximidades de uma eleio, certa empresa de pesquisa de opinio
entrevistou 2.400 eleitores de forma aleatria e perguntou sobre as
preferncias de voto, sendo computados 42% de inteno de votar no
candidato que estava atualmente no cargo.
Calcule, com um nvel de confiana de 95%, qual o intervalo de confiana
para a verdadeira, mas desconhecida, proporo de votos que esse
candidato pode ter.

Resposta: Sendo p = 0,42 ; n = 2.400 e Z = 1,96, pode- se calcular

4.4 TESTE DE HIPTESES
Uma hiptese estatstica uma afirmao sobre algum estado real da natureza que
no completamente compreendido. Alguns exemplos podem ser:
a) A mdia de consumo de combustvel difere em funo do uso do tipo de
combustvel A ou B;
b) O tipo de analgsico determina a quantidade de alvio dor;
c) A probabilidade de morte em acidentes de carro difere, dependendo se os
passageiros utilizam cinto de segurana ou no;
d) A filtragem de elementos txicos melhor se utilizar o mtodo 1 ao invs do
mtodo 2;
e) A variabilidade na espessura da pea depende do tipo de ferramenta utilizada;
f) Estudantes oriundos de regies urbanas tem melhor desempenho na escola que
estudantes oriundos de regies rurais;
g) A fora de compresso de um determinado tipo de concreto est dentro das
especificaes;
h) A qualidade do produto depende do fornecedor de matria prima;
Uma hiptese a ser testada consiste de duas afirmaes complementares sobre um
estado real da natureza. Por exemplo, para um dado processo de medio de
tempo de resposta de um grupo de alunos, as seguintes hipteses podem ser
estabelecidas:
Ho = O tempo mdio de resposta dos alunos igual a 20 minutos.
H1 = O tempo mdio de resposta dos alunos no igual a 20 minutos.
Essas duas afirmaes complementares so definidas como hiptese nula (Ho) e
hiptese alternativa (H1). Como o estado real da natureza raramente
conhecido com 100% de certeza, essas duas afirmaes podem ser
argumentadas e testadas.
Uma analogia ao teste de hipteses pode ser feita com o sistema legal onde um
acusado em julgamento pressuposto inocente at que os acusadores
apresentem evidencias irrefutveis que convenam o contrrio. Nesse exemplo,
as hipteses a serem testadas so:
Ho = O ru inocente.
H1 = O ru culpado.
Independente da concluso do jri, eles nunca realmente tem certeza
sobre o estado real da natureza. Concluir Ho: O ru inocente no
significa que o ru de fato inocente. Uma concluso Ho simplesmente
significa que no se tem evidencias suficientes para justificar sua
condenao. Por outro lado, concluir H1 no prova que ele culpado,
ao invs disso, implica somente que as evidencias so irrefutveis e d
ao jri certo nvel de confiana em declarar o ru como culpado.
Considerando que os vereditos so dados com menos de 100% de certeza,
h uma probabilidade de erro em qualquer uma das duas concluses.
Considere a tabela a seguir, a probabilidade de cometer um erro Tipo I definida
como (0 < < 1) e a probabilidade de cometer um erro Tipo II definida como
(0 < < 1).

No exemplo do julgamento, , a probabilidade de condenar uma pessoa
inocente (erro Tipo I) a maior preocupao. Para minimizar o risco
desse tipo de concluses errneas, o sistema penal sempre requer
evidencias irrefutveis para concluir H1. Embora a minimizao de
tenha as suas vantagens, claro que buscar evidncias irrefutveis
para se concluir H1 pode aumentar o risco , a probabilidade do erro
Tipo II. Para resolver esse dilema, as hipteses estatsticas foram
concebidas de forma que:

i. A deciso mais crtica a que leva ao erro Tipo I;
ii. ajustado em um nvel mnimo, usualmente 5%, 1%, ou 0,1%
dependendo do quo critica a deciso associada ao erro (por exemplo,
em reas acadmicas ou sociais normalmente se utiliza 5%, enquanto
que em hospitais ou reas mais crticas, utiliza-se 1% ou 0,1%);
iii. Baseado nos itens acima, a afirmao a ser testada fica com um nvel de
confiana mnimo de (100% - ) com relao a Ho;
iv. A natureza de muitos testes estatsticos requer igualdade de condies
em H1;
v. Minimizar enquanto se mantm constante requer aumento nos
tamanhos das amostras.

De forma geral, os testes de hipteses podem ser agrupados em 3 tipos,
testes de valores contnuos, testes de valores discretos e testes no
paramtricos.
4.5 TESTES DE VALORES CONTNUOS
Considerando novamente o cenrio postulado pelo teorema do limite
central, os testes de valores contnuos levam em considerao os
parmetros relacionados com a distribuio normal, a saber, a mdia e
o desvio padro. Por esse motivo sero abordados testes de hipteses
relacionados com esses dois parmetros, considerando condies de
testes com uma e com duas amostras.
4.5.1 TESTE DA MDIA DA POPULAO COM 1
AMOSTRA
Para testar se a mdia de uma populao difere de um valor especfico o,
vamos conduzir um teste de uma amostra bicaudal atravs de um
exemplo.
O tempo de concluso de uma determinada atividade era de 16 horas (o)
no passado (desvio padro = 0.5). Como preparativo para a introduo
de um novo sistema, uma reviso completa foi feita nos procedimentos
dessa atividade.
Por fim, realizou-se um teste piloto durante algumas semanas aps essa
reviso. O resultado pode ser visto abaixo. Voc pode ver se houveram
melhorias?

No caso deste exemplo, P (0,0023) < R (0,025), pode-se dizer que a mdia
aps a reviso dos procedimentos menor que a mdia histrica.
Ou comparando com os valores de Z na curva normal Padronizada:

Como Zo 2,93 est na regio azul do grfico acima, rejeita-se Ho e
aceita-se H1.
Pode-se dizer que a mdia aps a reviso dos procedimentos menor que
a mdia histrica.

-1,96 0
No-Rejeitar
H
0
Rejeitar H
0

/2
Rejeitar H
0

/2
+1,96
4.5.2 TESTE DA MDIA DA POPULAO COM 2
AMOSTRAS
Para testar se a mdia de 2 populaes so diferentes, a nica diferena
no passo 3 anteriormente descrito, referente ao clculo do valor Zo, e
ser explicado atravs de um exemplo a seguir:
Para aumentar a vazo do processo, a empresa mudou alguns ajustes dos
parmetros. Em seguida a essa mudana, a vazo aumentou de uma
mdia 1,3 litros/seg. e desvio padro 0,2litros/seg. para uma mdia de
1,5 litros/seg. e desvio padro 0,1 litros/seg. Esta mudana em
funo da mudana nos parmetros ou mera variao no processo?
4.6 TESTES DE VALORES DISCRETOS
Para testar valores discretos, utiliza-se o mesmo procedimento dos testes
de valores contnuos, entretanto o clculo do valor Z feito da seguinte
forma:

4.7 EXERCCIOS
1- O valor mdio nacional do leo lubrificante R$ 6,00 (com desvio
padro de 50 centavos). Voc suspeitou que o preo do leo lubrificante
em sua regio maior que a mdia de preos nacional. Ento, voc
coletou amostras de 20 lojas em sua regio e encontrou uma mdia de
R$ 6,20 (com desvio padro de cinquenta e cinco centavos). Decida se
pode afirmar que o preo do leo lubrificante em sua regio mais caro
que a mdia nacional.

2- Os laboratrios A e B foram examinados e suas condies de
anlise foram remodeladas para evitar problemas ocasionados
por variaes em seus resultados de anlise. Aps isso, voc
conduziu uma anlise nos dois laboratrios utilizando 10
amostras padro, com o resultado mostrado na tabela abaixo.
Se no houver uma diferena significativa na mdia dos valores
analisados voc pode considerar como padro essas condies
de anlise. Considere que os dados possuem a dmenso de
mg/100 ml.

3- Pesquisas anteriores apontaram que 30% dos colaboradores estavam
satisfeitos. Uma campanha foi feita para aumentar esse ndice de
satisfao, seguida por uma nova pesquisa feita em 50 colaboradores
escolhidos aleatoriamente. Esta pesquisa revelou que 20 desses
colaboradores estavam satisfeitos. Comente sobre o resultado da
campanha.

5.0 ANLISE DE REGRESSO

5.1 Exemplo de Regresso Linear Simples
Observe os 16 pontos no grfico mostrado a seguir e desenhe uma
linha reta que corresponda ao que voc acredita ser a linha que
melhor representa esses dados (isto , desenhe uma linha de
regresso atravs desses pontos). A equao que representa
esta linha de regresso tem o formato de = bo + b1x.
O valor de bo pode ser obtido se a linha for extendida at o ponto
que intercepta o eixo y, onde bo corresponde ao valor resultante
dessa interseo.
J o valor de b1 a inclinao da reta. Para encontrar b1, obtenha
os valores de y quando x for igual a 0 e 10, respectivamente.
Subtraia o segundo valor de y do primeiro. A diferena chamada
de y. O clculo de x ser 10 0 = 10. Agora encontre y/x.
Quando terminar, voc ter encontrado os valores de b1 e bo.
Substitua os valores nos quadrados a seguir, e voc ter a equao
de regresso de y.

Voc pode querer comparar a sua soluo com as dos outros colegas de classe. Se
voc fizer isso, muito provvel que encontre diferentes solues provenientes
das outras pessoas. Essas comparaes mostram a diversidade de opinies a
respeito de como essa linha deve ser desenhada e, portanto, a diversidade de
combinaes de bo e b1.
y
x
natural perguntar, qual a melhor linha? Ou talvez, h uma melhor
linha?. Enquanto opinies so permitidas, devemos ter algum critrio
para definir uma melhor linha. H um mtodo chamado de mtodo
dos mnimos quadrados que o mais aceito como padro para
encontrar a melhor equao que encaixa esses dados. Este mtodo
tambm capaz de ser aplicado em dados que possuam mais de uma
varivel independente (por exemplo, = bo + b1x + b2x).
Ele fornece formas de julgar o qual bem foram estimados os coeficientes do
modelo real, alm de fornecer caractersticas de previso.
Matematicamente, a obteno dos valores de bo e b1 atravs do
mtodo dos mnimos quadrados resulta nas seguintes equaes:
Atravs dos dados originais, podemos obter os seguintes resultados:
Esses coeficientes obtidos atravs da equao apresentada e dos clculos
da tabela se aproximam dos valores estimados de olho que foram
feitos anteriormente, mas no so exatamente iguais.
Dessa forma, precisamos utilizar mtodos estatsticos de modelagem como
estes da regresso linear simples e mnimos quadrados para podermos,
de forma consistente, analisar dados amostrados.
5.2 A ANLISE DE REGRESSO
Considere o cenrio da medio do rendimento de determinado processo em
4diferentes nveis de temperatura: 70, 80, 90 e 100 graus Celsius.
Assuma que o nosso objetivo desenvolver um modelo que permita estimar a
resposta em nveis diferentes dos mencionados acima, bem como estar aptos a
determinar intervalos com relao a essas estimativas. Ns tambm desejamos
medir a efetividade desse modelo.
A tcnica chamada Regresso Linear Simples possibilita alcanar esses objetivos.
Assumindo que foram coletados trs valores de resposta, ou observaes, para cada
um dos quatro ajustes de temperaturas, conforme os dados mostrados na tabela
a seguir, um grfico representado a relao da temperatura com o rendimento
pode ser construdo.
Neste grfico, o segmento de reta construda a olho ou a mo livre representa a
linha de regresso. A proximidade de todas as observaes com a linha indica a
preciso da previso dos valores de y para uma dada temperatura.
O ponto chave da localizao da linha que ela fique num lugar que minimize a sua
distncia das observaes. Utilizando a frmula de uma funo linear
[f(x) = bo + b1x]
onde bo representa o ponto de interseo com o eixo y e b1 representa a inclinao
da reta, podemos estimar o valor de bo graficamente como zero, simplesmente
observando o grfico.
O valor da inclinao pode ser estimado atravs da medio da mudana de y (y)
para alguma mudana especifica de x (x), isto ,

Ento, a linha de regresso construda a mo pode tomar a seguinte forma,
y = 0,035x.
Considerando que todas as observaes no ficam nessa linha, obviamente
h certo erro em nossa linha estimada. Para incorporar esse erro na
formula de previso de y, vamos considerar:

Para incorporar esse erro na formula de previso de y, para um valor qualquer de x,
pode-se utilizar a equao y = bo + b1x, + , onde representa o erro, que
tipicamente considerado como normalmente distribudo em torno de zero.
Considera-se tambm que tem igual variabilidade para todos os valores de x,
dessa forma pode-se dizer que o erro independente.
O modelo matemtico y = bo + b1x, + aplicvel aos dados da populao, isto ,
todos os possveis valores de x e y.
A real equao de regresso desse modelo pode ser representada por E(y) = o +
1x. Porm o e 1 so parmetros desconhecidos da populao. Ento, a real
equao de regresso desconhecida.
Dados coletados atravs de experimentao e de processos controlados so dados
amostrados (um subconjunto da populao), e desta forma, utiliza-se de como
aproximao da equao real. Isto , , bo e b1 so estimativas de E(y) , o e 1
respectivamente.
Adicionalmente, ei chamado de i-simo resduo estimado do i. Esses termos so
representados no grfico da figura a seguir, onde se utiliza i associado com a i-
sima observao.

Elevando ao quadrado cada um dos lados dessa equao e somando todas
as observaes, aps algumas manipulaes, resulta na seguinte
equao:

SSE e SSR so representados pelas equaes:

Desta forma, em notao abreviada tem-se que

5.3 O COEFICIENTE DE CORRELAO
Uma forma de medir a fora da relao linear entre y e x o coeficiente de
correlao, cuja representao matemtica se d por:

Para o exemplo apresentado na primeira sesso desse captulo (Tabela
5.1), temos:

O valor de R limitado ao intervalo [-1,+1], onde -1 indica uma correlao
negativa perfeita e +1 indica uma correlao positiva perfeita.
Zero indica que no h correlao linear entre y e x.
Para a Regresso Linear Simples, o sinal de R ser o mesmo do valor b
(que representa a inclinao da reta). A frmula para R mostrada acima
chamada de frmula do coeficiente de correlao da amostra.
Quando |R| > 0,7 pode-se dizer que h uma correlao relativamente forte
entre x e y.
5.4 O COEFICIENTE DE DETERMINAO
Por outro lado, uma forma mais apropriada de medir a relao entre x e y
pode ser atravs de uma interpretao com base na variabilidade entre
eles e do clculo do coeficiente de determinao, denominado R2.
A proporo da variabilidade em y que explicada pelo relacionamento dos
valores de y com os valores de x medida pelo R2.
Para entender o significado de R2, considere a equao anteriormente
estabelecida, SST = SSR + SSE.
Se ambos os lados dessa equao forem divididos por SST, se obtm:
Como SST representa a soma quadrtica total, o termo SSE/SST representa
a proporo da variabilidade total dada pelos pontos ao longo da linha
de regresso, e SSR/SST representa a proporo da variabilidade total
que pode ser explicada utilizando a linha de regresso, ao invs da linha
horizontal , para prever os valores de y.
Utilizando um pouco de lgebra, pode ser mostrado que:

No exemplo da Tabela 5.1 o valor de R igual a 0,64.
Isso indica que 64% da variabilidade de y pode ser explicada atravs da
relao linear de y com x. A fora dessa relao linear entre essas duas
variveis est diretamente relacionada com a poro de variabilidade
em y que pode ser computada como em funo de x.
5.4.1 TESTANDO AS HIPTESES DE R2

Considerando que R2 computado de dados amostrados, ele apenas
uma estimativa de R2, a verdadeira (mas desconhecida) fora da
relao linear entre x e y ao longo de todas as suas populaes.
Nesse sentido, ns pretendemos testar o valor de R2 para garantir que ele
significativamente diferente de zero. Para tal, vamos formular as
seguintes hipteses:
Ho: R2 = 0 (hiptese nula)
H1: R2 0 (hiptese alternativa)
No caso da regresso linear simples, testar equivalente a testar o
parmetro da inclinao da curva, no caso 1. E de forma alternativa, o
teste de hipteses ficaria da seguinte forma:
Ho: 1 = 0 (hiptese nula)
H1: 1 0 (hiptese alternativa)
Em qualquer um dos casos, concluir Ho implica que os dados amostrados
no fornecem evidncias para indicar uma relao linear significativa
entre y e x. Concluir H1 indica a presena de uma relao linear
significativa com (1 - p)100% de confiana.
Alguns softwares estatsticos j fornecem esse valor de p sem a
necessidade de nenhum clculo adicional, como o caso do software
STATISTICA.

5.5 EXERCCIOS

1. Relacionando Altura e Peso:
Dadas as seguintes alturas (x) e pesos (y) de 12 homens, de acordo com a
seguinte tabela, construa um grfico de correlao dos dados
relacionando x e y.
Encontre os valores de bo e b1.
Construa a equao de regresso linear representando x e y. ( = bo + b1x.)

2. Custos versus Produo
Uma amostra de um determinado grupo de empresas trouxe os seguintes
dados:

a) Construa o grfico de correlao entre essas duas variveis.
b) Determine a equao de regresso linear.
c) Encontre o coeficiente de determinao.

3. Poluio versus Chuva :
Para estudar a poluio de um rio, um cientista mediu a concentrao de um
determinado composto orgnico (Y) e a precipitao pluviomtrica na semana
anterior (X), resumindo sua amostra de acordo com a tabela a seguir:

a) Construa o grfico de correlao entre essas duas variveis.
b) Determine a equao de regresso linear.
c) Calcule o coeficiente de determinao.
d) Existe alguma relao entre o nvel de poluio e a precipitao pluviomtrica?

6.0 ANLISE DE REGRESSO MLTIPLA

6.1 Exemplo Simples de Regresso Linear Mltipla
Observe o exemplo mostrado na tabela a seguir. Sendo y (Salrio Anual) a
varivel dependente e relacionando o par de variveis x1 (Anos de
Educao) e x2 (Anos de Experincia) como as variveis explanatrias (ou
variveis independentes), pode-se pensar em estabelecer uma relao
entre essas variveis, utilizando a tcnica de regresso linear.
Neste caso, quando h mais de uma varivel explanatria, denomina se
regresso linear mltipla.

O mesmo mtodo dos mnimos quadrados capaz de ser aplicado em
dados que possuam mais de uma varivel independente (por exemplo
= bo + b1x + b2x). Ele fornece formas de julgar o quo bem foram
estimados os coeficientes do modelo real, alm de fornecer
caractersticas de previso.
Matematicamente, a obteno dos valores de bo, b1 e b2 atravs do
mtodo dos mnimos quadrados resulta na seguinte equao.:
= 0,98 + 1,24x1 + 0,99x2
Entretanto, para se avaliar adequadamente a qualidade dessa equao de
previso, algumas consideraes estatsticas precisam ser realizadas.,
o que caracteriza o mtodo de anlise de regresso mltipla.
6.2 A ANLISE DE REGRESSO MLTIPLA
No caso da regresso linear simples visto anteriormente, a utilizao do
mtodo dos mnimos quadrados possibilita encontrar os coeficientes de
uma equao de reta representando a relao entre as variveis x e y,
como pode ser visto na figura a seguir.
Os valores de bo e b1 so obtidos de forma a minimizar o ei, por esse
motivo a tcnica chamada de mtodo dos mnimos quadrados.
Entretanto, quando se tem 2 variveis independentes e se busca a relao
com uma varivel dependente das duas primeiras, atravs deste
mesmo mtodo dos mnimos quadrados, a equao de relacionamento
= bo + b1x + b2x representa um plano, como pode ser visualizado na
exemplificao da figura a seguir.
A tabela a seguir mostra o resultado obtido pelo software STATISTICA da
regresso mltipla do exemplo de salrio anual:

Ao avaliar o resultado de uma regresso linear mltipla, especial ateno
deve ser dada ao coeficiente de correlao R2 aos valores dos
coeficientes (b) e ao valor p (p-level) do teste de hiptese realizado para
cada varivel explanatria. O valor-p est associado ao risco a do teste
de hipteses.
Caso seja menor ou igual a 0,05, considera-se como relevante a incluso
da varivel no modelo matemtico da regresso linear mltipla. Se o
valor p estiver entre 0,05 e 0,10 a incluso da varivel pode ser
considerada. Caso o valor p seja maior que 0,10 no recomendada a
incluso da varivel no modelo da regresso linear mltipla.
6.3 EXEMPLO DE REGRESSO LINEAR
MLTIPLA COM 3 VARIVEIS
Considere o seguinte exemplo apresentado na tabela a seguir.
Para avaliar a quantidade de cartes de credito que uma famlia tem, foram
observadas 3 caractersticas dessa famlia: O tamanho, a renda familiar
mensal e quantidade de carros que a famlia possui.
Com base nesses dados, a anlise de regresso mltipla
mostra que a nica varivel recomendada para compor
uma equao de previso de y o tamanho da famlia,
com base no valor p. A figura a seguir mostra o resultado
do valor p de cada varivel, onde somente a varivel
tamanho da famlia apresentou valor p abaixo de 0,10.
6.4 EXERCCIOS

1 Estudo de Fecundao
Um bilogo marinho est estudando a reproduo de determinado peixe e
pretende entender como alguns fatores podem estar afetando a
fecundao da fmea (quantidade de ovos gerados).
Um modelo de regresso foi criado utilizando dados relativos ao nmero de
ovos e 3 variveis consideradas como possveis influenciadoras da
fecundao do peixe: Tamanho do peixe, Carga parasitria na gua e
percentual de gordura do peixe.
Os dados necessrios para a gerao do modelo de regresso linear so
apresentados na tabela a seguir.

Encontre o modelo de regresso linear mltipla e discuta quais fatores
podem ser considerados relevantes na fecundao dos peixes.

2 Evoluo do Preo Unitrio
Considere a tabela a seguir, que apresenta a evoluo anual do preo
unitrio de um produto e tambm a quantidade de unidades vendidas
deste produto.

Com base nos dados apresentados na tabela, deseja-se saber se h uma
relao do ano com a quantidade vendida e qual ser a previso da
quantidade de produtos vendidos quando o preo alcanar o valor
unitrio de 2,0. Esta previso deve considerar apenas os dados da
tabela, sem levar em considerao outros fatores.
3 As Vendas da Loja
Os dados apresentados na tabela a seguir so de uma cadeia de lojas de
certa rede de lojas nacional.
Utilizando a tcnica de regresso linear mltipla identifique quais so os
fatores que tem uma relao forte com as vendas mensais das lojas.
4 Os Custos de Manuteno
Um fazendeiro quer saber o custo de manuteno de seu caminho
durante o corrente ano, para tanto foram coletadas informaes de
quilometragem e tempo do caminho.
A tabela abaixo nos mostra esses valores.

7.0 DATA MINING (MINERAO DE DADOS)
A minerao de dados envolve o trabalho simultneo de problemas
complexos, vrias fontes de dados, diferentes qualidades de
dados, vrios algoritmos de extrao de conhecimento,
diferentes formas de medir o sucesso de minerao de dados, e
assim por diante.
Um roteiro pr-definido para minerao de dados garante que todos
os pontos importantes e as questes crticas sejam abordados e
que o minerador de dados no se perca em meio s
complexidades.
7.1 A METODOLOGIA CRISP-DM
O processo de minerao de dados modelo recomendado para uso
com o software Clementine o Cross-Industry Standard Process
for Data Mining (CRISP-DM). O modelo com as seis etapas pode
ser conhecido em detalhes pelo site www.crisp-dm.org.
1) Compreenso do Negcio Esta talvez a fase mais importante
da minerao de dados. A compreenso do negcio inclui a
determinao de objetivos de negcio, avaliao da situao,
determinao de metas de minerao de dados e a elaborao
de um plano de projeto.

2) Compreenso dos Dados Os dados fornecem a "matria prima"
de minerao de dados. Esta fase contempla a necessidade de
entender os recursos dos dados e as caractersticas desses
recursos. Isso inclui a coleta inicial de dados, descrio dos
dados, explorao dos dados e verificao da qualidade dos
dados.
3) Preparao dos Dados Depois de catalogar seus recursos de
dados, voc precisar preparar seus dados para a minerao. Os
preparativos incluem a seleo, limpeza, construo, integrao
e formatao de dados.

4) Modelagem Esta a etapa na qual os mtodos sofisticados de
anlise so usados para extrair informaes dos dados. Esta
fase envolve a seleo de tcnicas de modelagem, gerao de
projetos de teste, construo e avaliao dos modelos.
5) Avaliao Depois de escolhida e executada a modelagem,
chega-se a etapa de avaliar como os resultados de minerao de
dados podem auxiliar no alcance dos objetivos elencados na
etapa de compreenso do negcio. Nesta etapa faz-se avaliao
de resultados, a reviso do processo de minerao de dados e
determinao das prximas etapas.

6) Implantao a etapa de colheita dos benefcios. Esta fase
centra-se na integrao de seus novos conhecimentos aos
processos de modo a resolver um problema do negcio. Esta
fase inclui o plano de implantao, monitoramento manuteno,
elaborao de um relatrio final, e reviso do projeto.

No entanto, decises e informaes recolhidas durante a fase de
modelagem podem muitas vezes levar a repensar a fase de
preparao de dados. As duas fases realimentam e influencia
uma a outra, at que as questes sejam resolvidas
adequadamente.
O segundo ponto fundamental a natureza iterativa da minerao
de dados. Raramente suficiente planejar um projeto de
minerao de dados, execut-lo e, em seguida, dar como
finalizado o trabalho. A minerao de dados um esforo
contnuo.
O conhecimento obtido com um ciclo de minerao de dados, quase
invariavelmente, levam a novas questes, novos problemas e
novas oportunidades.
7.2 O DATA MINING E A METODOLOGIA CRISP-DM
Os conhecimentos especficos de um projeto ou negcio devem ser
utilizados conjuntamente com tecnologias avanadas para identificar
relaes subjacentes e as caractersticas dos dados. Padres
aparentemente inteis em dados descobertos pela minerao de dados
podem ser transformados em uma pea valiosa de informaes teis
com base na experincia de negcios e especializao.

Muitas das tcnicas utilizadas em minerao de dados so conhecidas
como "aprendizagem de mquina" ou "modelagem". Na minerao de
dados usam-se bases de dados para gerar modelos, que podem ser
aplicados posteriormente para classificao, predio, avaliao e apoio
deciso.
7.2.1 DISPONIBILIDADE DOS DADOS
Os dados precisam estar em um formato acessvel. So frequentes
os casos onde os arquivos de dados esto dispersos e em
formatos diferentes. H tambm a situao onde os dados no
esto em formato eletrnico, e precisaro ser digitalizados antes
do processo de minerao. Deve-se atentar tambm condio
sigilosa ou de proteo poltica ou jurdica dos dados.
7.2.2 ABRANGNCIA DOS DADOS
Para fazer um projeto de minerao de dados de valor, importante
que os dados contenham todos os elementos pertinentes. A
tarefa de identificar os fatores relevantes nos dados tambm
objeto da minerao de dados. No entanto, uma maior exatido
das previses pode ser conseguida se for dada maior ateno a
este aspecto.
7.2.3 RUDO
O rudo um termo coletivo dado a erros nos dados. Os rudos
podem se apresentar na forma de discrepncias o mesmo a
falta de dados. Quanto mais rudo houver nos dados, mais difcil
ser fazer previses precisas.
7.2.4 SUFICINCIA
Para cada problema deve-se analisar a quantidade de dados.
Muitas vezes no o tamanho dos dados que provoca
dificuldades na minerao de dados, e sim a natureza
representativa deles e cobertura de todos os possveis
resultados.
Tal como acontece com a maioria das tcnicas de anlise de dados,
quanto mais complexos os padres ou relacionamentos, mais
registros so necessrios para encontr-los.
Se os dados tm uma boa cobertura dos possveis resultados,
resultados razoveis podem ser atingidos mesmo com pequeno
nmero de registros.
7.2.5 CONHECIMENTO
Nem sempre a pessoa que cuida da tarefa de minerar os dados
conhece a problemtica envolvida e a natureza dos dados.
extremamente desejvel que haja pessoas disponveis para que
sejam consultadas e que conheam os problemas e dados em
anlise.
Pode vir da um auxlio na identificao de fatores relevantes, na
interpretao dos resultados e na eliminao de informaes
enganosas.

7.3 A ESTRATGIA DE DATA MINING
A minerao de dados muito mais eficaz se for feita de uma forma
sistemtica:
1) Qual o problema de fundo que se quer resolver?
2) Que fontes de dados esto disponveis, e que partes dos dados so
relevantes para o problema atual?
3) Que tipo de pr-processamento e limpeza de dados necessrio antes de
iniciar a minerao de dados?
4) Qual tcnica dever ser utilizada?
5) Como sero avaliados os resultados da minerao de dados?
6) Como voc vai tirar o mximo proveito das informaes obtidas a partir de
minerao de dados?
7.4 APLICAES DO DATA MINING
Aplicaes de Data Mining tm sido observadas em vrias reas do
conhecimento, entre elas esto as finanas, a sade,
criminologia, sociologia, ecologia, saneamento bsico,
climatologia, atuaria, manufatura, controle de qualidade,
marketing e medicina.
7.4.1 DATA MINING EM COMRCIO
Grandes grupos supermercadistas utilizam Data Mining para
estudar o comportamento de compra de seus clientes.
Atravs do cadastramento de clientes com um carto especfico,
que utilizado no momento da compra, identifica as
caractersticas pessoais do cliente, tais como, sexo, idade,
estado civil, etc, e as caractersticas dos produtos adquiridos.
A anlise dos dados pode motivar novos clientes ou ainda manter a
clientela padro, com promoes, eventos, vendas casadas,
entre outras.
7.4.2 DATA MINING EM FINANAS
Bancos, instituies financeiras e entidades de proteo ao crdito,
vm utilizando tcnicas de Data Mining em seus bancos de
dados para criar sistemas de avaliao de crdito, objetivando
predizer se o cliente ser adimplente ou inadimplente.
7.4.3 DATA MINING EM SEGUROS
Grandes companhias de seguro apresentam perdas devido ao
cancelamento de aplices e custos gerados para obteno de
novos clientes.
Ferramentas de Data Mining podem ser utilizadas analisando as
caractersticas dos clientes, predizendo quem cancelaria as suas
aplices com certa margem de segurana.
7.4.4 DATA-MINING EM CINCIA E TECNOLOGIA
Tcnicas Data Mining esto encontrando padres de estruturas
moleculares, dados genticos, mudana global no clima e na
temperatura.
O NASA Jet PropulsionLaboratory (JPL) e Caltech,Inc.
desenvolveram o SKICAT (SKY Image Cataloging and Analysis
Tool), um avanado sistema Data Mining para analisar e
catalogar automatizadamente descobertas do segundo
Observatrio Espacial Palomar.
Com as tcnicas de data mining os astrnomos da Caltech
obtiveram em menos de seis meses resultados que levariam 3
ou 4 anos com os mtodos tradicionais.
7.4.5 DATA-MINING NO PODER JUDICIRIO
Beverly Cook, uma pesquisadora da Universidade de Wisconsin
em Milwaukee, modelou algumas aplicaes Data Mining com
o software IDIS para avaliar um processo judicirio que envolvia
a pena de morte - foram correlacionados dados como opinies
pessoais e votos dados pela Suprema Corte de Justia
americana em referncia a um caso especfico que esteve em
julgamento, conhecido como o caso Byron White.
O relatrio final da Universidade indicava que o comportamento
de escolha pela penalidade de morte estava sempre
relacionado com filiao do membro do jri ao bloco
conservador da Corte de Justia, e que o seu padro de voto
era geralmente ligado raa do acusado.
7.4.6 DATA-MINING NA SADE
Pesquisadores da Universidade Changhua de Taiwan, propuseram
um processo de data mining para deteco de casos abusivos
ou fraudulentos nos sistemas de sade.
A motivao do trabalho vem da constatao do grande percentual
de comportamentos abusivos e fraudulentos ocorridos nos
sistemas de seguro sade.
Com o trabalho foram construdos modelos a partir dos quais se
distinguiam automaticamente, comportamentos fraudulentos de
atividades normais
Pesquisadores da Alabama University apresentaram um processo
de data-mining para anlise de dados capaz de identificar,
automaticamente, novos e interessantes padres nos dados
referentes a infeco hospitalar e vigilncia sanitria.

7.4.7 APLICAES DO DATA MINING EM UNIVERSIDADES
Utilizando as tcnicas da minerao de dados, os responsveis pelo
Vestibular da PUC/RJ detectou a seguinte regra: se o candidato
do sexo feminino, trabalha e teve aprovao com boas notas no
vestibular, ento no efetiva a matrcula. Estranho, ningum
havia pensado nisso.
Mas uma reflexo justifica a regra oferecida pelo programa: de
acordo com os costumes do Rio de Janeiro, uma mulher em
idade de vestibular, se trabalha porque precisa, e neste caso
deve ter feito inscrio para ingressar na universidade pblica
gratuita. Se ela teve boas notas provavelmente foi aprovada na
universidade pblica onde efetivar matrcula.
7.5 O STATISTICA DATA-MINER
O STATISTICA Data Miner fornece o mais abrangente conjunto de
ferramentas para anlise, gesto e visualizao de bases de
dados e Data Mining.
As suas tcnicas incluem a mais vasta seleo de modelao
preditiva, agrupamentos (clustering) e ferramentas exploratrias
- tudo numa nica plataforma.
O STATISTICA Data Miner uma avanada plataforma de
modelagem preditiva e descoberta de conhecimento, com uma
das mais amplas selees de algoritmos analticos e tcnicas
estatsticas presentes em um nico software.
7.5.1 CARACTERSTICAS DO STATISTICA DATA MINER
Um dos sistemas mais completos do mercado, pois possui as principais
tcnicas estatsticas e as principais tcnicas computacionais de inteligncia
artificial.
Disponibiliza mais de 11.000 funes analticas, grficas e de gerenciamento
de dados, alm da mais ampla e exaustiva coleo de algoritmos de mquina
de aprendizado do mercado, a sua disposio incluindo:
Support Vector Machines
EM and k-Means Clustering
Classification & Regression Trees
Generalized Additive Models
Independent Component Analysis
Stochastic Gradient Boosted Trees

Suas caractersticas so altamente otimizadas com algoritmos
refinados, verdadeiro processamento multi-threading (cliente-
servidor) local e remoto de banco de dados, totalmente
disponibilizado em ambiente WEB, com uma incomparvel
escalabilidade para banco de dados da ordem de terabytes;
Suporta todos os padres de formatos de arquivos de dados
industriais bem como os padres ODBC, OLE DB e SQL..
Todas as anlises podem ser customizadas de forma simples e
convencional via mtodos de arrastar e soltar ou via a linguagem
padro da indstria o Visual Basic;
7.6 PRINCIPAIS TAREFAS DO DATA MINING
Em geral, as tarefas do data mining podem ser classificadas em
duas categorias.
O data-mining descritivo descreve o conjunto de dados de uma
maneira concisa e resumida e apresenta propriedades gerais
interessantes dos dados;
O data-mining preditivo constri um ou um conjunto de modelos,
realiza inferncias sobre o conjunto de dados disponveis e tenta
predizer o comportamento de novos conjuntos de dados.
7.6.1 CLASSIFICAO
Analisa um conjunto de dados de treinamento (i.e., um conjunto de
objetos cuja classificao j conhecida) e constri um modelo
para cada classe baseado nas caractersticas dos dados.

Uma rvore de deciso ou um conjunto de regras de classificao
gerado por tal processo de classificao, que pode ser usado para
entender melhor cada classe no banco de dados e para
classificao de futuros dados.

Por exemplo, a descrio de classe pode ser usada para comparar
clientes e promover a segmentao deles em cliente prime, gold
e silver.
Esta estratgia bastante utilizada nos programas de milhagem e
de cartes de crdito:
Um modelo de classificao deve ser induzido. Por exemplo, com
base na tabela 1 de registros histricos de um clube de tnis,
tem-se as informaes de tempo, vento, umidade e temperatura
e o status sobre a deciso de jogar ou no.
Com base na tabela anterior, pode-se induzir um modelo e
posteriormente utiliz-lo para a tomada de deciso. A figura a
seguir ilustra o modelo gerado.
7.6.2 ASSOCIAO
Uma regra de associao da forma X Y interpretada como
"tuplas (conjunto de valores de atributos) de base de dados que
satisfazem X so provveis que satisfaam Y".
Anlise de associao extensamente usada em "transaction data
analysis for directed marketing", design de catlogo e outros
processos de decises comerciais.
Um exemplo clssico utilizado aqui o do WALMART. Esta rede
identificou um hbito curioso dos consumidores.
Ao procurar eventuais relaes entre o volume de vendas e os dias
da semana, o software apontou que, s sextas-feiras, as vendas
de cervejas cresciam na mesma proporo que as de fraldas.
Crianas bebendo cerveja?
No. Uma investigao mais detalhada revelou que, ao comprar
fraldas para seus bebs, os pais aproveitavam para abastecer as
reservas de cerveja para o final de semana.
7.6.3 AGRUPAMENTO
Anlise de "clusters" ou de agrupamento consiste em identificar
possveis agrupamentos nos dados, onde um agrupamento
uma coleo de objetos que so "semelhantes uns aos outros.
Um bom exemplo dado na figura a seguir:
Ela expressa uma amostragem de Idade Vs Salrio de alguns
jogadores de futebol. Tem-se no eixo Y a faixa salarial e no eixo X
a distribuio de idade.
A partir de um processo de clusterizao, pode-se encontrar 4
classes de jogadores, conforme expresso na figura.
Na figura a seguir observa-se os 4 agrupamentos obtidos atravs de
uma tcnica de clusterizao denominada K-Means.
O grupo em vermelho composto por jovens atletas, entre 15 e 19 anos
com faixa salarial bem inferior a R$ 20.000,00.
Em azul escuro tem-se um grupo de atletas de 28 a 36 anos com faixa
salarial abaixo de R$ 20.000, mas superior a mdia de salrios do
grupo vermelho.
Em verde tem-se um grupo de jogadores entre 34 e 35 anos e com faixa
salarial em torno de R$ 300.000,00. Em azul claro tem-se um jogador
de 19 anos e com salrio de R$ 1.000.000,00.
Anlise de srie temporal - analisa um grande conjunto de dados de
sries temporais para encontrar certas regularidades e
caractersticas interessantes, incluindo a pesquisa de
sequncias ou subsequncias semelhantes e descobrindo assim
padres sequenciais, periodicidades, tendncias e divergncias.
Por exemplo, pode-se predizer a tendncia dos valores das aes da
Petrobrs em um momento futuro baseando-se em sua histria
acionria, situao empresarial, desempenho dos competidores
e mercado atual.
8.0 RVORES DE DECISO
Segundo Tan Pagn-Ning, em seu livro Introduo ao Data Mining, as
rvores de deciso so modelos estatsticos que utilizam um
treinamento supervisionado para a classificao e previso de dados. O
treinamento supervisionado aquele onde utilizado um conjunto de
treinamento formado por entradas e sadas.
Assim, os valores da classe ou atributo da classe so conhecidos.
As sadas podem ter domnios contnuos (numricos) ou discretos
(categricos).
Se o domnio do atributo classe discreto, tem-se um problema de
classificao.
Se numrico, tem-se um problema de regresso ou aproximao de
funes.
Surge da os dois propsitos da classificao: a modelagem descritiva e a
modelagem preditiva.
A modelagem descritiva til quando se quer descrever o motivo pelo qual
um determinado exemplo pertence a uma determinada classe.
Na modelagem preditiva, um modelo utilizado para classificar exemplos
cujas classes so desconhecidas.

Os dados de entrada so definidos pelo par ordenado (x,y), em que
x um vetor que representa os atributos preditivos, x= (x
_1+x_2+x_3,,x_n) , e y o rtulo da classe qual este exemplo
pertence.
Alguns pares ordenados podem ser tomados como conjunto de
treinamento, e a partir deste conjunto de dados, faz-se a
inferncia indutiva, que pode criar hipteses verdadeiras ou no.
Um grande desafio para os algoritmos de aprendizado construir
modelos que possuam boa capacidade de generalizao, ou
seja, consigam predizer com alta taxa de acerto, rtulos de
classe para exemplos que no foram utilizados na construo do
modelo.
Outra caracterstica dos classificadores a ser observada diz respeito
a interpretabilidade do conhecimento adquirido. As redes
neurais criam classificadores do tipo Black-box onde o
conhecimento obtido estar representado pelo peso das
entradas dos neurnios. J o conhecimento obtido por rvores
de deciso e explicitado a partir de regras do tipo SE (condio)
ENTO (classe). Estas regras so expressas em linguagem
natural, facilitando o entendimento por parte das pessoas.
A avaliao do desempenho de um modelo de classificao
baseado nas contagens dos registros de teste previstos correta
e incorretamente pelo modelo.
Estas contagens so tabuladas em uma tabela conhecida como
matriz de confuso. A tabela 8.1 mostra a matriz de confuso
para um problema de classificao binria.

Cada entrada f_ii nesta tabela denota o nmero de registros da
classe 0 previstos incorretamente como classe 1.
Baseado nas entradas da matriz de confuso, o nmero total de
previses corretas feita pelo modelo (f_11+f_00 ) e o nmero
total de previses incorretas (f_10+f_01 ).
Embora a matriz de confuso fornea as informaes necessrias para
determinar o quo bem um modelo de classificao executado,
resumir estas informaes com um nico nmero tornaria mais
conveniente comparar o desempenho de diferentes modelos.
Isto pode ser feito usando uma mtrica de desempenho como a preciso
que pode ser definida conforme a equao a seguir.

De forma equivalente, o desempenho de um modelo pode ser expresso em
termos da sua taxa de erro, que dada pela equao a seguir.

8.1 CARACTERSTICAS DA RVORE C&RT
Segundo J. Fonseca em sua dissertao de mestrado intitulada
Induo de rvores de deciso, as rvores do tipo
Classification and Regression Tree (C&RT) foram propostas por
Friedman Breiman e consistem numa tcnica no paramtrica
que induz tanto rvores de classificao quanto rvores de
regresso, dependendo se o atributo de classe categrico
(classificao) ou contnuo (regresso).
Uma das principais virtudes da C&RT a grande capacidade de
pesquisa de relaes entre os dados, mesmo quando elas no
so evidentes, bem como a produo de resultados sob a forma
de rvores de deciso de grande simplicidade e legibilidade.
Para Mrcio Porto Basgalupp, as rvores geradas pelo algoritmo C&RT so
sempre binrias, as quais podem ser percorridas da sua raiz at as
folhas respondendo apenas a questes simples do tipo sim e no.
Os ns de deciso que correspondem aos atributos categricos so
representados por agrupamento de valores em dois conjuntos. O
algoritmo usa a tcnica de pesquisa exaustiva para definir os limiares a
serem utilizados nos ns para dividir atributos contnuos.

8.2 INDUO DE UMA RVORE DE DECISO
A figura a seguir representa uma rvore de deciso onde cada n de
deciso contm um teste para algum atributo, cada ramo descendente
corresponde a um possvel valor deste atributo, cada folha est
associada a uma classe e, cada percurso da rvore, da raiz folha
corresponde uma regra de classificao.
No exemplo a raiz da rvore o atributo carga de energia. Trata-se da raiz
porque no h ramos chegando e h um ou mais ramos saindo. Os
nodos internos so Gerao Hidrulica e Gerao trmica, visto que tais
ns possuem ramos chegando e saindo. As folhas ou ns terminais so
PLD1, PLD2, PLD3, PLD4 e PLD 5. PLD a sigla para o preo da energia
eltrica.
No espao definido pelos atributos, cada folha corresponde a um
hiper-retngulo onde a interseo destes vazia e a unio todo
o espao, conforme a figura a seguir.

Na fase de construo da rvore de deciso, uma rvore gerada
pelo particionamento recursivo dos dados de treinamento. O
conjunto de treinamento separado em duas ou mais parties
usando restries sobre os conjuntos de valores de cada
atributo.
O processo repetido recursivamente at que todos ou a maioria
dos exemplos em cada partio pertenam a uma classe. A
rvore gerada abrange todo o conjunto de treinamento e
construda por meio da estratgia de busca em largura.
Assim, todos os ns em uma determinada altura da rvore devem
ser processados antes do incio do processo do nvel
subsequente.
Uma vez determinado o melhor ponto de separao de cada n, as
parties podem ser criadas pela simples aplicao do critrio
de separao identificado.
Para a o tipo de rvore sob anlise, C&RT, o ndice utilizado o
ndice Gini.
8.3 NDICE GINI
O ndice Gini utilizado nas rvores do tipo C&RT para isolar num
ramo da rvore os registros que representam a classe mais
frequente. Segundo Breiman et al. (1984), o ndice mede o grau
de heterogeneidade dos dados.
Para cada diviso ocorrida a partir da criao de um n, deve-se
calcular o gini index. Trata-se de uma medida de impureza,
calculada conforme a equao a seguir.

8.4 PASSO-A-PASSO NO STATISTICA
Passo 1: O primeiro passo no desenvolvimento do exerccio de criao de
rvores de deciso digitar o conjunto de registros em cima do qual
ser desenvolvida a experincia.
Crie uma spreadsheet e digite as informaes da figura abaixo. Atente para
acentos e maisculas/minsculas.
Passo 2: Clique no menu principal em Statistics, neste marque a
opo Data-Mining e ento escolha General Classification /
Regression Tree Models.

Passo 3: Escolha as opes Standard C&RT e Quick specs
dialog e clique em OK.

Passo 4: Marque a caixa de seleo categorical response visto a
base de dados ser formada por variveis nominais. Clique depois
no boto Variables.
Passo 5: escolha como varivel dependente a classe dos animais e
como variveis independentes os itens de 2 a 8, a saber:
temperatura corporal, cobertura de pele, ovparo, criatura
aqutica, criatura area, possui pernas e hiberna.
Passo 6: devido ao nmero de registros da amostra ser pequeno,
apenas 13 unidades, deve-se diminuir o nmero mnimo de
casos de 5 para 4, conforme a figura abaixo. Logo depois clique
em OK.
Passo 7: no menu de resultados clique na aba Summary e logo
depois em Tree Graph.
Passo 8: aparecer uma rvore conforme a figura abaixo.
Mamfero ovparo = no
Pssaro ovparo = sim + cobertura da pele = penas
Anfbio ovparo = sim + cobertura da pele = others
Peixe ovparo = sim + cobertura da pele = escamas + criatura aqutica
= sim
Rptil ovparo = sim + cobertura da pele = escamas + criatura aqutica
= no

Estatística Descritiva e Inferencial

Hochgeladen von

Dokumentinformationen

Originalbeschreibung:

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Estatística Descritiva e Inferencial

Hochgeladen von

Copyright:

Verfügbare Formate

EMENTA DO CURSO

1.0 PORQUE ESTATSTICA?

Das könnte Ihnen auch gefallen