Sie sind auf Seite 1von 65

NOES DE ESTATSTICA

Noes de estatstica

ndice geral
Introduo estatstica 1. Objecto da estatstica 2. Populao e amostra 3. Recenseamento e sondagem 4. Estatstica descritiva e estatstica indutiva 5. Campos de aplicao II. Dados, tabelas e grficos 1. Tipos de dados 2. Representaes grficas de dados III. Medidas de localizao 1. Introduo 2. Mdia 3. Moda 4. Mediana 5. Quantis IV. Medidas de disperso 1. Introduo 2. Varincia 3. Desvio-padro 4. Amplitude 5. Amplitude inter-quartil V. Distribuies bidimensionais 1. O que so 2. Representaes grficas 3. Coeficiente de correlao 4. Tabela de contingncia VI. Exerccios 1. Introduo estatstica 2. Dados, tabelas e grficos 3. Medidas de localizao 4. Medidas de disperso 5. Distribuies bidimensionais 6. Globais I.

Noes de estatstica

I. 1.

Introduo estatstica Objecto da estatstica


"Cincia que dispe de processos apropriados para recolher, organizar, classificar, apresentar e interpretar conjuntos de dados"

A estatstica fornece-nos as tcnicas para extrair informao de dados, os quais so muitas vezes incompletos, na medida em que nos do informao til sobre o problema em estudo, no realando, no entanto, aspectos importantes. objectivo da Estatstica extrair informao dos dados para obter uma melhor compreenso das situaes que representam. No estudo de um problema envolvendo mtodos estatsticos, estes devem ser utilizados mesmo antes de se recolher a amostra, isto , deve-se planear a experincia que nos vai permitir recolher os dados, de modo a que, posteriormente, se possa extrair o mximo de informao relevante para o problema em estudo, ou seja para a populao de onde os dados provm.

Exemplo: Se pretendemos estudar o sucesso escolar, em Portugus dos alunos do 10. ano, da Escola Secundria Prof. Herculano de Carvalho, ser natural ir consultar as pautas destes alunos, no final do ano. A partir da poder facilmente ser obtida a percentagem de aprovaes. Se, no entanto, pretendermos aprofundar um pouco mais este assunto, nomeadamente saber se o sucesso anlogo para os rapazes e raparigas, ou nos diferentes agrupamentos disciplinares, dever recolher-se no s a informao respeitante ao aluno ter passado ou no, mas tambm para cada um o sexo e o agrupamento disciplinar:
Agrupamento disciplinar 1 2 ... Nota 12 13 ... Sexo F M ...

Noes de estatstica

Uma vez os dados recolhidos, sob a forma de uma amostra, faz-se a reduo e representao desses dados, utilizando as tabelas e os diferentes tipos de grficos, sendo um dos principais objectivos desta fase, a identificao da estrutura subjacente aos dados, deixando de lado a aleatoriedade presente. Seguidamente o objectivo do estudo estatstico pode ser o de estimar uma quantidade ou testar uma hiptese, utilizando-se tcnicas estatsticas convenientes, as quais realam toda a potencialidade da Estatstica, na medida em que vo permitir tirar concluses acerca de uma populao, baseando-se numa pequena amostra, dando-nos ainda uma medida do erro cometido.

2.

Populao e amostra

Uma noo fundamental em Estatstica a de conjunto ou agregado, conceito para o qual se usam, indiferentemente, os termos Populao ou universo.

2.1-Populao

Coleco de unidades individuais, que podem ser pessoas ou resultados experimentais, com uma ou mais caractersticas comuns, que se pretendem estudar.

Exemplo 1: Relativamente populao constituda pelos alunos do 10. ano de escolaridade matriculados na Escola Secundria dos Olivais n. 2, podemos estar interessados em estudar as seguintes caractersticas populacionais:

- Altura (em cm) dos alunos: Depois de medir a altura de cada aluno, obteramos um conjunto de dados com o seguinte aspecto: 145, 161, 158, 156, 146, ... ,140, 139, 162 - Notas obtidas na disciplina de Portugus, no 1 perodo: 10, 15, 13, 16, 9, 11, 10, ... , 18, 11, 13, 8

Noes de estatstica

Exemplo 2: Conjunto das temperaturas (em graus), num determinado dia s 9h, em todas as cidades da Europa: 12, 8, 15, 4, 10, 11, 13, 12, ... , 14, 12, 10, 11 Por vezes, identifica-se Populao com a caracterstica populacional que se pretende estudar. Relativamente ao exemplo 1, falamos da - Populao das alturas dos alunos do ... - Populao das notas em Portugus no 1. ... Relativamente ao exemplo 2, falamos da - Populao das temperaturas s 9h ...

Nem sempre possvel estudar exaustivamente todos os elementos da populao! Porqu? - Pode a populao ter dimenso infinita. Exemplo: Populao constituda pelas presses atmosfricas, nos diferentes pontos de uma cidade.

- Pode o estudo da populao levar destruio da populao. Exemplo: Populao dos fsforos de uma caixa.

- Pode o estudo da populao ser muito dispendioso. Exemplo: Sondagens exaustivas de todos os eleitores, sobre determinado candidato.

Quando no possvel estudar, exaustivamente, todos os elementos da populao, estudam-se s alguns elementos, a que damos o nome de Amostra.

2.2-Amostra

Conjunto de dados ou observaes, recolhidos a partir de um subconjunto da populao, que se estuda com o objectivo de tirar concluses para a populao de onde foi recolhida.

Noes de estatstica

Exemplo 1: Relativamente populao das alturas dos alunos do 10. ano matriculados na Escola Secundria dos Olivais, n. 2, consideremos a seguinte amostra, constituda pelas alturas (em cm) de 20 alunos escolhidos ao acaso: 145, 163, 157, 152, 156, 149, 160, 157, 148, 147, 151, 152, 150, 148, 156, 160, 148, 157, 153, 162

Exemplo 2:

importante a fase de recolha da amostra? Sim, pois a amostra deve ser to representativa quanto possvel da Populao que se pretende estudar, uma vez que vai ser a partir do estudo da amostra, que vamos tirar concluses para a Populao. Quando a amostra no representa correctamente a populao diz-se enviesada e a sua utilizao pode dar origem a interpretaes erradas, como se sugere nos seguintes exemplos:

Utilizar uma amostra constituda por 10 benfiquistas, para prever o vencedor do prximo Benfica-Sporting. Utilizar uma amostra constituda pelos leitores habituais de determinada revista especializada, para tirar concluses sobre a populao geral.

Noes de estatstica

3.

Recenseamento e sondagem

3.1-Recenseamento O termo recenseamento est, regra geral, associado contagem oficial e peridica dos indivduos de um Pas, ou parte de um Pas. Ele abrange, no entanto, um leque mais vasto de situaes. Assim, pode definir-se recenseamento do seguinte modo:

Estudo cientfico de um universo de pessoas, instituies ou objectos fsicos com o propsito de adquirir conhecimentos, observando todos os seus elementos, e fazer juzos quantitativos acerca de caractersticas importantes desse universo.
Para a maioria das pessoas a palavra recenseamento ou censo encontra-se associada enumerao dos elementos da populao de um Pas. Em Portugal, de dez em dez anos, realiza-se o Recenseamento Geral da Populao. O ltimo ocorreu em 2001, encontrando-se disponveis na Internet (Infoline - Servio de Informao On Line do INE) os resultados desses censos - Censos 2001.

3.2-Sondagem Por vezes no vivel nem desejvel, principalmente quando o nmero de elementos da populao muito elevado, inquirir todos os seus elementos sempre que se quer estudar uma ou mais caractersticas particulares dessa populao. Assim surge o conceito de sondagem, que se pode tentar definir como:

Estudo cientfico de uma parte de uma populao com o objectivo de estudar atitudes, hbitos e preferncias da populao relativamente a acontecimentos, circunstncias e assuntos de interesse comum.
fundamental referir que, contrariamente ao recenseamento, as sondagens inquirem ou analisam apenas uma parte da populao em estudo, isto , restringem-se a uma amostra dessa populao, mas com o objectivo de extrapolar para todos os elementos da populao os resultados observados na amostra.

4.

Estatstica descritiva e estatstica indutiva

De acordo com o que dissemos anteriormente, numa anlise estatstica distinguem-se essencialmente duas fases: Uma primeira fase em que se procura descrever e estudar a amostra: Estatstica descritiva E uma segunda fase em que se procura tirar concluses para a populao: Estatstica indutiva

Noes de estatstica

Exemplo: Exemplo de aplicao da estatstica:

Esquematicamente, temos:

Resumindo, podemos dizer que uma anlise estatstica envolve duas fases fundamentais, com objectivos distintos: 1. Fase 2. Fase Estatstica Descritiva Procura-se descrever a amostra, pondo em evidncia as caractersticas principais e as propriedades. Estatstica Indutiva Conhecidas certas propriedades (obtidas a partir de uma anlise descritiva da amostra), expressas por meio de proposies, imaginam-se proposies mais gerais, que exprimam a existncia de leis (na populao).

No entanto, ao contrrio das proposies deduzidas, no podemos dizer que so falsas ou verdadeiras, j que foram verificadas sobre um conjunto restrito de indivduos, e portanto no so falsas, mas no foram verificadas para todos os indivduos da Populao, pelo que tambm no podemos afirmar que so verdadeiras!

Noes de estatstica

Existe, assim, um certo grau de incerteza (percentagem de erro) que medido em termos de Probabilidade.

Ser que necessrio o conceito de Probabilidade para se poder fazer Estatstica?De acordo com o que dissemos anteriormente sobre a Estatstica Indutiva, precisamos aqui da noo de Probabilidade, para medir o grau de incerteza que existe, quando tiramos uma concluso para a populao, a partir da observao da amostra.

Exemplo: Tendo-se concludo, que de uma amostra constituda por 1000 eleitores, 63.5% desses eleitores pensavam votar no actual Presidente da Cmara, pode-se mostrar que, com uma confiana de 95%, a percentagem de eleitores da Populao de onde foi recolhida a amostra se situa no intervalo [60.5%, 66.5%].

5.

Campos de aplicao

"Os campos de aplicao da Estatstica so muitos e os mais variados."

Estudos de mercado O gerente de uma fbrica de detergentes pretende lanar um novo produto para lavar a loia, pelo que, encarrega uma empresa especialista em estudos de mercado de "estimar" a percentagem de potenciais compradores desse produto. Populao: Amostra: Problema: conjunto de todos os agregados familiares do Pas; conjunto de alguns agregados familiares, inquiridos pela empresa; pretende-se, a partir da percentagem de respostas afirmativas, de entre os inquiridos sobre a compra do novo produto, obter uma estimativa do nmero de compradores na Populao.

Medicina Pretende-se estudar o efeito de um novo medicamento para curar determinada doena. seleccionado um grupo de 20 doentes, administrando-se o novo medicamento a 10 desses doentes escolhidos ao acaso e o medicamento habitual aos restantes.

Noes de estatstica

Populao:

conjunto de todos os doentes com a doena que o medicamento a estudar pretende tratar; conjunto dos 20 doentes seleccionados; pretende-se, a partir dos resultados obtidos, realizar um "teste de hipteses" para tomar uma deciso sobre qual dos medicamentos melhor.

Amostra: Problema:

Controle de qualidade O administrador de uma fbrica de parafusos pretende assegurar-se de que a percentagem de peas defeituosas no excede um determinado valor, a partir do qual determinada encomenda poderia ser rejeitada. Populao: conjunto de todos os parafusos fabricados ou a fabricar pela fbrica, utilizando o mesmo processo; Amostra: conjunto de parafusos escolhidos ao acaso de entre o lote de produzidos; Problema: pretende-se, a partir da percentagem de parafusos defeituosos presentes na amostra, "estimar" a percentagem de defeituosos em toda a produo.

Pedagogia Um conjunto de pedagogos desenvolveu uma tcnica nova para a aprendizagem da leitura, na escola primria, a qual, segundo dizem, encurta o tempo de aprendizagem relativamente ao mtodo tradicional. Populao: conjunto de todos os alunos que entram para a escola primria, sem saber ler; conjunto de alunos de algumas escolas seleccionadas para este estudo. Os alunos foram separados em dois grupos para se aplicarem as duas tcnicas em confronto; do estudo da amostra, decidir qual a tcnica melhor.

Amostra:

Problema:

10

Noes de estatstica

II. 1.

Dados, tabelas e grficos Tipos de dados

Podemos classificar os dados que constituem a Amostra, ou dados amostrais, em dois tipos fundamentais:

Dados qualitativos e dados quantitativos

1.1-Dados qualitativos

Representam a informao que identifica alguma qualidade, categoria ou caracterstica, no susceptvel de medida, mas de classificao, assumindo vrias modalidades.

Exemplo: O estado civil de um indivduo um dado qualitativo, assumindo as categorias: solteiro, casado, vivo e divorciado.

Os dados qualitativos so organizados na forma de uma tabela de frequncias que apresenta o nmero de elementos frequncia absoluta (ou s frequncia) de cada uma das categorias ou classes.

Numa tabela de frequncias, alm das frequncias absolutas, tambm se apresentam as frequncias relativas, onde

Dimenso da amostra? Nmero de elementos da amostra.

11

Noes de estatstica

Exemplo: Num inqurito realizado a 150 indivduos, estes tiveram de assinalar o sexo - M ou F, e o estado civil - Solteiro, Casado, Vivo ou Divorciado. Uma forma de resumir a informao contida nos dados, no que diz respeito ao estado civil, construir uma tabela de frequncias em que se consideram para as classes as diferentes modalidades que o estado civil pode tomar:

Tabela de frequncias
Classes Solteiro Casado Vivo Divorciado Total freq. abs. 78 50 5 17 150 freq. rel. 0.52 0.33 0.03 0.12 1.00

1.2-Dados quantitativos

Representam a informao resultante de caractersticas susceptveis de serem medidas, apresentando-se com diferentes intensidades, que podem ser de natureza discreta (descontnua) dados discretos, ou contnua dados contnuos.

Exemplo: Consideremos uma amostra constituda pelo n. de irmos de 10 alunos de uma determinada turma: 3, 4, 1, 1, 3, 1, 0, 2, 1, 2 Estes dados so de natureza discreta. Se para os mesmos alunos considerarmos as alturas (cm): 153, 157, 161, 160, 158, 155, 162, 156, 152, 159 obteremos dados do tipo contnuo.

12

Noes de estatstica

2.

Representaes grficas de dados

2.1-Dados discretos

Estes dados s podem tomar um nmero finito ou infinito numervel de valores distintos, apresentando vrios valores repetidos o caso, por exemplo, do n. de filhos de uma famlia ou do n. de acidentes, por dia, em determinado cruzamento.

Como organizar os dados? Os dados so organizados na forma de uma tabela de frequncias, anloga construda para o caso dos dados qualitativos. No entanto, em vez das categorias apresentam-se os valores distintos da amostra, os quais vo constituir as classes.

Exemplo: Consideremos a amostra constituda pelo n. de irmos dos 20 alunos de uma determinada turma: 1, 1, 2, 1, 0, 3, 4, 2, 3, 1, 0, 2, 1, 1, 0, 1, 1, 0, 3, 2

Tabela de frequncias
classes 0 1 2 3 4 total freq. abs. 4 8 4 3 1 20 freq. rel. 0.20 0.40 0.20 0.15 0.05 1.00

Diagrama de barras ou distribuio de frequncias

Representao grfica que consiste em marcar num sistema de eixos coordenados, no eixo dos xx o valor das classes e nesses pontos barras verticais de altura igual frequncia absoluta ou frequncia relativa.

13

Noes de estatstica

Obter-se- um grfico com o aspecto seguinte:

A linha a tracejado, que une os extremos das barras, chama-se Polgono de frequncias

Exemplo: Utilizando a tabela de frequncias obtida no exemplo anteriormente considerado, construa o diagrama de barras e o polgono de frequncias (utilize frequncias relativas): Tabela de frequncias
Classes 0 1 2 3 4 Total freq. abs. freq. rel. 4 8 4 3 1 20 0.20 0.40 0.20 0.15 0.05 1.00

Diagrama de barras

Algumas consideraes sobre a metodologia a seguir na construo do diagrama de barras: 1. Ordenar a amostra e considerar para classes os diferentes valores a considerados. Marcar essas classes no eixo xx, num sistema de eixos coordenados. 2. Nos pontos onde se consideraram as classes, marcar barras de altura igual frequncia absoluta ou relativa, da respectiva classe. De preferncia utilizar as frequncias relativas, pois se pretendermos comparar diagramas de barras de amostras diferentes, temos a garantia de que a soma das barras em qualquer dos diagramas, igual a 1.

14

Noes de estatstica

2.2-Dados contnuos

No caso de uma varivel contnua, esta pode tomar todos os valores numricos, inteiros ou no, compreendidos no seu intervalo de variao - temos por exemplo o peso, a altura, etc.

Como organizar os dados? Enquanto que no caso de dados discretos, a construo da tabela de frequncias no apresenta qualquer dificuldade, no caso das variveis contnuas o processo um pouco mais elaborado, distinguindo-se certas etapas principais, que se descrevem nas pginas seguintes...

Construo da tabela de frequncias, de uma amostra de dados contnuos Para exemplificar o processo descrito a seguir, utilizaremos a amostra de notas obtidas num ponto de Matemtica de uma determinada turma:
12.1 15.2 8.9 13.5 16.2 14.6 8.2 15.5 9.8 7.8 15.1 12.5 14.5 13.2 13.4 11.0 14.7 10.5 7.5 8.8 12.4 16.1

1. Definio das classes a) Determinar a amplitude da amostra, isto , a diferena entre o valor mximo e o valor mnimo No caso da amostra considerada, amplitude = 16.2 7.5 = 8.7 b) Dividir essa amplitude pelo nmero k (1) de classes pretendido; tomar para essa amplitude de classe h um valor aproximado por excesso do valor anteriormente obtido. No caso da amostra considerada, escolhendo k=5, h = 8.7 / 5 = 1.74 1.8

c) Construir as classes de modo que tenham todas a mesma amplitude e cuja unio contenha todos os elementos da amostra.

Uma metodologia a seguir para construir as classes Ci = [ci , ci+1[ poder ser a seguinte: A primeira classe C1 ser C1 = [c1, c2[ = [mn. da amostra, mn. da amostra + h[ As outras classes Ci sero Ci = [ mn. amostra + ( i - 1) x h , mn. amostra + i x h [ com i=1,2,...,k No caso da amostra dada temos: C1=[7.5, 9.3[ ; C2=[9.3, 11.1[ ; C3=[11.1, 12.9[ ; C4=[12.9, 14.7[ ; C5=[14.7, 16.5[

15

Noes de estatstica

2. Contagem do nmero de elementos de cada classe Conta-se o nmero de elementos da amostra, que pertencem a cada classe. Analogamente ao que foi considerado no caso dos dados discretos, esses valores sero as frequncias absolutas das classes. No caso da amostra dada.

Classe [7.5, 9.3[ [9.3, 11.1[ [11.1, 12.9[ [12.9, 14.7[ [14.7, 16.5[

Freq Absoluta 5 3 3 5 6

Quantas classes se devem considerar, para fazer a reduo de um conjunto de dados? Qual o valor de k? Existe uma regra emprica, que nos d um valor aproximado para o nmero de classes que se devem considerar e que a seguinte: Para uma amostra de dimenso n, k o menor inteiro tal que: 2k n

Exemplo: Os dados seguintes (que se encontram ordenados) referem-se ao tempo de vida (em anos) de 50 doentes que nasceram com uma certa doena rara:

0.8 0.9 1.0 1.1 1.1

1.7 1.9 2.0 2.0 2.4

2.5 2.6 2.6 3.2 3.5

4.8 6.3 6.9 7.6 9.0

9.7 13.5 13.5 14.4 15.5

16.2 18.2 18.2 20.7 21.8

23.5 23.6 23.7 27.1 27.6

28.1 29.7 30.9 31.2 31.7

23.2 36.6 36.7 38.0 40.2

45.0 45.1 61.7 66.4 67.4

Dimenso da amostra: 50 De acordo com a regra emprica apresentada anteriormente teramos:

Podemos escolher para amplitude da classe h=10 ( mais sugestivo considerar intervalos com amplitude de 10 anos do que um valor prximo do sugerido).
16

Noes de estatstica

Por outro lado vamos comear por construir as classes, considerando para limite inferior da 1. classe o valor 0, j que o mnimo da amostra est prximo desse valor. Com esta escolha obtemos 7 classes, em vez do valor 6 sugerido pela regra:

Tabela de frequncias
Classes [0, 10[ [10, 20[ [20, 30[ [30, 40[ [40, 50[ [50, 60[ [60, 70[ Total Freq. abs. 21 7 9 7 3 0 3 50 Freq. rel. 0.42 0.14 0.18 0.14 0.06 0.00 0.06 1.00

Nota 1: Um erro que se comete com muita frequncia considerar a ltima classe fechada direita. Este procedimento no correcto. Todas as classes devem ser construdas segundo a mesma metodologia, isto , fechadas esquerda e abertas direita. Nota 2: Para definir um conjunto de classes associado a um conjunto de dados, deve-se ter em conta que, de um modo geral, quanto mais elementos tiver a amostra, maior ser o nmero de classes que se deve considerar (o que est de acordo com a regra indicada). No entanto, mesmo que a dimenso da amostra seja suficientemente grande, no aconselhvel considerar um nmero de classes superior a 15.

Representao grfica de dados contnuos Histograma

Para a representao grfica de dados contnuos, usa-se um diagrama de reas ou histograma, formado por uma sucesso de rectngulos adjacentes, tendo cada um por base um intervalo de classe e por rea a frequncia relativa (ou a frequncia absoluta). Deste modo a rea total ser igual a 1 (resp. igual a n, a dimenso da amostra).

A representao obtida ter o seguinte aspecto:

17

Noes de estatstica

Para construir um histograma, quais as alturas que se devem considerar para os rectngulos? Se se pretende que a rea do rectngulo, correspondente classe Ci seja ni, ou fi, respectivamente frequncia absoluta e frequncia relativa, ento a altura desse rectngulo dever ser ni / h, ou fi / h, respectivamente, onde h representa a amplitude das classes. De preferncia, devem-se utilizar as frequncias relativas.

Qual a rea total A, ocupada por um histograma?

Se se utilizarem as frequncias absolutas: A = n1 + n2 + .. + nk = n

Se se utilizarem as frequncias relativas: A = f1 + f2 + .. + fk = 1

E se tomarmos para altura dos rectngulos, que constituem o histograma, as frequncias, j as reas desses rectngulos no sero iguais s frequncias, mas sim proporcionais! Haver problema? Qual a constante de proporcionalidade?

No h problema quando as classes tm todas a mesma amplitude!

A constante de proporcionalidade h, e a rea total ocupada pelo histograma ser h ou n*h, conforme se utilizarem as frequncias relativas ou absolutas.

18

Noes de estatstica

Algumas consideraes sobre a construo de histogramas O aspecto apresentado pelo histograma, depende em grande parte do agrupamento que se tenha feito para os dados. Assim, a escolha de uma amplitude de classe muito pequena traduz-se num grande n. de classes, que no permitem que sobressaiam as caractersticas fundamentais dos dados, uma vez que se lhe poder sobrepor o aspecto aleatrio dos dados. Por outro lado um n. muito pequeno de classes, poder no mostrar alguns aspectos importantes dos dados.

Ento como proceder?

ou

A construo do histograma depende em grande parte da "habilidade" do estatstico, na medida em que a escolha da amplitude de classe deve ser feita de modo a estabelecer uma boa soluo de compromisso entre um n. exagerado de classes (demasiado detalhe) e um n. pequeno de classes (pouco detalhe). nesta perspectiva que deve ser entendida a regra emprica dada anteriormente, para o nmero de classes.

E se as classes da tabela tm amplitudes diferentes? Como construir o Histograma? Por vezes os dados surgem agrupados, sendo impossvel construir um histograma com as classes todas com a mesma amplitude. Para se construrem os rectngulos correspondentes a cada classe, tem de se ter em ateno que a altura de cada um desses rectngulos deve ser igual frequncia relativa (ou absoluta) a dividir pela amplitude da classe correspondente. S assim se obter um histograma cuja rea total seja igual a 1 (respectivamente n).

Exemplo: A tabela ao lado representa a populao esperada no ano 2000, nos Estados Unidos da Amrica, considerando diferentes classes etrias (a definio destas classes teve em ateno as idades pr-escolar, escolar obrigatria, liceal, curso superior e ainda 3 classes etrias para os adultos, antes da idade da reforma).

19

Noes de estatstica

Classe etria menos de 5 anos entre 5 e 13 anos entre 14 e 17 anos entre 18 e 24 anos entre 25 e 34 anos entre 35 e 44 anos entre 45 e 54 anos entre 55 e 64 anos mais de 65 anos total

Popul. esperada (milhes) 17.9 35.1 16.0 24.7 34.4 41.3 35.9 23.3 31.8 260.4

Organizando a tabela anterior, de uma forma mais conveniente, temos a tabela de frequncias ao lado e o histograma abaixo.

Classe Cj [0,5[ [5,14[ [14,18[ [18,25[ [25,35[ [35,45[ [45,55[ [55,65[ [65,100[ total

freq. rel. fj 17.9/ 260.4 35.1/ 260.4 16.0/ 260.4 24.7/ 260.4 34.4/ 260.4 41.3/ 260.4 35.9/ 260.4 23.3/ 260.4 31.8/ 260.4 1.0

Amplitude Altura hj fj/hj 5 0.0138 9 0.0150 4 0.0154 7 0.0136 10 0.0132 10 0.0158 10 0.0138 10 0.0089 35 0.0035

Funo cumulativa Para representar graficamente as frequncias acumuladas considera-se a funo cumulativa cuja construo se exemplifica a seguir:

20

Noes de estatstica

Antes do limite inferior da 1. classe, isto o ponto 0, a frequncia acumulada nula, pelo que se traa um segmento de recta sobre o eixo dos xx, at esse ponto. No limite inferior da 2. classe, isto o ponto 10, a frequncia acumulada a frequncia da classe anterior, ou seja 0.42. Agora, admitindo que a frequncia se distribui uniformemente sobre o intervalo da classe, unimos o ponto (0,0) com o ponto (10, 0.42). No limite inferior da 3. classe, a frequncia acumulada a soma das frequncias das duas classes anteriores, sendo portanto 0.56. Ento, unimos o ponto (10, 0.42) com o ponto 20, 0.56). Quando chegarmos ltima classe, temos a garantia que a frequncia acumulada correspondente ao seu limite superior igual a 1, pelo que nesse ponto marcamos 1 e continuamos com um segmento de recta paralelo ao eixo dos xx.

Pode-se chamar a ateno para algumas propriedades da funo cumulativa, tal como foi construda: Est definida para todo o x real; sempre no decrescente; S assume valores no intervalo [0, 1].

A partir da representao grfica anterior possvel, por exemplo, saber qual o valor aproximado da varivel tempo de vida a que corresponde uma frequncia relativa acumulada igual a 50%.

Uma vez que se admite que a frequncia se distribui uniformemente sobre a amplitude de classe, isto , a frequncia 0.14 (=0.56-0.42) distribui-se uniformemente sobre o intervalo de amplitude 10, atravs da resoluo de uma equao de proporcionalidade, obtm-se o ponto que andvamos procura:

21

Noes de estatstica

Ento o valor procurado 10 + 5.71 = 15.71 Ao valor obtido anteriormente, a que corresponde uma frequncia acumulada de 50%, chamamos mediana. A mediana divide a distribuio das frequncias em duas partes iguais, j que 50% dos dados so menores ou iguais a ela e os restantes 50% so maiores ou iguais a ela. Recordamos que a tcnica utilizada permitiu-nos obter um valor aproximado para a mediana, e no o valor exacto da mediana do conjunto de dados originais, antes de proceder ao agrupamento. Mais frente, quando falarmos de medidas de localizao, veremos como determinar a mediana a partir dos dados, sem estarem agrupados.

Nota: Embora no tenha sentido construir um diagrama de barras quando temos uma amostra de dados contnuos, o mesmo no se passa em relao ao histograma e aos dados discretos. Na verdade, podemos ter uma amostra de dados discretos, em que o nmero de valores distintos que surgem na amostra demasiado grande, para que se considerem todos como classes, pelo que representamos graficamente essa amostra segundo a forma de um histograma! Seguidamente apresentaremos outros tipos de representaes grficas, que podem ser utilizados, independentemente da amostra ser de dados discretos ou contnuos.

2.3.1- Diagrama de caule-e-folhas um tipo de representao que se pode considerar entre a tabela e o grfico, uma vez que so apresentados os verdadeiros valores da amostra, mas numa apresentao sugestiva, que faz lembrar um histograma. Consiste em escrever do lado esquerdo de uma linha vertical o dgito (ou dgitos) da classe de maior grandeza, seguidos dos restantes. A representao obtida ter o seguinte aspecto:

Exemplo: Num determinado teste realizado a 50 estudantes, obtiveram-se as seguintes pontuaes:


75 95 80 98 55 74 42 79 69 75 88 90 84 76 62 87 60 84 65 77 64 59 49 73 63 92 48 86 83 72 78 71 37 78 99 53 66 81 90 77 79 58 80 93 89 85 68 70 57 62

22

Noes de estatstica

Fazer uma representao em caule-e-folhas destes dados.

Por vezes, utiliza-se o "caule" horizontal, em vez de ser vertical. Este processo torna mais aparente a semelhana entre um histograma e uma representao em caule-e-folhas.

Caule vertical

Caule horizontal

Que caracterstica que se pretende realar, quando se representa um conjunto de dados sob a forma de um histograma ou dum caule-e-folhas? Dada uma amostra, o aspecto do histograma reflecte a forma da distribuio da Populao subjacente aos dados observados! Este um dos aspectos da reduo dos dados, em que se perde alguma informao contida nesses dados, mas em contrapartida obtemos a estrutura da Populao, que eles pretendem representar. Quais os aspectos mais frequentes apresentados por um histograma?

2.3.2- Distribuies caractersticas Alguns histogramas apresentam formas que, pela frequncia com que surgem, merecem referncia especial. Assim, as distribuies mais comuns apresentadas pelos dados so:

23

Noes de estatstica

a. b. c. d.

Distribuies simtricas Distribuies enviesadas Distribuies com "caudas" longas Distribuies com vrios "picos" ou modas

a. Distribuies simtricas

A distribuio das frequncias faz-se de forma aproximadamente simtrica, relativamente a uma classe mdia:

b. Distribuies enviesadas

A distribuio das frequncias faz-se de forma acentuadamente assimtrica, apresentando valores substancialmente mais pequenos num dos lados, relativamente ao outro:

c. Distribuies com "caudas" longas

A distribuio das frequncias faz-se de tal forma que existe um grande nmero de classes nos extremos, cujas frequncias so pequenas, relativamente s classes centrais:

d. Distribuies com vrios "picos" ou modas

A distribuio das frequncias apresenta 2 ou mais "picos" a que chamamos modas, sugerindo que os dados so constitudos por vrios grupos distintos:

24

Noes de estatstica

2.3.3- Funo distribuio emprica

Embora duma representao grfica como o histograma, ou o "caule e folhas", se possa extrair informao relevante para a caracterizao dos dados, na medida em que nos mostra a forma como se encontram concentrados, essa representao pode no ser suficiente, quando se pretende outro tipo de informao, como seja a de saber qual a percentagem de valores da amostra inferiores ou superiores a um determinado valor! Assim, quando se pretende este tipo de informao, existe uma representao grfica conveniente, que a funo distribuio emprica.

O que ?

uma funo F(x) definida para todo o valor de x de R, e que para cada x d a proporo de elementos da amostra menores ou iguais a x.

Como se constri? Para a sua construo, convm seguir as seguintes etapas: 1) Ordenar os n elementos da amostra, por ordem crescente. 2) Comear da esquerda para a direita, atribuindo o valor 0 esquerda do mnimo, o valor 1/n entre o 1. mnimo e o 2. mnimo, o valor 2/n entre o 2. e 3. mnimos, e assim sucessivamente (num valor da amostra que se repita d vezes, o salto da funo ser d/n) Para x maior ou igual ao mximo da amostra, a funo assume sempre o valor 1. Obtm-se uma funo em escada, com saltos de amplitude 1/n.

Exemplo: Construa uma funo distribuio emprica para os seguintes valores, que representam a taxa de crescimento populacional, nas seguintes regies:

25

Noes de estatstica

Suponhamos que se pretendem as seguintes informaes: Qual a percentagem de taxas inferiores ou iguais a 1.3? R: 57% Qual a percentagem de taxas inferiores ou iguais a 2.5? R: 71%

O que so percentis ou quantis? Como vimos, a funo distribuio emprica permite obter a percentagem, ou proporo de elementos da amostra que so inferiores ou iguais (maiores ou iguais) a um valor qualquer. Por outro lado, dado um valor p qualquer, entre 0 e 1, permite determinar um valor Qp, tal que a amostra fica dividida em duas partes: 100p% dos elementos da amostra so menores ou iguais a Qp e os restantes 100(1-p)% elementos, so maiores ou iguais a Qp Ao valor Qp d-se o nome de percentil ou quantil de ordem p ou percentagem 100p%.

Mediana Quartis

o percentil correspondente percentagem de 50%, o que significa que divide a amostra em duas partes com o mesmo nmero de elementos. O 1. quartil (ou quartil inferior) o percentil, correspondente percentagem de 25%, o que significa que 25% dos elementos da amostra so menores ou iguais a ele, e os restantes so maiores ou iguais. O 3 quartil (ou quartil superior) o percentil correspondente percentagem de 75%.

Para calcular a mediana e os quantis, sempre necessrio construir a funo distribuio emprica? Veremos que no! No mdulo Medidas de localizao, veremos um processo de calcular as caractersticas mediana e quartis, sem fazer intervir a funo distribuio emprica.

26

Noes de estatstica

A seguir apresentamos um processo grfico de representao dos dados em que aquelas caractersticas tm papel importante.

2.3.4- Diagrama de extremos e quartis e caixa dos bigodes 2.3.4.1- Diagrama de extremos e quartis um tipo de representao grfica, em que se realam algumas caractersticas da amostra. O conjunto dos valores da amostra compreendidos entre o 1. e o 3. QUARTIS, que vamos representar por Q1 e Q3 representado por um rectngulo (caixa) com a MEDIANA indicada por uma barra. A largura do rectngulo no d qualquer informao, pelo que pode ser qualquer. Consideram-se seguidamente duas linhas que unem os meios dos lados do rectngulo com os extremos da amostra. Para obter esta representao, comea por se recolher da amostra, informao sobre 5 nmeros, que so: os 2 extremos (mnimo e mximo), a mediana e o 1. e 3. quartis. A representao do diagrama de extremos e quartis tem o seguinte aspecto:

O extremo inferior o mnimo da amostra, enquanto que o extremo superior o mximo da amostra.

Qual a importncia deste tipo de representao? Reala informao importante sobre os dados, como sejam o centro da amostra (mediana), variabilidade, simetria. Repare-se que da forma como o diagrama se constri, se pode retirar imediatamente a seguinte informao:

27

Noes de estatstica

Como que se pode reconhecer a simetria ou o enviesamento dos dados, a partir do Diagrama de extremos e quartis? Existem fundamentalmente 3 caractersticas, que nos do ideia da simetria ou enviesamento e da sua maior ou menor concentrao: distncia entre a linha indicadora da mediana e os lados do rectngulo; comprimento das linhas que saem dos lados dos rectngulos; comprimento da caixa. de extremos e quartis,

Apresentamos seguidamente 3 exemplos de diagramas correspondentes a tipos diferentes de distribuio de dados.

2.3.4.2- Grfico de caixa dos bigodes um tipo de representao grfica, em que se realam algumas caractersticas da amostra, nomeadamente a existncia de "outliers" (valores que se distinguem dos restantes, dando a ideia de no pertencerem ao mesmo conjunto de dados). O conjunto dos valores da amostra compreendidos entre o 1. e o 3. QUARTIS, Q1 e Q3 representado por um rectngulo (caixa) com a MEDIANA indicada por uma barra. Considera-se seguidamente duas linhas que unem os lados dos rectngulos com os chamados valores adjacentes, que definiremos a seguir.

O que so valores adjacentes?

Define-se valor adjacente inferior AI, como sendo o menor valor da amostra (eventualmente o mnimo), que maior que:
Q1 - 1.5 * (Q3 - Q1)

Define-se valor adjacente superior AS, como sendo o maior valor da amostra (eventualmente o mximo), que menor que:
Q3 + 1.5 * (Q3 - Q1)
28

Noes de estatstica

O que um outlier?

um valor que no esteja compreendido no intervalo [AI, AS]

2.3.5 - Diagrama circular Como o nome sugere esta representao constituda por um crculo, em que se apresentam vrios sectores circulares, tantos quanto as classes consideradas na tabela de frequncias da amostra em estudo. Os ngulos dos sectores so proporcionais s frequncias das classes. Por exemplo uma classe com uma frequncia relativa igual a 0.20, ter no diagrama circular um sector com um ngulo igual a 360x0.20 = 72 graus. uma representao utilizada essencialmente para dados qualitativos.

Exemplo: Categoria profissional dos funcionrios de uma escola secundria


Classes AE (Auxiliar de Aco Educativa) Ad (Administrativo) AS (Tcnico de Aco Social) Op (Operrio) Total Freq. abs. Freq. rel. 20 12 7 3 42 0.47 0.29 0.17 0.07 1.00 Nesta representao, juntamente com a identificao da categoria, indica-se a frequncia relativa da respectiva classe.

29

Noes de estatstica

III.

Medidas de localizao

No captulo Dados, tabelas e grficos, vimos alguns processos de resumir informao contida na amostra, utilizando os processos grficos. Veremos agora um outro processo de resumir essa informao, utilizando determinadas medidas, calculadas a partir de dados, que se chamam ESTATSTICAS.

1.

Introduo

Antes de comear a definir as medidas, que vo ser utilizadas para resumir a informao contida nos dados, e lembrando mais uma vez que estamos na fase da anlise estatstica conhecida por Estatstica Descritiva, vamos introduzir uma notao conveniente para representar a amostra. Assim, o conjunto de dados ou observaes que constituem a amostra ser representado por x1, x2, ..., xn onde x1, x2, ..., xn, representam, respectivamente, a 1. observao, a 2. observao e a n-sima observao, de uma amostra de dimenso n. Esta notao no implica uma relao de ordem entre os elementos da amostra.

Das medidas, ou estatsticas que iremos definir, para caracterizar os dados, destacam-se as medidas de localizao nomeadamente as que localizam o centro da amostra (mdia, moda e mediana) , e as medidas de disperso que sero abordadas no captulo seguinte.

30

Noes de estatstica

Ser mesmo necessrio utilizar os dois tipos de medidas, para caracterizar os dados?

Exemplo: O exemplo seguinte responde questo deixada em aberto: Dois alunos do 7. ano obtiveram as seguintes notas, no 3. perodo:
Pedro 4 Joo 5 3 2 3 2 3 3 3 4 3 3 4 5 3 3 4 3 3 3

O Pedro e o Joo tiveram a mesma mdia de 3.3, mas o Joo no transitou de ano. Representando as notas num diagrama de caule e folhas:

Pedro

Joo

vemos que uma caracterstica apresentada pelas notas do Joo uma maior variabilidade do que as notas do Pedro.

Vamos estudar seguidamente algumas medidas de localizao, nomeadamente as que localizam o centro da amostra: Mdia Moda Mediana

Procuraremos realar: 1. Processo de as calcular

2. Propriedades 3. Limitaes

2.

Mdia
A mdia amostral ou simplesmente mdia, que se representa por uma medida de localizao do centro da amostra, e obtm-se a partir da seguinte expresso:

onde x1, x2, ..., xn representam os elementos da amostra e n a sua dimenso.


31

Noes de estatstica

Se as observaes se encontram agrupadas, ento um valor aproximado para a mdia dado pela seguinte expresso:

onde: k o nmero de classes do agrupamento ni a frequncia absoluta da classe i yi o ponto mdio da classe i, o qual considerado como elemento representativo da classe.

A mdia ser sempre uma medida representativa dos dados? Ao determinar a mdia dos seguintes dados
12.4 13.5 13.6 11.2 15.1 10.6 12.4 14.3 113.5

obteve-se o valor

= 24.1

Embora todos os dados, menos um, estejam no intervalo [10.6, 15.1], o valor obtido para a mdia est "bem afastado" daquele intervalo! O que aconteceu que a mdia muito sensvel a valores muito grandes ou muito pequenos. No caso do exemplo foi o valor 113.5 que inflacionou a mdia. Alm disso temos razes para pensar que pode ter havido um erro ao digitar o valor 113.5, digitando um 1 a mais!

E se em vez de 113.5 o valor correcto fosse 13.5, qual o valor da mdia? Ao determinar a mdia dos seguintes dados 12.4 13.5 obteve-se o valor da mdia anterior! 13.6 11.2 15.1 10.6 12.4 14.3 13.5

= 13.0, significativamente diferente do obtido no caso

Sendo a mdia uma medida to sensvel aos dados, preciso ter cuidado com a sua utilizao, pois pode dar uma imagem distorcida dos dados, que pretende representar!

32

Noes de estatstica

Para alm do facto de ser uma medida muito simples de calcular, existir alguma outra razo, que a torne uma medida to "popular"? Pode-se mostrar (e essa demonstrao faz parte da Estatstica Indutiva), que quando a distribuio dos dados "normal", ento a melhor medida de localizao do centro, a mdia. Ora sendo a Distribuio Normal uma das distribuies mais importantes e que surge com mais frequncia nas aplicaes, esse facto justifica a grande utilizao da mdia.

Esquematicamente podemos posicionar a mdia da forma seguinte, tendo em conta a representao grfica na forma de histograma.

Figura aproximadamente O enviesamento para a direita provoca que a mdia seja simtrica, pelo que o centro est bem definido. deslocada para a direita.

O enviesamento para a esquerda provoca uma deslocao da mdia para a esquerda.

Exemplo: Considerando os valores 2, 3, 3 e 4 fomos construir um diagrama de barras e posicionar a mdia e posteriormente alteramos um desses valores para estudar o comportamento da mdia.

Um diagrama de barras (ou histograma) comporta-se como um balanc em que o ponto de apoio a mdia. Ao contrrio da mediana, como se ver adiante, a percentagem de elementos para um e outro lado da mdia no necessariamente igual a 50%.

33

Noes de estatstica

Particularidade A mdia goza de uma particularidade interessante e que consiste no seguinte: se calcularmos os desvios de todas as observaes relativamente mdia e somarmos esses desvios o resultado obtido igual a zero.

Exemplo: Suponhamos que numa festa foram distribudos berlindes pelos meninos presentes. Os berlindes eram lanados ao ar e quem mais corria mais apanhava. No fim fez-se a contagem e verificou-se a seguinte distribuio sobre os nmeros de berlindes que cada menino conseguiu apanhar: Joo Filipa Ana Maria Teresa David 8 7 3 5 4 6

A cada menino coube em mdia 5.5 berlindes. Houve meninos que apanharam menos berlindes do que a mdia, enquanto que outros apanharam mais. Os meninos que apanharam mais berlindes resolveram dividir com os que apanharam menos de forma a ficarem todos com a mesma quantidade. Tero conseguido?

Resposta: Calculando os desvios relativamente mdia, temos:


Desvio Joo Filipa Ana Maria Teresa David 8 7 3 5 4 6 8 - 5.5 = 2.5 7 - 5.5 = 1.5 3 - 5.5 = -2.5 5 - 5.5 = -0.5 4 - 5.5 = -1.5 6 - 5.5 = 0.5 -0.5 -1.5 + 0.5 + 2.5 + 1.5 -2.5 = 0

Graficamente temos:

O resultado anterior verifica-se porque a soma dos desvios positivos igual soma dos desvios negativos.

34

Noes de estatstica

A mdia tem uma outra caracterstica, que torna a sua utilizao vantajosa em certas aplicaes: Quando o que se pretende representar a quantidade total expressa pelos dados, utiliza-se a mdia. Na realidade, ao multiplicar a mdia pelo n. total de elementos, obtemos a quantidade pretendida!

Pode-se sempre calcular a mdia?


Chamamos a ateno para que com dados de tipo qualitativo no tem sentido calcular a mdia, mesmo que os dados sejam nmeros. Se, por exemplo, temos um conjunto de 1's e 2's, se se referirem varivel sexo, em que se utilizou o 1 para representar o sexo masculino e o 2 para o sexo feminino (varivel codificada), no tem qualquer significado calcular a mdia daquele conjunto de dados.

Cuidado com as medidas de localizao! Suponha que numa regio comearam a aparecer pessoas com uma virose desconhecida. Os mdicos do Centro de Sade dessa regio procuraram recolher alguma informao sobre as pessoas atacadas por essa doena. Foi recolhida uma amostra de 34 desses doentes a quem se perguntou, entre outras caractersticas, a idade. Depois de analisados os dados os mdicos foram informados que a idade mdia dos doentes era de 32 anos. Um dos mdicos, mais curioso que os outros, pediu que lhe mostrassem a distribuio dos dados, tendo-lhe sido apresentada a seguinte distribuio. Perante a representao anterior (bimodal) o mdico no teve dvidas em pr de parte a mdia, assim como qualquer outra medida de localizao do centro da amostra. Efectivamente para dados deste tipo enganador qualquer medida de localizao do centro da distribuio. O que o mdico concluiu imediatamente foi, que a doena ataca crianas e pessoas da 3. idade.

35

Noes de estatstica

3.

Moda

Para um conjunto de dados, define-se moda como sendo:

o valor que surge com mais frequncia se os dados so discretos, ou, o intervalo de classe com maior frequncia se os dados so contnuos.
Assim, da representao grfica dos dados, obtm-se imediatamente o valor que representa a moda ou a classe modal

Esta medida especialmente til para reduzir a informao de um conjunto de dados qualitativos, apresentados sob a forma de nomes ou categorias, para os quais no se pode calcular a mdia e por vezes a mediana (se no forem susceptveis de ordenao).

4.

Mediana

A mediana, m, uma medida de localizao do centro da distribuio dos dados, definida do seguinte modo:

Ordenados os elementos da amostra, a mediana o valor (pertencente ou no amostra) que a divide ao meio, isto , 50% dos elementos da amostra so menores ou iguais mediana e os outros 50% so maiores ou iguais mediana
Para a sua determinao utiliza-se a seguinte regra, depois de ordenada a amostra de n elementos: Se n mpar, a mediana o elemento mdio. Se n par, a mediana a semi-soma dos dois elementos mdios. Se se representarem os elementos da amostra ordenada com a seguinte notao: X1:n , X2:n , ... , Xn:n ento uma expresso para o clculo da mediana ser:

Como medida de localizao, a mediana mais robusta do que a mdia, pois no to sensvel aos dados!

36

Noes de estatstica

Mdia ou mediana? Consideremos o seguinte exemplo: um aluno do 10. ano obteve as seguintes notas: 10, 10, 10, 11, 11, 11, 11, 12 A mdia e a mediana da amostra anterior so respectivamente =10.75 e =11

Admitamos que uma das notas de 10 foi substituda por uma de 18. Neste caso a mediana continuaria a ser igual a 11, enquanto que a mdia subiria para 11.75!

Dado um histograma fcil obter a posio da mediana, pois esta est na posio em que passando uma linha vertical por esse ponto o histograma fica dividido em duas partes com reas iguais.

Como medida de localizao, a mediana mais resistente do que a mdia, pois no to sensvel aos dados.

1. Quando a distribuio simtrica, a mdia e a mediana coincidem. 2. A mediana no to sensvel, como a mdia, s observaes que so muito maiores ou muito menores do que as restantes (outliers). Por outro lado a mdia reflecte o valor de todas as observaes. Assim, no se pode dizer em termos absolutos qual destas medidas de localizao prefervel, dependendo do contexto em que esto a ser utilizadas.

37

Noes de estatstica

Exemplo: Os salrios dos 160 empregados de uma determinada empresa, distribuem-se de acordo com a seguinte tabela de frequncias:
Salrio (em euros) Frequncia absoluta Frequncia acumulada 75 100 145 200 400 1700 23 23 58 50 20 7 2 81 131 151 158 160

Calcular a mdia e a mediana e comentar os resultados obtidos. Resoluo: = = (75*23+100*58+...+400*7+1700*2)/160 = 156,10 euros m = semi-soma dos elementos de ordem 80 e 81 = 100 euros

Comentrio: O facto de termos obtido uma mdia de 156,10 e uma mediana de 100, reflexo do facto de existirem alguns, embora poucos, salrios muito altos, relativamente aos restantes. Repare-se que, numa perspectiva social, a mediana uma caracterstica mais importante do que a mdia. Na realidade 50% dos trabalhadores tm salrio menor ou igual a 100 , embora a mdia de 156,10 no transmita essa ideia!

Como j vimos a mdia, ao contrrio da mediana, uma medida muito pouco resistente, isto , muito influenciada por valores "muito grandes" ou "muito pequenos", mesmo que estes valores surjam em pequeno nmero na amostra. Estes valores so os responsveis pela m utilizao da mdia em muitas situaes em que teria mais significado utilizar a mediana.
38

Noes de estatstica

Resumindo, como a mdia influenciada quer por valores muito grandes, quer por valores muito pequenos, se a distribuio dos dados: 1. for aproximadamente simtrica, a mdia aproxima-se da mediana; 2. for enviesada para a direita (alguns valores grandes como "outliers"), a mdia tende a ser maior que a mediana; 3. for enviesada para a esquerda (alguns valores pequenos como "outliers"), a mdia tende a ser inferior mediana. Representando as distribuies dos dados (esta observao vlida para as representaes grficas na forma de diagramas de barras ou de histograma) na forma de uma mancha, temos, de um modo geral:

5.

Quantis
Generalizando a noo de mediana m, que como vimos anteriormente a medida de localizao, tal que 50% dos elementos da amostra so menores ou iguais a m, e os outros 50% so maiores ou iguais a m, temos a noo de quantil de ordem p, com 0<p<1, como sendo o valor Qp tal que 100p% dos elementos da amostra so menores ou iguais a Qp e os restantes 100 (1p)% dos elementos da amostra so maiores ou iguais a Qp.

Quantis de ordem p

Tal como a mediana, uma medida que se calcula a partir da amostra ordenada. Um processo de obter os quantis utilizando a Funo Distribuio Emprica.

Generalizando ainda a expresso para o clculo da mediana, temos uma expresso anloga para o clculo dos quantis:

Qp = onde representamos por [a], o maior inteiro contido em a. Aos quantis de ordem 1/4 e 3/4 , damos respectivamente o nome de 1. quartil e 3. quartil
39

Noes de estatstica

Exemplo: Tendo-se decidido registar os pesos dos alunos de uma determinada turma prtica do 10. ano, obtiveram-se os seguintes valores (em kg):
52 56 62 54 52 51 60 61 56 55 56 54 57 67 61 49

a) Determine os quantis de ordem 1/7, 1/2 e os 1. e 3. quartis. b) Um aluno com o peso de 61 kg, pode ser considerado "normal", isto nem demasiado magro, nem demasiado gordo?

Resoluo: Ordenando a amostra anterior, cuja dimenso 16, temos


49 51 52 52 54 54 55 56 56 56 57 60 61 61 62 67

a)

16 * 1/7 = 16/7 16 * 1/2 = 8 16 * 1/4 = 4 16 * 3/4 = 12

donde donde donde donde

[16/7] = 2 e Q1/7 = x3 : 16 = 52 Q1/2 = [x8 : 16 + x9 : 16]/2 = 56 Q1/4 = [x4 : 16 + x5 : 16]/2 = 53 Q3/4 = [x12 : 16 + x13 : 16]/2 = 60.5

b)

Um aluno com 61 kg pode ser considerado um pouco "forte", pois naquela turma s 25% dos alunos que tm peso maior ou igual a 60.5 kg!

40

Noes de estatstica

IV. 1.

Medidas de disperso Introduo

Anteriormente vimos algumas medidas de localizao do centro de uma distribuio de dados. Veremos agora como medir a variabilidade presente num conjunto de dados atravs das seguintes medidas: Desvio padro Amplitude Amplitude inter-quartil

Procuraremos realar: 1. Processo de as calcular

2. Propriedades 3. Limitaes

Um aspecto importante no estudo descritivo de um conjunto de dados, o da determinao da variabilidade ou disperso desses dados, relativamente medida de localizao do centro da amostra. Repare-se nas duas amostras seguintes, que embora tenham a mesma mdia, tm uma disperso bem diferente:

Como a medida de localizao mais utilizada a mdia, ser relativamente a ela que se define a principal medida de disperso - a varincia, apresentada a seguir.

2.

Varincia

Define-se a varincia, e representa-se por s2, como sendo a medida que se obtm somando os quadrados dos desvios das observaes da amostra, relativamente sua mdia, e dividindo pelo nmero de observaes da amostra menos um:

Quais as razes que nos levam a considerar aquela definio para a varincia?
41

Noes de estatstica

3.

Desvio-padro

Uma vez que a varincia envolve a soma de quadrados, a unidade em que se exprime no a mesma que a dos dados. Assim, para obter uma medida da variabilidade ou disperso com as mesmas unidades que os dados, tomamos a raiz quadrada da varincia e obtemos o desvio padro:

O desvio padro uma medida que s pode assumir valores no negativos e quanto maior for, maior ser a disperso dos dados. Algumas propriedades do desvio padro, que resultam imediatamente da definio, so: o desvio padro sempre no negativo e ser tanto maior, quanta mais variabilidade houver entre os dados. se s = 0, ento no existe variabilidade, isto , os dados so todos iguais.

42

Noes de estatstica

Exemplo: Na 2. classe de certa escola o professor deu uma tarefa constituda por um certo nmero de contas para os alunos resolverem. Pretendendo determinar a disperso dos tempos de clculo, observam-se 10 alunos durante a realizao da tarefa, tendo-se obtido os seguintes valores:
Aluno i 1 2 3 4 5 6 7 8 9 10 Tempo (minutos) xi 13 15 14 18 25 14 16 17 20 17 169 - 3.9 - 1.9 - 2.9 1.1 8.1 - 2.9 -0.9 0.1 3.1 0.1 0.0 15.21 3.61 8.41 1.21 65.61 8.41 0.81 0.01 9.61 0.01 112.90

Resoluo: Na tabela anterior juntmos duas colunas auxiliares, uma para colocar os desvios das observaes em relao mdia e a outra para escrever os quadrados destes desvios. A partir da coluna das observaes calculmos a soma dessas observaes, que nos permitiu calcular a mdia = 16.9. Uma vez calculada a mdia foi possvel calcular a coluna dos desvios. Repare-se que, como seria de esperar, a soma dos desvios igual a zero. A soma dos quadrados dos desvios permite-nos calcular a varincia s2 = donde s = 3.54 O tempo mdio de realizao da tarefa foi de aproximadamente 17 minutos com uma variabilidade medida pelo desvio padro de aproximadamente 3.5 minutos 112.9 9 = 12.54

43

Noes de estatstica

Na representao grfica em baixo visualizamos os desvios das observaes relativamente mdia (valores do exemplo anterior):

Do mesmo modo que a mdia, tambm o desvio padro uma medida pouco resistente, pois influenciado por valores ou muito grandes ou muito pequenos (o que seria de esperar j que na sua definio entra a mdia que no resistente). Assim, se a distribuio dos dados for bastante enviesada, no conveniente utilizar a mdia como medida de localizao, nem o desvio padro como medida de variabilidade. Estas medidas s do informao til, respectivamente sobre a localizao do centro da distribuio dos dados e sobre a variabilidade, se as distribuies dos dados forem aproximadamente simtricas.

Propriedades para dados com distribuio aproximadamente normal: Uma propriedade que se verifica se os dados se distribuem de forma aproximadamente normal, ou seja, quando o histograma apresenta uma forma caracterstica com uma classe mdia predominante e as outras classes se distribuem volta desta de forma aproximadamente simtrica e com frequncias a decrescer medida que se afastam da classe mdia, a seguinte:

Aproximadamente 68% dos dados esto no intervalo

44

Noes de estatstica

1 - Aproximadamente 68% dos dados esto no intervalo

2 - Aproximadamente 95% dos dados esto no intervalo

Aproximadamente 100% dos dados esto no intervalo Como se depreende do que atrs foi dito, se os dados se distribuem de forma aproximadamente normal, ento esto praticamente todos concentrados num intervalo de amplitude igual a 6 vezes o desvio padro.

Observao: A informao que o desvio padro d sobre a variabilidade deve ser entendida como a variabilidade que apresentada relativamente a um ponto de referncia a mdia, e no propriamente a variabilidade dos dados, uns relativamente aos outros.

A partir da definio de varincia, pode-se deduzir sem dificuldade uma expresso mais simples, sob o ponto de vista computacional, para calcular ou a varincia ou o desvio padro e que a seguinte:

45

Noes de estatstica

4.

Amplitude

Uma medida de disperso que se utiliza por vezes, a amplitude amostral r, definida como sendo a diferena entre a maior e a menor das observaes:

r = xn:n - x1:n
onde representamos por x1:n e xn:n, respectivamente o menor e o maior valor da amostra (x1, x2, ..., xn), de acordo com a notao introduzida anteriormente, para a amostra ordenada.

5.

Amplitude inter-quartil

A medida anterior tem a grande desvantagem de ser muito sensvel existncia, na amostra, de uma observao muito grande ou muito pequena. Assim, define-se uma outra medida, a amplitude inter-quartil, que , em certa medida, uma soluo de compromisso, pois no afectada, de um modo geral, pela existncia de um nmero pequeno de observaes demasiado grandes ou demasiado pequenas. Esta medida definida como sendo a diferena entre os 1. e 3. quartis * Amplitude inter-quartil = Q3/4 - Q1/4 Do modo como se define a amplitude inter-quartil, conclumos que 50% dos elementos do meio da amostra, esto contidos num intervalo com aquela amplitude. Esta medida no negativa e ser tanto maior quanto maior for a variabilidade nos dados. *

Ateno: Mas, ao contrrio do que acontece com o desvio padro, uma amplitude inter-quartil nula, no significa necessariamente, que os dados no apresentem variabilidade.

Amplitude inter-quartil ou desvio padro? Do mesmo modo que a questo foi posta relativamente s duas medidas de localizao mais utilizadas mdia e mediana, tambm aqui se pode por o problema de comparar aquelas duas medidas de disperso. 1. A amplitude inter-quartil mais robusta, relativamente presena de "outliers", do que o desvio padro, que mais sensvel aos dados.

46

Noes de estatstica

2. Para uma distribuio dos dados aproximadamente normal, verifica-se a seguinte relao amplitude inter-quartil 1.3 x desvio padro

3. Se a distribuio enviesada, j no se pode estabelecer uma relao anloga anterior, mas pode acontecer que o desvio padro seja muito superior amplitude inter-quartil, sobretudo se se verificar a existncia de "outliers".

47

Noes de estatstica

V. 1.

Distribuies bidimensionais Dados bivariados: o que so?


Por vezes a Populao que se pretende estudar, aparece sob a forma de pares de valores, isto , cada indivduo ou resultado experimental, contribui com um conjunto de dois valores. o que acontece, por exemplo, quando se considera para cada aluno candidato ao Ensino Superior, a nota final de Matemtica e a nota da Prova Especfica.

Como representar e organizar este tipo de informao?

2.

Representaes grficas

Diagrama de pontos

uma representao grfica para os dados bivariados, em que cada par de dados (xi,yi) representado por um ponto de coordenadas (xi,yi), num sistema de eixos coordenados.
Este tipo de representao muito til, pois permite realar algumas propriedades entre os dados, nomeadamente no que diz respeito ao tipo de associao entre os xs e os ys. Seguidamente apresentamos alguns exemplos, para ilustrar o que acabamos de dizer.

Exemplo 1: Considere os seguintes dados, que representam as medidas, em mm, de ossos do brao e da perna, de fsseis do perodo Neanderthal. Construa o Diagrama de Pontos e comente-o.
Espcie A B C D E Brao (mero) Perna (Fmur) x [mm] y [mm] 312 335 286 312 305 430 458 407 440 422

48

Noes de estatstica

Comentrio:

Verifica-se uma associao linear entre as medidas dos ossos do brao e da perna, isto , aos maiores valores de x correspondem os maiores valores de y. Esta concluso seria de esperar, pois de um modo geral se as pessoas so grandes, sono de braos e pernas!

Exemplo 2: Considere os seguintes dados, que representam o nmero de faltas no autorizadas por ano e a distncia (em km) a que os empregados de determinado armazm esto de casa. Construa o Diagrama de Pontos e comente-o.

Comentrio:

O grfico mostra uma ligeira associao, de sentido contrrio, entre o n. de faltas e a distncia. Assim, quanto maior a distncia, menor a tendncia para faltar!

49

Noes de estatstica

Exemplo 3: Considere os seguintes dados, que representam as notas obtidas por 10 alunos nas disciplinas de Matemtica e Educao Fsica. Construa o Diagrama de Pontos e comente-o.

Comentrio:

Aparentemente no existe nenhuma associao linear entre as duas disciplinas, uma vez que os pontos se encontram dispersos de forma "aleatria".

3.

Coeficiente de correlao

Coeficiente de correlao J vimos na seco anterior que quando dispomos de uma amostra de dados bivariados (xi,yi), a sua representao em diagrama de disperso, pode mostrar a existncia de uma certa relao linear entre os factores x e y, que compem os pares. A medida que se utiliza com mais frequncia para medir o grau desta associao linear, o coeficiente de correlao (linear), que se representa por r e se calcula a partir da expresso:

50

Noes de estatstica

Vejamos algumas propriedades do coeficiente de correlao: 1. O valor de r est contido no intervalo [-1,1]

2. Quanto maior for o mdulo de r, maior ser, o grau de associao linear existente entre os x'se os y's 3. O facto de r > 0, significa que a relao entre os x's e os y's do mesmo sentido, isto , a valores grandes de x correspondem, de um modo geral, valores grandes de y e vice-versa. Quando r < 0, a relao entre os x e os y de sentido contrrio, o que significa que a valores grandes de x, correspondem, de um modo geral, valores pequenos de y e vice-versa.

Exemplo: Suponhamos que numa determinada turma constituda por 34 alunos, o professor resolveu registar, num dia em que houve prova, a ordem por que cada aluno entregava o ponto e a classificao que veio a obter. Os valores registados foram os seguintes:

Ordem 1 2 3 4 5 6 7 8 9

Class. 18.2 9.9 19.3 18.3 9.2 12.5 17.9 5.9 10.0

Ordem 10 11 12 13 14 15 16 17 18

Class. 17.4 14.0 9.1 10.8 16.4 11.9 16.5 13.5 17.4

Ordem 19 20 21 22 23 24 25 26 27

Class. 11.5 13.2 11.4 8.3 16.0 14.0 13.3 11.7 7.7

Ordem 28 29 30 31 32 33 34

Class. 9.5 18.8 14.1 14.3 13.4 15.7 15.5

51

Noes de estatstica

Resoluo: Fazendo a representao grfica dos pares de valores, obtemos a figura seguinte, a qual sugere a existncia de uma fraca relao linear entre os x's e os y's.

No entanto, a estatstica utilizada para medir essa relao o coeficiente de correlao. Considerando os pares de valores constitudos pelas ordens e as classificaes correspondentes, vem que r igual a r = - 0.35 Interpretao do resultado anterior: Tendo-se obtido um valor de r pequeno, significa que praticamente no existe relao (linear) entre a ordem pela qual os alunos acabaram o exame e a classificao obtida. Existe, no entanto, alguma tendncia - explicada pelo sinal negativo, para que os melhores alunos acabem o exame primeiro.

Se tivssemos feito a representao grfica dos pares de valores, considerando o agrupamento de modo que s menores ordens correspondessem as melhores notas, obteramos a representao grfica seguinte:

Esta representao sugere a existncia de uma forte relao linear entre as notas dos alunos e a ordem pela qual acabaram o exame. Calculando o coeficiente de correlao linear esperamos obter um valor grande em termos absolutos e de sinal negativo. Na verdade o valor obtido foi: r = - 0.993 Note-se, no entanto, que esta relao no corresponde realidade.

52

Noes de estatstica

4.

Tabela de contingncia

Um processo de organizar a informao correspondente a dados bivariados utilizando uma tabela de contingncia. De uma maneira geral, uma tabela de contingncia uma representao dos dados, quer de tipo qualitativo, quer de tipo quantitativo, especialmente quando so de tipo bivariado, isto , podem ser classificados segundo dois critrios. O aspecto de uma tabela de contingncia o de uma tabela com linhas, correspondentes a um dos critrios, e com colunas, correspondente ao outro critrio. Seguidamente apresentaremos alguns exemplos, para ilustrar o que acabamos de dizer.

Exemplo 1: Num inqurito realizado a 150 indivduos, estes tiveram de assinalar o sexo, M ou F, e o estado civil - solteiro, casado, vivo ou divorciado. Para resumir a informao contida na amostra, construiu-se a seguinte tabela de contingncia:

Da anlise da tabela podemos tirar algumas concluses, tais como: 1- O nmero de indivduos do sexo masculino e solteiros 40; 2- O nmero de indivduos do sexo masculino 68; 3- O nmero de indivduos vivos 5.

Exemplo 2: Considere os seguintes dados, j apresentados anteriormente, que representam as notas obtidas por 10 alunos nas disciplinas de Matemtica e Ed. Fsica. Construa uma tabela de contingncia, para resumir a informao contida nos dados. Uma classificao possvel, ser:

53

Noes de estatstica

VI. 1.

Exerccios Introduo estatstica

1. Pretendia-se fazer um estudo sobre o nmero de irmos dos alunos do 10. ano de escolaridade de uma Escola Secundria. Para isso, efectuou-se um inqurito ao qual responderam 60 alunos. Indique: a) a populao em estudo; b) a amostra escolhida; c) a varivel em estudo e classifique-a.

Resposta: Populao em estudo: todos os alunos do 10. ano da escola. Amostra escolhida: os 60 alunos que responderam ao inqurito. Varivel em estudo: n. de irmos de cada aluno do 10. ano. Esta varivel quantitativa discreta.

2. Diga porque que as seguintes situaes representam ms amostras: a) Para saber qual o candidato mais votado, para a Cmara de determinada cidade, auscultou-se a opinio dos clientes de determinado supermercado. b) Para conhecer a situao financeira das empresas txteis portuguesas, verificou-se a situao das empresas que tiveram maior volume de exportaes, no ltimo ano.

Resposta: 2. As situaes apresentadas no so representativas das populaes de onde foram retiradas so amostras enviesadas. a) Diferentes tipos de pessoas frequentam diferentes tipos de supermercados. A amostra daria unicamente indicaes sobre a populao constituda pelos clientes desse supermercado. Podemos ainda referir, como exemplo, que os preos e o tipo de produtos que esto venda, no so iguais em todos os supermercados, pelo que a amostra no representativa. b) Verificou-se certamente que a situao financeira das empresas txteis portuguesas melhor do que na realidade .

54

Noes de estatstica

3. Num estudo feito numa escola, recolheram-se dados referentes s seguintes variveis:
(A) idade (B) ano de escolaridade (C) sexo (D) nota na disciplina de Matemtica (E) tempo gasto diariamente no estudo (F) distncia de casa escola (G) local de estudo (H) nmero de irmos

a) Das variveis indicadas, quais so as quantitativas e quais so as qualitativas? b) Das variveis quantitativas, diz quais so contnuas.

Resposta: a) Quantitativas: (A), (D), (E), (F), (H) Qualitativas: (B), (C), (G) b) So variveis quantitativas contnuas: (E), (F) (e eventualmente (A); a varivel Idade tambm contnua, pois pode tomar qualquer valor num intervalo, embora seja normalmente tratada como discreta)

4. Quais so os objectivos da Estatstica descritiva?

Resposta: Os objectivos da Estatstica Descritiva so: recolher dados de uma amostra (ou de uma populao), organiz-los (em tabelas, diagramas, grficos) e, a seguir, condensar a informao em valores isolados (por exemplo: moda, mdia, mediana...) que descrevam a amostra (ou a populao).

2.

Dados, tabelas e grficos

1. A lista do nmero de irmos dos alunos da turma H do 9. ano a seguinte:


1 4 0 2 1 3 2 2 1 1 1 3 1 1 3 2 0 1 4 2 0 1 1 2 1 3

55

Noes de estatstica

Construa: a) a tabela de frequncias. b) o diagrama de barras.

Resposta: a) Tabela de frequncias

b) Diagrama de barras

2. As alturas, em centmetros, dos alunos de uma turma do 10. ano so as seguintes:


150 152 170 161 169 158 171 164 174 163 162 166 155 158 171 164 165 166 161 162 170 158 154 156 172 166 168 167

a) Construa uma tabela de frequncias, agrupando os dados em classes. b) Represente graficamente os dados, utilizando o tipo de grfico que achar mais conveniente.

56

Noes de estatstica

Resposta: a) n = 28 N. de classes: 5 (ver regra emprica no Cap. III das Noes) Amplitude da amostra = 174 - 150 = 24 Amplitude da classe = 24/5 5

b) Histograma

3. Os seguintes valores representam o nmero de medalhas (ouro, prata e bronze) obtidas nos jogos olmpicos de Vero de 1976:

Construa um "caule e folhas" ou um histograma dos dados e identifique o tipo de distribuio.

57

Noes de estatstica

Resposta: Construo do histograma Dimenso da amostra: 41 N. de classes: 6 (ver regra emprica no Cap. III das Noes). Amplitude da amostra = 125-1 = 124 Amplitude da classe = 124/6 21

4. Num determinado teste realizado a 50 estudantes, obtiveram-se as seguintes pontuaes:

Depois de ordenada a amostra construa a funo distribuio emprica e determine:

a) A nota N, tal que 50% dos alunos tenham nota menor ou igual a N b) Qual a percentagem P de alunos com nota menor ou igual a 81

58

Noes de estatstica

Resposta: a) A nota N 75. b) A percentagem pedida 70%.

5. Num inqurito comunidade cientfica sobre a utilizao de meios informticos, realizado pela Fundao para o desenvolvimento dos meios Nacionais de Clculo Cientfico, obtiveram-se os seguintes resultados, quanto ao tipo de problemas tratados:

Construa um diagrama de extremos e quartis dos dados e discuta-o.

Resposta: 5. Diagrama de extremos e quartis

Da anlise da representao anterior, verifica-se que 50% dos dados centrais so um pouco enviesados para a direita, havendo um grande enviesamento nos 25% dos dados superiores, provocado pelo valor 337.

59

Noes de estatstica

3.

Medidas de localizao

1. Num laboratrio verifica-se que o peso mdio das 20 cobaias utilizadas para os ensaios clnicos era de 257 gramas. Posteriormente, verificou-se que a balana estava mal calibrada, pelo que para todas as cobaias o peso indicado era superior em 5 gramas ao peso verdadeiro. Ento qual era efectivamente a mdia dos pesos das cobaias? 2. Se as medidas que utilizam para calcular a mdia dos pesos estivessem em kg, como se reflectiria esta facto na mdia? 3. O governo e o sindicato sentam-se mesa das negociaes para discutirem os salrios da funo pblica. Uma destas entidades quer que um dos pontos de referncia para o aumento dos salrios seja a mdia, enquanto que a outra pretende que seja a mediana. Qual destas medidas a reivindicada pelo sindicato? 4. Os professores universitrios esto, dentro da mesma categoria, classificados em 4 escales A, B, C e D. Suponha que num determinado Departamento com 15 Professores Auxiliares, se registou para cada um deles a categoria, o estado civil e a idade: 1- B, casado, 35 2- A, solteiro, 28 3- B, casado, 38 4- A, solteiro, 34 5- C, casado, 40 6- D, vivo, 50 7- B, solteiro, 35 8- A, solteiro, 32 9- A, casado, 30 11- A, solteiro, 32 12- B, divorciado, 30 13- C, casado, 36 14- D, casado 40

10- A, solteiro, 28 15- B, casado, 35

a) Relativamente caracterstica "categoria", poder calcular a mdia, mediana e moda? b) A mesma questo da alnea anterior, relativamente ao estado civil. c) A mesma questo relativamente idade.

Resposta: a) Atendendo a que a varivel "categoria" uma varivel qualitativa, apenas podemos calcular a moda. Neste caso a moda o escalo A.

b)

A varivel "estado civil" tambm uma varivel qualitativa, logo, s possvel calcular a moda. A moda : casado.

60

Noes de estatstica

c)

Sendo a varivel "idade" uma varivel quantitativa podemos calcular a mdia, a mediana e a moda. A moda : 35 anos, a mediana : 35 anos e a mdia : 34,87 anos.

5. Considerar vrias representaes grficas (por ex. histogramas referentes a notas de vrias turmas).

a) Comparar posio relativa das medianas das notas das 3 turmas. b) Considere a classe 1). Espera que a mdia e a mediana das notas dessa turma, estejam prximas? c) Considere os dados da classe 2). Espera que a mediana seja superior mdia ou inferior? d) A partir dos dados calcule as medidas pedidas anteriormente. Confirme se a sua intuio estava correcta

Sugesto: Pode-se considerar notas de um teste aplicado a vrias turmas para comparar turmas!

6. (Rossman) - a seguinte tabela apresenta a distncia mdia (em milhes de milhas), distncia (em milhas) e o perodo de revoluo em volta do sol (em dias) para os 9 planetas do nosso sistema solar:

61

Noes de estatstica

Planeta Mercrio Venus Terra Marte Jpiter Saturno Urano Neptuno Pluto

Distncia 36 67 93 142 484 887 1 765 2 791 3 654

Dimetro 3 030 7 520 7 926 4 217 88 838 74 896 31 762 30 774 1 428

Perodo 88 225 365 687 4 332 10 760 30 684 60 188 90 467

a) Calcule a mediana de cada um destes valores. b) Se algum lhe disser que obteve para a mediana o valor de 88 838, qual o erro que essa pessoa cometeu ao calcular a mediana?

7. (Sugerido de um ex. Rossman) - a seguinte tabela representa o n. de levantamentos e a quantia total levantada num determinado ATM durante o ano de 1998:

Ms # Janeiro 9 Fevereiro 8 Maro 10 Abril 9

Total 188 700 164 650 185 000 148 000

Ms Maio Junho Julho Agosto

# Total 8 148 000 13 229 400 4 138 750 9 209 050

Ms Setembro Outubro Novembro Dezembro

# Total 10 157 250 10 186 850 7 159 100 14 252 000

a) A partir dos dados da tabela anterior pode: 1) Calcular a moda dos 111 levantamentos? Se sim, identifique-a. Se no, explique porqu. 2) Calcular a mediana dos 111 levantamentos? Se sim, identifique-a. Se no, explique porqu? 3) Calcular a mdia dos 111 levantamentos? Se sim, identifique-a. Se no, explique porqu? b) A seguinte tabela representa as quantias individuais dos 111 levantamentos. Utilize esta nova informao para calcular as medidas de localizao que no pde calcular anteriormente.

62

Noes de estatstica

4.

Medidas de disperso
da luz,

1. Seguidamente apresentam-se algumas estimativas para a velocidade determinadas por Michelson em 1882 (Statistics and Data Analysis, Siegel):

299.96 299.96

299.88 299.85

299.90 299.94

299.94 299.80

299.88 299.84

Utilizando uma mquina que s admite nmeros at 6 dgitos: a) Determine a mdia. b) Determine o desvio padro, utilizando a expresso da definio. c) Determine o desvio padro, utilizando a frmula deduzida para efeitos de clculo, e compare o resultado, com o obtido na alnea anterior. Qual a resposta correcta? d) Subtraia 299 de cada um dos dados e determine o desvio padro, dos resultados obtidos, utilizando a frmula utilizada na alnea anterior. Comente os resultados obtidos. e) Calcule a mdia dos valores com que trabalhou na alnea anterior. Adicione mdia obtida 299. Compare-a com a obtida na alnea a.

2. O Sr. Malaquias, cujas habilitaes literrias no vo alm do 4. ano de escolaridade, respondeu a 2 anncios de oferta de emprego. As empresas trabalham no mesmo ramo, pelo que o servio que o Sr. Malaquias iria fazer seria semelhante em qualquer das empresas. Resolveu saber alguma coisa sobre os ordenados processados nos dois stios, tendo obtido a seguinte informao:

Mdia Mediana Desvio padro

Empresa A 445 400 160

Empresa B 475 350 190

Qual das empresas aconselharia o Sr. Malaquias a escolher? Explique porqu.

5.

Distribuies bidimensionais

A tabela seguinte apresenta 3 conjuntos de dados A, B e C, preparados pelo estatstico Frank Anscombe, para ilustrar os perigos de calcular medidas sem primeiro representar os dados. Os conjuntos de dados A, B e C tm a mesma correlao e a mesma recta de regresso (Moore, 1995):
63

Noes de estatstica

A B C

x x x

10 10 8

8 6.95 8 8.14 8 5.76

13 7.58 13 8.74 12 7.71

9 8.81 9 8.77 8 8.84

11 8.33 11 9.26 8 8.47

14 9.96 14 8.10 8 7.04

6 7.24 6 6.13 8 5.25

4 4 3.10 8 5.56

12 12 9.13 8 7.91

7 7 7.26 8

5 5.6 5 4.74 19

y 8.04 y 9.14 y 6.58

4.26 10.84 4.82

6.89 12.50

a) Calcule o coeficiente de correlao e a recta de regresso para cada um dos conjuntos de dados e verifique que so iguais. b) Para cada um dos conjuntos de dados faa o diagrama de pontos e represente a recta de regresso. c) Em qual das situaes acha que pode utilizar a recta de regresso para predizer y para x=13.5? Justifique a resposta.

6.

Globais

1. Suponha que se adicionou 100, a cada um dos valores de uma amostra. O que que acontece ao: a) Desvio padro. b) Amplitude interquartil. c) Amplitude. d) Mdia. e) Mediana. Resposta: a) O desvio padro mantm. b) A amplitude interquartil mantm. c) A amplitude mantm. d) A mdia aumenta 100 valores. e) A mediana aumenta 100 valores.

64

Noes de estatstica

2. Suponha que obteve o valor de -40.5 para a varincia. O que conclui? Resposta: Podemos concluir que o valor obtido para a varincia no est correcto. A varincia nunca assume valores negativos. Esta propriedade resulta da sua definio (consultar pgina: http://alea-estp.ine.pt/html/nocoes/html/cap5_2_1.html)

3. Suponha que a amplitude de uma amostra 105.4, e que ao calcular o desvio padro obteve o valor 260.6. O que conclui? Resposta: Podemos concluir que ao calcular o desvio padro cometemos algum erro. O desvio padro , por definio e construo, uma medida da distncia das observaes da amostra, relativamente mdia. A mdia por sua vez tem que estar includa no intervalo [min. da amostra, mx. da amostra]. Assim, a amplitude da amostra ter que ser superior ao desvio padro.

4. Considere os seguintes resultados de um exame de Matemtica realizado a 213 alunos:

Nota 1 Freq. Abs. 1

2 1

3 5

4 7

5 12

6 13

7 16

8 15

9 17

10 32

11 17

12 21

13 12

14 16

15 8

16 4

17 7

18 5

19 4

a) Calcule a mdia e o desvio padro dos dados. b) Represente graficamente os dados na forma de um histograma considerando as seguintes classes: [1,3[, [3,5[, [5,7[, [7,9[, [9,11[, [11,13[, [13,15[, [15,17[, [17,19[, [19,21[ c) Qual o aspecto apresentado pelo histograma? d) Verifique quantas notas pertencem ao intervalo percentagem? Comente o valor obtido. e) Verifique quantas notas pertencem ao intervalo percentagem? Comente o valor obtido. . Corresponde a que . Corresponde a que

65

Das könnte Ihnen auch gefallen