You are on page 1of 57

Universidade Tecnológica Federal do Paraná

Programa de Pós-Graduação em Engenharia Mecânica - PPGEM

Fundamentos de Estatística

Profa Daniele Toniolo Dias F. Rosa


www. fotoacustica.fis.ufba.br/daniele/
danieletdias@utfpr.edu.br
O Método de Engenharia e o
Pensamento Estatístico
• Um engenheiro é alguém que resolve problemas de
interesse da sociedade, pela aplicação eficiente de
princípios estatísticos.
• Os engenheiros o realizam seja pelo refinamento de
um produto ou processo já existente, seja pela
elaboração do projeto de um novo produto ou
processo que atenda às necessidades dos
consumidores.
• O método de engenharia ou científico é a abordagem
para formular e resolver esses problemas.
• Note que o método de engenharia caracteriza uma
forte relação recíproca entre o problema, os fatores
que podem influenciar sua solução, um modelo do
fenômeno e a experiência para verificar a adequação
do modelo e da solução proposta para o problema.
• O quadrado pontilhado indica que vários ciclos ou
interações dessas etapas podem ser requeridos para
obter a solução final.
Variáveis aleatórias contínuas
• Em medidas, os dados podem ser influenciados por
pequenas variações de temperatura, pressão, vibração,
entre outras variáveis não controladas.
• Uma peça tirada da produção, a qual possui uma
medida muito precisa sempre possui dispersão em
torno da mesma.
• É comum modelar a faixa de valores possíveis dentro
de um intervalo.
O Método científico e a Estatística
• A estatística lida com a coleta, a apresentação, a
análise e o uso dos dados para tomar decisões,
resolver problemas e planejar produtos e processos.
• Especificamente, técnicas estatísticas podem ser uma
ajuda poderosa no planejamento de novos produtos e
sistemas, melhorando os projetos existentes e
planejando, desenvolvendo e melhorando as pesquisas
futuras.
• Métodos estatísticos são usados para nos ajudar a
entender a variabilidade de um sistema.
Fontes potenciais de variabilidade
• Exemplo 1: O consumo de um carro não é
dependentes da distância registrada apenas.
Depende de fatores como tipo de estrada,
condições do carro, tipo de gasolina, etc.
• Exemplo 2: Um engenheiro está projetando um
conector de náilon para aplicação automotiva. A
parede deste conector está condicionada a força
de remoção do conector. O primeiro protótipo foi
feito e as seguintes forças de remoção são
medidas: 12,6; 12,9; 13,4; 12,3 ;13,6; 13,5; 12,6;
13,1 N.
Análise descritiva e exploratória de
dados

• Os dados devem ser


cuidadosamente coletados
(observados), devidamente
conhecidos e utilizados para
analisar e interpretar a sua
variabilidade de forma a
possibilitar uma correta
resposta à hipótese em
estudo.
Conceitos básicos em Estatística
• INFORMAÇÃO NUMÉRICA: um conjunto de dados
estatísticos consiste de uma ou mais medidas, escores
ou valores observados (coletados) de certo número de
indivíduos, objetos, ensaios, experimentos, etc.
• ASPECTO BÁSICO DA INFORMAÇÃO: A análise
estatística de um conjunto de dados só faz sentido
quando existir “variabilidade” nos valores observados,
ou seja, os valores devem apresentar diferenças nas
diferentes unidades de observação utilizadas. A não
existência de variabilidade entre os valores observados
torna desnecessária a utilização de qualquer método
estatístico.
• POPULAÇÃO: Conjunto de indivíduos ou objetos os
quais o pesquisador tem interesse, que apresentam
relevância para a investigação de hipótese em estudo.
Podemos ainda dizer que a população é formada por
todos os valores possíveis de serem observados numa
dada situação. No caso de estudos experimentais, o
alvo é sempre uma dada população. A resposta para a
hipótese de interesse é dada por uma conclusão a
respeito da população em estudo.

• Uma população pode ser investigada a partir da


observação de seus elementos através de duas
diferentes formas: Censo ou Amostra.
• CENSO: Denominamos de censo aquelas situações
onde a investigação é realizada a partir da observação
de todos os elementos de uma população. Esse tipo de
observação somente é possível em populações finitas.
• AMOSTRA: Na grande maioria das vezes (quase
sempre!) não é possível observar todos os elementos
de uma população, porém é possível observar-se uma
parte desta população. O conjunto de elementos
efetivamente observado é denominado amostra.
Podemos então dizer que uma amostra é todo e
qualquer subconjunto necessariamente finito da
população.
• Para que a amostra seja uma representação realista,
não tendenciosa, da população, é necessário que seus
elementos sejam escolhidos de forma rigorosamente
aleatória.
• Amostra Aleatória: Amostra de N valores ou
indivíduos (unidades experimentais) obtidos
de tal forma que todos os possíveis
elementos da população tenham a mesma
“chance” de participar na amostra.
Coletando dados na Engenharia
• Nos estudos observacionais os dados são obtidos à
medida que se tornam disponíveis. O engenheiro
observa o processo ou população, perturbando-o tão
pouco quanto possível, e registra as grandezas de
interesse.
• Por exemplo: um pesquisador avalia o desempenho de
um processo de fabricação de componentes plásticos
através da injeção em molde. Pode-se observar o
processo, selecionar componentes à medida que são
fabricados e medir importantes características de
interesse (espessura da parede, o encolhimento ou a
resistência da peça). Ou também registrar as variáveis
de processo (temperatura do molde, o conteúdo de
umidade da matéria-prima e o tempo do ciclo.
• Nos experimentos planejados, o engenheiro faz
variações propositais nas variáveis controláveis de
alguns sistemas ou processos, observa os dados de
saída do sistema resultante e, então, faz uma inferência
ou decisão sobre as variáveis que são responsáveis
pelas mudanças observadas no desempenho de saída.
• Por Exemplo: mudança na espessura da parede do
conector de náilon (ex. em variabilidade) com objetivo
de descobrir se uma força de remoção maior poderia
ser ou não obtida.
• Experimentos planejados com princípios básicos, tais
como, aleatorização, são necessários para estabelecer
as relações de causa e efeito.
• O planejamento de experimentos tem um papel muito
importante no projeto e desenvolvimento de
engenharia e na melhoria dos processos de fabricação.
• Geralmente, quando produtos e processos são
planejados e desenvolvidos com experimentos
planejados, eles têm melhor desempenho, mais alta
confiabilidade e menores custos globais.
• Experimentos planejados também desempenham um
papel crucial na redução do tempo de condução de um
projeto de engenharia e do desenvolvimento de
atividades.
• INFERÊNCIA ESTATÍSTICA: Embora seja observada
“apenas” uma amostra, o objetivo de qualquer estudo
é estabelecer conclusões com respeito à população de
interesse. A metodologia utilizada para se fazer a
passagem dos resultados obtidos na amostra para
conclusões populacionais é chamada “inferência
estatística”.

A inferência estatística pode ser definida em duas etapas:


• Estimação: Obter informação sobre uma característica
populacional;
• Teste de Hipóteses: Utilização da informação amostral
para responder as hipóteses de interesse no estudo.
• ANÁLISE ESTATÍSTICA:

• O processo de organização, processamento,


sumarização e retirada de conclusões sobre um
determinado conjunto de dados (amostra) é
chamado de análise estatística. As hipóteses
(questões de interesse) daqueles que realizam o
estudo indicam o tipo de dado que precisa der
obtido e consequentemente a inferência a ser
realizada.
Resumo e análise estatística de dados
Organização, sumarização e
representação de dados

• A organização, sumarização e apresentação dos dados


observados são essenciais para um bom julgamento
estatístico, dado que permitem que sejam
identificadas características importantes da amostra e
ainda mais, indicar modelos que podem ser mais
adequados para verificação da hipótese em estudo.
Tipos de Variáveis
• VARIÁVEIS CATEGÓRICAS: Denominamos variáveis
categóricas aquelas medidas (características)
observadas na amostra que apenas identificam a
unidade de observação. Em outras palavras, uma
variável categórica identifica um atributo, classe,
qualidade,..., da unidade de observação. Exemplo:
Sexo, Grau de escolaridade, tipo de solo, fornecedor,
etc.
• VARIÁVEIS QUANTITATIVAS: Denominamos de
variáveis quantitativas aquelas medidas
(características) observadas na amostra que
estabelecem uma informação resultante de uma
contagem ou de uma mensuração feita na unidade
experimental.
Classificação das variáveis
Apresentação dos Dados
• A apresentação de informações contidas num conjunto
de dados pode ser feita de várias formas. O objetivo de
uma apresentação dos dados é organizar os valores
observados de forma a obter o máximo de informação.
Os procedimentos usuais de apresentação de dados
são tabelas e gráficos.
• Consideremos o seguinte experimento: Uma indústria
química formula um experimento para verificar se um
novo método de fabricação de um produto químico é
superior a um método tradicional de fabricação. Um
experimento foi realizado obtendo-se dados de
produção industrial dos métodos A (Tradicional) e B
(Novo Método), cujos resultados estão apresentados
na Tabela seguinte:
Dados de produção industrial

* ** * **

*Variável categórica nominal **Variável quantitativa contínua


• A apresentação usual dos dados observados é feita
através de uma tabela de distribuição de frequências,
onde são apresentados os valores observados, a
frequência com que cada valor foi observado, o
percentual que este número de frequência representa
em relação ao total de observação, bem como os
respectivos valores acumulados.
Distribuição de Frequência da Variável Método de
Produção Industrial.
Distribuição de
Frequência da
Variável Produção
Industrial
Notação:
fi = frequência do i-ésimo valor
pi = frequência percentual do i-ésimo valor
⇒ pi = fi / n
n = tamanho da amostra (número de
unidades observadas)
Fi = frequência acumulada até o i-ésimo
valor, ou seja, número de observações até
i
o i-ésimo valor ⇒
Fi = ∑ f a
a =1
Pi = frequência percentual acumulada até
o i-ésimo valor, ou seja, percentual de
observações até i
o i-ésimo valor ⇒ Pi = ∑ pa
a =1
• Problema:

• No caso das variáveis quantitativas, como no exemplo


acima, podemos ter que a variável assume um grande
número de valores todos (ou a grande maioria) com
baixas frequências, logo a distribuição de frequências
se torna grande sem uma maior contribuição para a
interpretação dos dados.
• Nessas situações, recomenda-se a categorização da
variável através do estabelecimento de intervalos de
acordo com os objetivos do estudo.
• No exemplo:
Distribuição de Frequência da Variável Produção
Industrial Categorizada.

Sugestão Usual:
Os intervalos gerados pela categorização devem ter o mesmo
comprimento e/ou aproximadamente mesmas frequências.
• Qualquer conjunto de dados fica mais fácil de analisar
se for representado graficamente. No gráfico
tradicional para uma distribuição de frequências, cada
intervalo é representado por um retângulo, cuja base
coincide com a largura do próprio intervalo e cuja área
é idêntica, ou proporcional, a sua frequência.
• A figura geométrica obtida é chamada de histograma.
• A área total do histograma é igual a um, quando a área
de cada retângulo for igual à frequência do intervalo
correspondente.
Histograma
70
da produção industrial categorizada
_ _
x-s x
60
_
50 x+s

Frequência (%)
40

30
_
x-2s _
20 x+2s

10

0
74 76 78 80 82 84 86 88 90 92 94 96

Produção
• Para facilitar a comparação com os dados da tabela, a
altura de cada retângulo, e não a sua área, é igual à
frequência do intervalo.
• Isto não alteram o aspecto geral do histograma, já que
as bases dos retângulos são todas iguais.
Variáveis quantitativas também podem ser
representadas por:

• Diagrama de Pontos
Ex: Distribuição de Frequência da Variável Produção Industrial

78 80 82 84 86 88 90 92

Produção
Exibe pequeno conjunto de dados. Esse gráfico nos
permite ver facilmente duas características dos dados: a
localização, ou o meio, e a dispersão (espalhamento)
ou variabilidade.
• Ramos e Folhas Ramos Folhas
– Utilização: Conjunto 79 37
pequeno de dados 81 47
– Vantagem: Visualização 82 6
completa das obs.
83 277
– Construção: Cada obs.
dividida em duas partes: 84 5578
Ramos e Folhas 85 1
86 13
Ex: Distribuição de Frequência da 87 3
Variável Produção Industrial 88 5
89 17
Unidade das Folhas=0,1 91 9
Variáveis qualitativas podem ser representadas por:
• Gráfico em Barras
• Gráfico de Setores (Gráfico
“Pizza”)

• Gráfico em Retângulo
Sumarização dos Dados

• A distribuição de frequências além de apresentar os


dados observados, também pode ser considerada uma
sumarização de dados. Porém, na maioria dos casos, é
desejado obter valores que possam representar cada
uma das variáveis em estudo.
• Esses valores devem ser medidas que, sob algum ponto
de vista sejam representativos dos dados observados.
As medidas usualmente utilizadas se referem a locação
e dispersão dos dados.
• A média aritmética de um conjunto de dados,
que é uma medida da sua localização, ou
tendência central, é simplesmente a soma de
todos os valores, dividida pelo número total de
elementos no conjunto.
Média: N y
µ =
j
Populacional: ∑j =1 N
yi= i-ésimo valor
N= número total de valores na população
n
xi
Amostral: x=∑
i =1 n
xi= i-ésimo valor
n= número total de valores na amostra
• Para obter a medida do espalhamento das observações
em torno da média, que é o desvio padrão, primeiro
calculamos a diferença, ou desvio, de cada valor
individual em relação a média amostral:

d i = xi − x

• Em seguida somamos os quadrados de todos os


desvios e dividimos o total por n-1. O resultado dessas
operações é a variância amostral (s2) do conjunto de
observações:
∑ (xi − x )
n n 2
2
∑ di
i =1 i =1
V ( x) = s 2 = =
n −1 n −1
Por que (n-1)?
Quando dividimos por n-1 temos que S2 é um estimador não viciado, importante propriedade
da inferência estatística:
Se a amostra é grande, os valores obtidos dividindo por n ou n-1 são praticamente iguais.
• Enquanto a média tem as mesmas unidades que as
observações originais, as unidades da variância são,
pela própria definição, o quadrado das unidades de
partida. Para que as medidas de dispersão e de posição
tenham as mesmas unidades, costumamos substituir a
variância pela sua raiz quadrada, que é chamada de
desvio padrão amostral:

s = V ( x) = s 2

• O desvio padrão geralmente é usado para definir


intervalos em torno da média.
O desvio padrão populacional é representado pela letra grega:
σ
Exercício

• Calcule a média e o desvio padrão para a


distribuição de frequência da variável
produção industrial.
Distribuição Normal
• Modelo mais utilizado para distribuição de uma variável
aleatória.
• Teorema central do limite faz com que a forma seja um
sino simétrico. De forma que o Ponto central (máximo),
representa a média.
• Em uma medida, quando os desvios são decorrentes de
variáveis independentes podemos usar o modelo para
tirar conclusões aproximadas em em relação à média.
• Exemplo: o desvio (ou erro) no comprimento de uma peça
usinada é dependente de variações na temperatura e na
umidade, vibrações, variações no ângulo de corte,
desgaste da ferramenta de corte, desgaste no mancal,
variação na velocidade, entre outras.
• A distribuição normal é uma distribuição contínua, ou
seja, a variável pode assumir qualquer valor dentro de
um intervalo pré-definido (qq valor real).
• Uma distribuição contínua da variável x é definida pela
sua densidade de probabilidade f(x):
−( x − µ )2
1 2σ 2
f ( x)dx = e dx
σ 2π
f(x)= densidade de probabilidade da variável aleatória x
µ= média populacional
σ2= variância populacional
• Para indicar que uma variável aleatória x se distribui
normalmente, com µ e σ2, usaremos que x≈N(µ ,σ2) ,
onde o sinal ≈ lê-se “distribui-se de acordo com”.
− x2
1
f ( x) = e 2

• Distribuição de frequências de uma variável aleatória


normal padrão x≈N(0,1). Note que x é o afastamento em
relação média, em número de desvios padrão.
• A probabilidade de que a<x<b é igual:
b
P(a < x < b ) = P(a ≤ x ≤ b ) = ∫ f ( x)dx
a
=Probabilidade de que o valor da variável aleatória de
densidade de probabilidade f(x) seja observado no intervalo [a,b]
µ +σ

− x2
P(µ − σ < x < µ + σ ) = ∫ f ( x)dx = 0,6826(68,26% )
f ( x) =
1
e 2 µ −σ
2π µ +3σ
P(µ − 3σ < x < µ + 3σ ) = ∫ f ( x)dx = 0,9973(99,73% )
µ −3σ
• Na prática podemos consultar na tabela a seguir os
valores das integrais para vários intervalos de uma
variável z≈N(0,1) para obter as probabilidades
correspondentes a quaisquer limites.
• Padronização: Padronizar uma variável aleatória x (µ,σ2)
é construir a partir dela uma nova variável aleatória z,
cujos valores são obtidos subtraindo-se de cada valor de
x a média populacional e dividindo-se o resultado pelo
desvio padrão: x−µ
z=
σ x= variável aleatória com distribuição N(µ,σ2)
z= variável aleatória com distribuição N(0,1)
• O valor numérico de z representa o
afastamento do valor de x em relação à média
populacional µ, medindo em desvios padrão,
ou seja: x=µ+zσ

Exercício
• Padronize a variável aleatória produção e
fazendo z=-2 encontre o valor de x que está a
dois desvios padrão abaixo da média (compare
com o gráfico de histograma)
Valor de z até a segunda casa

Tabela de Probabilidades
Associadas à área da Cauda
Direita da Distribuição Normal
Padronizada

Ex: z=1,96 →0,0250 fração da área


total sob a curva que está a direita.
Por simetria:
95% restantes estão entre z=-1,96 e
z=1,96.

Valor de z até a primeira casa decimal


Exercício
• Aceitando o modelo normal como uma representação
adequada da distribuição populacional da produção
industrial, use a tabela acima, juntamente com os
valores dos parâmetros amostrais para responder:
• Qual a probabilidade de utilizando um método ao acaso
os dados de produção industrial ficarem entre 83 e 87?
• Faça um esboço da área correspondente a esta
probabilidade.

Obs: não esquecer que a resposta se baseia na validade de duas


suposições: a de que a distribuição dos dados de produção
industrial é normal e a de que os parâmetros populacionais são
iguais aos valores amostrais.
Por que a distribuição normal é importante?

• Mesmo que a população de interesse não se distribua


normalmente, as técnicas podem ser usadas, porque
continuam aproximadamente válidas.
• Essa robustez vem do teorema do limite central:

Se a flutuação total numa certa variável aleatória for o


resultado da soma das flutuações de muitas variáveis
independentes e de importância mais ou menos igual,
a sua distribuição tenderá para a normalidade, não
importa qual seja a natureza das distribuições das
variáveis individuais.
Como calcular um intervalo de confiança para
a média
• O principal motivo para querermos um modelo é a
perspectiva de usá-lo para fazer inferências sobre os
parâmetros populacionais.
• Supondo que apenas um dado da produção industrial
tenha sido coletado e este seja 79,3 (o primeiro valor).
O que esse valor nos permite dize a respeito da
produção industrial média populacional µ?
• Aceitando o modelo normal, podemos dizer que temos
95% de confiança na dupla desigualdade
µ − 1,96σ < 79,3 < µ + 1,96σ
• Tomando a desigualdade da esquerda e somando
1,96σ aos dois lados temos:
µ < 79,3 + 1,96σ

• Subtraindo 1,96σ da desigualdade da direita, temos:


79,3 − 1,96σ < µ
• Combinando as duas temos um intervalo de 95% de
confiança para a média populacional:
79,3 − 1,96σ < µ < 79,3 + 1,96σ
• Supondo que σ=3,28 (na verdade um valor amostral)
determinamos numericamente os limites desse
intervalo: 72,87 < µ < 85,73
E ainda há 5% de probabilidade de estarmos enganados.
Intervalo de confiança para a média populacional, a partir de uma
observação:
xi − zσ < µ < xi + zσ
xi= uma observação, z= ponto da distribuição N(0,1) no nível desejado
Covariância e Correlação

• Em pesquisas que envolvem a consideração de duas ou


mais variáveis, estas são estudadas também
simultaneamente,procurando-se uma possível
correlação entre elas, isto é, quer-se saber se as
alterações sofridas por uma das variáveis são
acompanhadas por alterações nas outras.
• Quando existirem duas séries de dados, existirão várias
medidas estatísticas que podem ser usadas para
capturar como as duas séries se movem juntas através
do tempo.
• As duas mais largamente usadas são a correlação e
a covariância. Para duas séries de dados, X (X1, X2,.) e
Y(Y1,Y2... ), a covariância fornece uma medida não
padronizada do grau no qual elas se movem juntas, e
é estimada tomando o produto dos desvios da média
para cada variável em cada período.

Cov( x, y ) =
1 n
∑ (
n − 1 i =1
)(
xi − x yi − y )
• O sinal na covariância indica o tipo de relação que as
duas variáveis têm. Um sinal positivo indica que elas
movem juntas e um negativo que elas movem em
direções opostas.
• Enquanto a covariância cresce com o poder do
relacionamento, ainda é relativamente difícil fazer
julgamentos sobre o poder do relacionamento entre as
duas variáveis observando apenas a covariância, pois ela
não é padronizada.
• A correlação é a medida padronizada da relação entre
duas variáveis. Ela pode ser calculada da covariância:

1 n  xi − x  yi − y 
r ( x, y ) = ∑
n − 1 i =1  s x  s y 

• A correlação nunca pode ser maior do que 1 ou menor


do que -1. Uma correlação próxima a zero indica que as
duas variáveis não estão relacionadas (são
estatisticamente independentes).
• Uma correlação positiva indica que as duas variáveis
movem juntas, e a relação é forte quanto mais a
correlação se aproxima de um.
• Uma correlação negativa indica que as duas variáveis
movem-se em direções opostas, e que a relação
também fica mais forte quanto mais próxima de -1 a
correlação ficar.
• Duas variáveis que estão perfeitamente
correlacionadas positivamente (r=1) movem-se
essencialmente em perfeita proporção na mesma
direção, enquanto dois conjuntos que estão
perfeitamente correlacionados negativamente movem-
se em perfeita proporção em direções opostas.
• Uma regressão simples é uma extensão do conceito
correlação/covariância. Ela tenta explicar uma
variável, a qual é chamada variável dependente,
usando a outra variável, chamada variável
independente.
• Se as duas variáveis são plotadas uma contra a outra
num gráfico de espalhamento, com Y no eixo vertical
e X no eixo horizontal, a regressão tenta ajustar uma
linha reta através dos pontos, de tal modo que
minimiza a soma dos desvios quadrados dos pontos
da linha.
• Quando tal linha é ajustada, dois parâmetros
emergem - um é o ponto em que a linha corta o
eixo Y, chamado de intercepção da regressão, e o
outro é a inclinação da linha de regressão.
• Relação linear entre duas variáveis, acrescida de um
erro aleatório, a linearidade do conjunto de pontos
está perturbada por uma certa dispersão.
• A inclinação (b) da regressão mede a direção e a
magnitude da relação.
• Quando as duas variáveis estão correlacionadas
positivamente, a inclinação também será positiva,
enquanto quando as duas variáveis estão correlacionadas
negativamente, a inclinação será negativa.
• A magnitude da inclinação da regressão pode ser lida
como segue: para cada acréscimo unitário na variável
(X), a variável dependente mudará por b (inclinação). A
ligação estreita entre a inclinação da regressão e a
correlação/covariância não seria surpreendente desde
que a inclinação for estimada usando a covariância:
Cov( x, y )
inclinação = b =
V (x )
• A intercepção (a) da regressão pode ser lida de várias
maneiras. Uma interpretação diz que ela é o valor que
Y terá quando X é zero.
• Uma outra é mais direta, e está baseada em como ela é
calculada: na diferença entre o valor médio de Y, e o
valor ajustado da inclinação de X.
int ercepção = a = µ y − b( µ x )

• Os parâmetros da regressão são sempre estimados


com algum ruído, parcialmente porque o dado é
medido com erro e porque os estimamos de amostra
de dados. Este ruído é capturado numa dupla de
estatísticas.
• Um é o R2 da regressão, que mede a proporção da
variabilidade em Y que é explicada por X. É uma
função direta da correlação entre as variáveis
R = r ( x, y )
2 2

• Um valor de R2 muito próximo de 1 indica uma forte


relação entre as duas variáveis, apesar de a relação
poder ser positiva ou negativa.
• Uma outra medida do ruído numa regressão é o erro
padrão, que mede o "espalhamento" ao redor de
cada um dos dois parâmetros estimados - a
intercepção e a inclinação. Cada parâmetro tem um
erro padrão associado, que é calculado dos dados:
Erro Padrão da Intercepção =

Erro Padrão da Inclinação=


Combinações lineares de variáveis
aleatórias