Sie sind auf Seite 1von 168

Métodos Quantitativos

Ementa
Amostragem; processos amostrais com e sem reposição; tipos e
tamanho da amostra; correlação; regressão linear simples e múltipla e
regressão não linear; processo de tomada de decisão; modelagem em
planilhas eletrônicas; otimização matemática usando Excel; análise de
sensibilidade; análise dos relatórios do Excel; modelos em rede de
programação linear programação linear: modelagem e análise.
Introdução
Método é o conjunto dos meios dispostos para alcançar um fim e especialmente para
chegar a um conhecimento científico ou comunicá-lo aos outros, ou seja, é a escolha de
procedimentos sistemáticos para a descrição e explicação de fenômenos: Delimitação de
um problema e seus objetivos específicos; realização e interpretação de observações, com
base nas relações encontradas, fundamentando-se nas teorias existentes.

Os métodos podem ser qualitativos ou quantitativos. Os quantitativos são aqueles que


empregam a quantificação tanto na coleta de informações, quanto no tratamento delas
por meio de técnicas estatísticas. Portanto, para avaliar o desempenho dos processos de
uma empresa, por exemplo, torna-se fundamental a aplicação de métodos quantitativos.
O Método Quantitativo (MQ) é um recurso indispensável, uma vez que se
apresenta como uma ferramenta para tomada racional de decisões gerenciais,
substituindo as decisões empíricas utilizadas em grande escala.
• O método de Pesquisa Quantitativo procura quantificar dados, fatos ou opiniões,
nas formas de coleta de informações, como também com o emprego de técnicas
e recursos simples de estatística, tais como média, moda, desvio padrão e
mediana, como o uso de métodos mais complexos tais como análise de
regressão, coeficiente de correlação etc.
• O MQ é bastante usado no desenvolvimento das pesquisas no campo social, de
opinião, de comunicação, administração e economia.
Como exemplos de Métodos Quantitativos podem ser citados:
O Teste de Hipóteses: É um método para verificar se os dados são compatíveis com
alguma hipótese, podendo muitas vezes sugerir a não validade dela. O teste de
hipóteses é um procedimento estatístico baseado na análise de uma amostra,
através da teoria de probabilidades, usado para avaliar determinados parâmetros
que são desconhecidos numa população. Seu objetivo é decidir se uma afirmação,
em geral, sobre parâmetros de uma ou mais populações é, ou não, apoiada pela
evidência obtida de dados amostrais. Tal afirmação é o que se chama Hipótese
Estatística e a regra usada para decidir se ela é verdadeira ou não, é o Teste de
Hipóteses.
A Regressão Linear: Algumas vezes estamos interessados em saber não apenas se
existe associação entre duas variáveis quantitativas x e y, mas nós temos também
uma hipótese a respeito de uma provável relação de causa e efeito entre variáveis.
Desejamos saber se y “depende” de x. Neste caso, y é chamado de variável
dependente ou variável resposta, e x é chamado de variável independente. Na
regressão linear, temos a hipótese de que o valor de y depende do valor de x e
expressamos matematicamente esta relação por meio de uma equação, assumindo
que a associação entre x e y é linear, ou seja, descrita adequadamente por uma
reta. A regressão é usada basicamente com duas finalidades: de previsão (prever o
valor de y a partir do valor de x) e estimar o quanto x influencia ou modifica y.
A Programação Linear: A Programação Linear (PL) é uma das técnicas da Pesquisa Operacional
mais utilizadas em se tratando de problemas de otimização. Os problemas de Programação
Linear buscam a distribuição eficiente de recursos limitados para atender um determinado
objetivo, em geral, maximizando lucros ou minimizando custos. Em se tratando de PL, esse
objetivo é expresso através de uma função linear, denominada de “Função Objetivo”, que se
combina com as restrições de recursos do problema para gerar uma otimização.

Os métodos quantitativos podem auxiliar uma organização a controlar sua logística, seus
custos, a utilização de suas máquinas, a otimização de seus contratos, o rendimento de seus
investimentos, o máximo aproveitamento de seu parque industrial, dentre outras aplicações. .
Cabe aqui ressaltar que apesar de o paradigma quantitativo ser mais
tradicional e aparentar ter mais força entre os pesquisadores do meio
científico, a visão qualitativa vem ganhando mais força e mais adeptos na
área de Administração. Atualmente o que se percebe é uma tentativa de
serem utilizados os dois meios como um poderoso instrumento de pesquisa
e avaliação de desempenho.
Estatística Básica
Estatística é um conjunto de técnicas de análise de dados, cientificamente formuladas,
aplicáveis a quase todas as áreas do conhecimento que nos auxiliam no processo de
tomada de decisão. É a Ciência que estuda os processos de coleta, organização, análise e
interpretação de dados relevantes e referentes a uma área particular de investigação.
Desenvolver uma cultura estatística significa desenvolver a habilidade de planejar um
estudo, controlando todos os aspectos que possam causar variações na resposta de
interesse e, com base em metodologias científicas, analisar as informações coletadas para
subsidiar com mais segurança a difícil tarefa de tomada de decisão.
Conceitos Básicos

Em seguida são apresentados os principais conceitos estatísticos, os quais são


diversas vezes citados ao longo das aulas. É importante, nesse momento, o aluno se
familiarizar com esses novos termos, o que facilita a compreensão das técnicas
estatísticas apresentadas na sequência.
• Estatística Descritiva

O objetivo da Estatística Descritiva é resumir as principais características de um


conjunto de dados por meio de tabelas, gráficos e resumos numéricos. Portanto, a
análise estatística deve ser extremamente cuidadosa ao escolher a forma adequada
de resumir os dados.
• Inferência Estatística

Usualmente, é impraticável observar toda uma população, seja pelo custo alto, seja
por dificuldades operacionais. Examina-se então uma amostra, de preferência
bastante representativa, para que os resultados obtidos possam ser generalizados
para toda a população. Toda conclusão tirada por amostragem, quando
generalizada para a população, apresenta um grau de incerteza. Ao conjunto de
técnicas e procedimentos que permitem dar ao pesquisador um grau de
confiabilidade nas afirmações que faz para a população, baseadas nos resultados
das amostras, dá-se o nome de Inferência Estatística.
População e Amostra:

População é a totalidade de elementos que estão sob discussão e das quais


se deseja informação, se deseja investigar uma ou mais características. A
população pode ser formada por pessoas, domicílios, peças de produção,
cobaias, ou qualquer outro elemento a ser investigado. Para que haja uma
clara definição das unidades que formam a população, é necessária a
especificação de três elementos: uma característica em comum, localização
temporal e localização geográfica.
Exemplos:
Amostra é uma parcela da população utilizada para uma posterior análise de
dados. Em vez de utilizar toda a população, que resulta em maior custo, tempo e
por muitas vezes ser inviável, o processo de amostragem utiliza uma pequena
porção representativa da população. A amostra fornece informações que podem
ser utilizadas para estimar características de toda a população.

Na amostra, em que há a possibilidade de se retirar mais de uma vez o mesmo


elemento, dá-se o nome de amostra com reposição. Enquanto, se cada elemento
não pode ser escolhido mais de uma vez, é denominado amostragem sem
reposição.
• Tipos de Amostragem

Existem dois tipos de amostragem: probabilística e não-probabilística.

Amostragem probabilística:

A amostragem será probabilística se todos os elementos da população tiverem


probabilidade conhecida, e diferente de zero, de pertencer à amostra. Caso
contrário, a amostragem será não-probabilística. Uma amostragem não-
probabilística é obtida quando o acesso a informações não é tão simples ou os
recursos forem limitados, assim o pesquisador faz uso de dados que estão mais a
seu alcance, é a chamada amostragem por conveniência.
Por exemplo, podemos realizar um estudo para avaliar a qualidade do
serviço prestado por uma operadora de telefonia celular. Caso tenhamos
recursos suficientes, podemos realizar um plano amostral bastante
abrangente de toda a população de usuários do serviço. Isso caracteriza uma
amostra probabilística. Mas se por restrições orçamentárias ou de outra
ordem não for possível obter uma amostra tão numerosa ou ela seja de
difícil acesso, podemos restringir nossa amostra a uma pequena região
delimitada de fácil acesso e de custo reduzido, usuários de uma cidade, por
exemplo. Essa é uma amostragem não-probabilística.
Segundo essa definição, a amostragem probabilística implica sorteio com
regras bem determinadas, cuja realização só será possível se a população for
finita e totalmente acessível.

A utilização de uma amostragem probabilística é a melhor recomendação


que se deve fazer no sentido de garantir a representatividade da amostra. No
caso em que a única possibilidade é o uso de uma amostragem não-
probabilística, deve-se ter a consciência de que as conclusões apresentam
alguma limitação. A seguir, será apresentada algumas das principais técnicas
de amostragem probabilística.
- Amostragem Aleatória Simples.

Esse tipo de amostragem, também chamada simples ao acaso, casual, elementar,


randômica etc., é equivalente a um sorteio lotérico. Nela, todos os elementos da
população têm igual probabilidade de pertencer à amostra e todas as possíveis
amostras têm igual probabilidade de ocorrer.

Sendo N o número de elementos da população e n o número de elementos da


amostra, cada elemento da população tem probabilidade n/N de pertencer à
amostra. A essa relação n/N denomina-se fração de amostragem.
Por outro lado, sendo a amostragem feita sem reposição, supomos, em geral,

que existem possíveis amostras, todas igualmente prováveis.

Na prática, a amostragem simples ao acaso pode ser realizada numerando se


a população de 1 a N, sorteando-se, a seguir, por meio de um dispositivo
aleatório qualquer, n números dessa sequência, os quais correspondem aos
elementos sorteados para a amostra.
Amostragem Sistemática.

Quando os elementos da população se apresentam ordenados e a retirada dos elementos


da amostra é feita periodicamente, temos uma amostragem sistemática.

Por exemplo, em uma linha de produção, podemos, a cada dez itens produzidos, retirar um
para pertencer a uma amostra da produção diária. Para seleção do primeiro item, um
número entre 1 e 10 é sorteado aleatoriamente e os demais subsequentes são obtidos
sistematicamente. Por exemplo, as unidades sorteadas poderão ser 8, 18, 28, 38, 48, e
assim por diante, repetindo-se o procedimento até o N-ésimo item. Denomina-se k = N/n
como a razão de amostragem. No exemplo, portanto, k = 10.
- Amostragem Estratificada.

Muitas vezes, a população se divide em subpopulações ou estratos, sendo razoável


supor que, de estrato para estrato, a variável de interesse apresente um
comportamento substancialmente diverso, tendo, entretanto, comportamento
razoavelmente homogêneo dentro de cada estrato. Em tais casos, se o sorteio dos
elementos da amostra for realizado sem se levar em consideração a existência dos
estratos, pode acontecer que os diversos estratos não sejam convenientemente
representados na amostra, a qual seria mais influenciada pelas características da
variável nos estratos mais favorecidos pelo sorteio. Para evitar isso, pode-se adotar
uma amostragem estratificada.
Constituem exemplos em que uma amostragem estratificada parece ser
recomendável, a estratificação de uma cidade em bairros, quando se deseja
investigar alguma variável relacionada à renda familiar; a estratificação de uma
população humana em homens e mulheres, ou por faixas etárias; a estratificação
de uma população de estudantes conforme suas especificações etc.
- Amostragem por Conglomerados
Neste método, em vez da seleção de unidades da população, são selecionados
conglomerados dessas unidades. Essa é uma alternativa para quando não existe o
cadastro das unidades amostrais. Se a unidade de interesse, por exemplo, for um
aluno, pode ser que não exista um cadastro de alunos, mas sim de escolas.
Amostragem não Probabilística:

A amostragem não probabilística é formada por elementos que o pesquisador reuniu


simplesmente porque dispunha deles. Então, se o professor tomar os alunos de sua classe
como amostra de toda a escola, está usando uma amostra de conveniência.

Os estatísticos têm muitas restrições ao uso de amostras de conveniência. Mesmo assim,


as amostras de conveniência são comuns na área de saúde, em que se fazem pesquisas
com pacientes de uma só clínica ou de um só hospital.

De qualquer forma, o pesquisador que utiliza amostras de conveniência precisa de muito


senso crítico. Os dados podem ser tendenciosos.
Dimensionamento do tamanho da amostra
Como foi visto acima, a preparação da amostra de uma população é ponto
fundamental para a inferência estatística. A amostra deve representar as
característica da população para que os resultados obtidos possam ser
generalizados para toda a população.

Para dimensionar o tamanho da amostra é necessário o conhecimento ou a


estimativa de alguns dados básicos sobre a população que se deseja investigar
e o erro máximo que se está disposto a tolerar.
Por exemplo, queremos estudar um universo de pessoas (por exemplo,
brasileiros entre 15 e 65 anos, um total de 136 milhões de pessoas) através
de uma pesquisa direcionada a uma amostra deste universo. Como a
amostra tem um tamanho inferior ao total do universo, vamos acabar
auferindo certo nível de erro nos dados que observarmos. Se estivermos
dispostos a aceitar uma % de erro determinada, qual é o tamanho mínimo
de amostra que precisa ser entrevistado?
Precisamos inicialmente fixar o erro máximo que estamos disposto a aceitar.
Para tal, especificaremos dois parâmetros: a margem de erro e o nível de
confiança. A margem de erro é o intervalo no qual esperamos encontrar o
dado que queremos medir. O dado pode ser em geral de dois tipos: uma
média ou uma proporção. O nível de confiança expressa a certeza de que o
dado que buscamos realmente está dentro da margem de erro.
Por exemplo, queremos poder estimar o número de brasileiros entre 15 e 65 anos
que têm casa própria, afirmando que são um total de 61,35 milhões de pessoas
(45% da população) com uma margem de erro de 5%, isso significa que a realidade
está entre 64,42 milhões (47,25%) e 58.28 milhões (42,75%).

Se obtemos um nível de confiança de 95%, poderíamos dizer que a porcentagem de


pessoas do meu universo que têm casa própria, em 95% dos casos se encontrará
entre 42,75% e 47,25%. Ou seja, se eu repetir a minha pesquisa 100 vezes,
selecionando amostras aleatórias do mesmo tamanho, 95 vezes a proporção que
eu busco estaria dentro do intervalo e 5 vezes fora dele.
Conhecendo os parâmetros anterior podemos calcular o tamanho da
população através da expressão:

onde,

n = O tamanho da amostra que queremos calcular


N = Tamanho do universo (p.e. 136 milhões de brasileiros entre 15 e 65 anos)
Z = É o desvio do valor médio que aceitamos para alcançar o nível de
confiança desejado.
Em função do nível de confiança que buscamos, usaremos um valor determinado
que é dado pela forma da distribuição de Gauss. Os valores mais frequentes são:

• Nível de confiança 90% -> Z=1,645

• Nível de confiança 95% -> Z=1,96

• Nível de confiança 99% -> Z=2,575

e = É a margem de erro máximo que eu quero admitir (p.e. 5%)

p = É a proporção que esperamos encontrar. Como regra geral, usa-se p=50% se


não há nenhuma informação sobre o valor que esperamos encontrar.
Podemos simplificar a fórmula anterior quando trabalhamos com universos
de tamanhos muito grandes (se considera muito grande a partir de 100.000
indivíduos), resultando na seguinte fórmula:

Retomando o caso anterior. Temos uma população de 136 milhões de


brasileiros entre 15 e 65 anos, queremos saber qual a % deles tem casa
própria, com uma margem de erro de 5% e um nível de confiança de 95%.
Vamos supor que não temos nenhuma informação prévia sobre qual é a % de
proprietários que podemos obter na pesquisa. Usando a fórmula
simplificada, pois 136 milhões > 100.000, e considerando p=50% pois não
temos informação prévia sobre o resultado esperado:

n = 1,96^2 * 0,5 * (1 – 0,5) / 0,05^2 = 384,16 -> 384

Devemos, portanto, entrevistar 384 pessoas para manter-se dentro dos


níveis de erro definidos.
Se em um estudo realizado no ano anterior obtivemos o resultado de
que a % de brasileiros proprietários da casa própria era de 20%, e se
espera que o dado deste ano não tenha variado em mais de 5 pontos
(entre 15% e 25%), poderíamos substituir p pelo pior caso esperado, p
= 25%. O resultado seria:

n = 1,96^2 * 0,25 * (1 – 0,25) / 0,05^2 = 288,12 -> 288


Atividades
1. Uma firma que está se preparando para lançar um novo produto precisa
conhecer as preferências dos consumidores no mercado de interesse. Para
isso, o que se deve fazer:
a) Uma pesquisa de mercado realizando entrevistas a domicílio com uma
amostra de pessoas escolhidas aleatoriamente que se adaptam ao perfil da
população de interesse.
b) Realizar entrevistas com todos os potenciais consumidores do referido
produto nos estabelecimentos comerciais em que este será vendido.
c) Promover uma discussão em grupo sobre o novo produto, moderada por
um especialista, com cerca de 20 donas de casa em que será feita uma
degustação e posteriormente uma avaliação.
2. Antes de lançar um novo remédio no mercado, é necessário fazer várias
experiências para garantir que o produto é seguro e eficiente. Para isso, o
que se deve fazer:
a) Tomar dois grupos de pacientes tão semelhantes quanto possível, e dar o
remédio a um grupo, mas não ao outro, e verificar se os resultados no grupo
tratado são melhores.
b) Deve-se realizar um período de testes do novo medicamento,
disponibilizando algumas amostras grátis em farmácias para serem avaliadas
pela população durante certo período de tempo.
c) Tomar um grupo de pacientes de determinado hospital e sem que sejam
informados, administrar a nova droga, comparando-se os resultados obtidos
com os resultados anteriores, obtidos com a droga antiga.
3. Se estamos recebendo um grande lote de mercadorias de um fornecedor,
teremos de certificar-nos de que o produto realmente satisfaz os requisitos
de qualidade acordados. Para isso devemos:
a) Fazer avaliações da qualidade de todo o lote mediante inspeção de alguns
itens escolhidos aleatoriamente, em quantidade que seja representativa da
população.
b) Liberar uma parte do lote para comércio. Caso exista algum problema
constatado pelos consumidores, deve-se devolver o lote inteiro ao
fornecedor.
c) Avaliar a qualidade de aproximadamente 10% dos itens do lote. Caso não
sejam encontrados itens defeituosos, liberar o lote todo ao comércio.
Análise Exploratória de Dados
As técnicas estatísticas foram concebidas para serem as melhores possíveis, desde
que se assuma um conjunto de pressupostos rígidos. Sabe-se que essas técnicas se
comportam deficientemente à medida que este conjunto de pressupostos não é
satisfeito.

As técnicas de Análise Exploratória de Dados contribuem para aumentar a eficácia


da análise estatística, de forma fácil e rápida. Geralmente, devem ser aplicadas
antes da formulação das hipóteses estatísticas para identificar padrões e
características dos dados.
• Estatística Descritiva
O objetivo da Estatística Descritiva é resumir as principais características de um
conjunto de dados por meio de tabelas, gráficos e resumos numéricos. A análise
estatística deve ser extremamente cuidadosa ao escolher a forma adequada de
resumir os dados. Apresentamos na tabela a seguir um resumo dos procedimentos
da Estatística Descritiva.
Tabelas de Frequência
Apropriada para resumir um grande conjunto de dados, agrupando informações em categorias. As
classes que compõem a tabela podem ser categorias pontuais ou por intervalos.
Gráficos
Possibilita uma visualização das principais características da amostra. Alguns exemplos de gráficos
são: diagrama de barras, diagrama em setores, histograma, box-plot, ramo-e-folhas, diagrama de
dispersão.
Medidas Descritivas
Por meio de medidas ou resumos numéricos podemos levantar importantes informações sobre o
conjunto de dados, tais
como: a tendência central, variabilidade, simetria, valores extremos, valores discrepantes, etc.
Tabelas: Uma tabela resume os dados por meio do uso de linhas e colunas, nas
quais são inseridos os números. Uma tabela compõe-se de:
Corpo – conjunto de linhas e colunas que contém informações sobre a variável em
estudo.
Cabeçalho – parte superior da tabela que especifica o conteúdo das colunas.
Coluna Indicadora – parte da tabela que especifica o conteúdo das linhas.
Linhas – retas imaginárias que facilitam a leitura, no sentido horizontal, de dados
que se inscrevem nos seus cruzamentos com as colunas.
Casas ou Células – espaço destinado a um só número.
Título – conjunto de informações (as mais completas possíveis) localizado no topo
da tabela.
Existem ainda, elementos complementares que são: a fonte, as notas e as
chamadas, os quais devem ser colocados no rodapé da tabela.
Observação:
Nas casas ou células devemos colocar:
• um traço horizontal ( __ ) quando o
valor é zero, não só quanto a natureza
das coisas, como quanto ao resultado
do inquérito;
• três pontos ( ... ) quando não temos
dados;
• ponto de interrogação ( ? ) quando
temos dúvida quanto a exatidão de
um valor;
• zero ( 0 ) quando o valor é muito
pequeno para ser expresso pela
unidade utilizada.
• Tabelas de Contingências: Muitas vezes, os elementos da amostra ou da
população são classificados de acordo com dois fatores. Os dados devem ser
apresentados em tabelas de contingência, isto é, em tabelas de dupla
entrada, cada entrada relativa a um dos fatores.
• Tabela de Distribuição de Frequência: As tabelas com grande número de dados
são cansativas e não dão ao pesquisador visão rápida e global do fenômeno.
Para isso, é preciso que os dados estejam organizados em uma tabela de
distribuição de frequências.

O primeiro passo é definir o número de faixas dos dados que recebem,


tecnicamente, o nome de classes. Em geral, convém estabelecer de 5 a 20 classes.
Uma das fórmulas usadas é a seguinte: k=1+ ,

onde n é o número total de dados. O número de classes é um inteiro próximo de k.


Como exemplo, considere os dados da tabela abaixo:
Para entender como se aplica a fórmula, considere os dados da tabela de
dados mostrada anteriormente. Como n = 100, tem-se que

k=1+
k=1+3,3*2=7,6
Deve-se construir 7 ou 8 classes com intervalos dados por 𝐴
em que AT é
𝑘
a amplitude total dos dados.

Em uma distribuição de frequência também podem ser apresentados os


pontos médios de classe (Pmi). O ponto médio é dado pela soma dos limites
de classe, dividida por 2. Desse modo, uma tabela típica de distribuição de
frequências tem três colunas, dadas por:
3+0
16+3 = 19
31+19 = 50
34+50 = 84
11+84 = 95
4+95 = 99
1+99 = 100

N = 100

Em uma tabela de distribuição de frequências, pode-se ter, ainda, outros


dois tipos de frequências: frequência relativa e frequência acumulada. A
frequência relativa é obtida dividindo-se a frequência simples pelo número
total de observações e a frequência acumulada é obtida somando-se as
frequências simples das classes anteriores.
• Gráficos: A representação gráfica dos dados tem por finalidade
representar os resultados obtidos, permitindo chegar-se a conclusões
sobre a evolução do fenômeno ou sobre como se relacionam seus
valores.

Os principais tipos de gráficos usados na representação estatística são:


• Histograma e gráfico de barras

• Gráficos de linha

• Gráfico em setores (pizza)


Descrição gráfica: Variáveis qualitativas.

Os dados da tabela a abaixo podem ser representados de diversas formas,


conforme podemos notar a partir das figuras a seguir:

extraído do Anuário da Bolsa de


Valores de São Paulo, edição 1970. As
duas colunas referentes ao número de
estabelecimentos contêm,
respectivamente, as frequências e as
frequências relativas, dadas em
porcentagem, com que os fundos
existem nos estados considerados.
Variáveis quantitativas discretas. Sejam os seguintes valores obtidos:

Usando a letra x para designar os


diferentes valores da variável, podemos
construir a distribuição de frequências dada
a seguir, a partir da qual elaboramos gráfico
de barras correspondentes.
• Box-Plot: É uma representação gráfica de valores, conhecidos como resumo de
5 números. Essa técnica nos revela uma boa parte da estrutura dos dados, por
meio da visualização de características como:
- tendência central;
- variabilidade;
- assimetria;
- outliers (valores discrepantes).

O chamado resumo de cinco números é constituído pelo: mínimo (menor valor),


primeiro quartil (Q1), a Mediana (Md), o terceiro quartil (Q3) e o máximo (maior
valor).
A parte central do gráfico é composta de uma “caixa” com o nível superior
dado por Q3 e o nível inferior por Q1. O tamanho da caixa é uma medida de
dispersão chamada amplitude interquartíllica (AIQ = Q3 - Q1).

A mediana, medida de tendência central, é representada por um traço no


interior da caixa e segmentos de reta são colocados da caixa até os valores
máximo e mínimo.
Como exemplo, consideremos o procedimento para construção de um Box-
plot para um conjunto de dados, por meio de um exemplo relacionado com o
Censo dos EUA de 1960:
Para a construção do box-plot é necessário que sejam calculadas as medidas
que compõem o resumo de 5 números:

1 Outliers são elementos ou valores que distorcem a média da distribuição pois encontram-se distantes dos
demais valores da distribuição.
2 O outlier mínimo é 74 – (1,5 *110) = -91.
O outlier máximo é 184+(1,5*110) = 349
Isso significa que os valores inferiores a (-91) ou superiores a (349) são
considerados outliers ou valores discrepantes. O Box-plot nos apresenta a
localização (mediana), a dispersão (comprimento da caixa), a assimetria (pela
distância dos quartis à mediana) e os outliers (Chicago e Nova Iorque):
Observe que a barreira inferior de outliers é –91.
Entretanto, na representação gráfica, substituiremos
esse valor pelo mínimo observado (63). As
expressões
utilizadas para as barreiras de outliers são de certo
modo arbitrárias, mas a experiência dos autores
dessa técnica indicou que esta definição serve
perfeitamente para a identificação de valores que
requerem uma atenção especial.
Atividades
A tabela de dados brutos abaixo apresenta os pesos ( kg ) relativos de uma
turma de alunos:
Utilizando os dados complete a tabela de
distribuição de frequência abaixo:
• Utilizando o EXCEL:

A função estatística
FREQUÊNCIA calcula a
frequência de ocorrência de
valores em um intervalo de
valores e retorna uma matriz
vertical de números.
=FREQÜÊNCIA(C8:J14;D21:D30)
A função estatística FRQUÊNCIA
do EXCEL considera que o limite
=FREQÜÊNCIA($C$8:$J$14;D21) superior da classe é fechado.
Portanto, para operar com o
EXCEL e manter o limite
superior da classe como aberto
este deverá ser ligeiramente
inferior ao limite teórico.
De posse da tabela de distribuição de frequência completa, determine:
a) O limite superior da 2a. classe.
b) O limite inferior da 5a. classe.
c) A amplitude do intervalo da 3a. classe.
d) A amplitude total.
e) O ponto médio da 4a. classe.
f) A frequência da 1a. classe.
g) O número de alunos com peso abaixo de 68kg.
h) O número de alunos com peso igual ou acima de 73kg.
i) O número de alunos com peso maior ou igual a 58 e menor que 78.
j) A frequência percentual da última classe.
k) A percentagem de alunos com peso inferior a 58kg.
l) A percentagem de alunos com peso superior ou igual a 78kg.
Medida de Ordenamento
Em algumas situações o interesse está em conhecer a posição de um determinado
valor em relação ao grupo de valores. Por exemplo, qual a posição de um retorno
de 15% ao ano com relação às rentabilidades anuais das aplicações do mercado
financeiro?
• Percentil: Começamos por definir um procedimento único para calcular qualquer
conjunto de n valores de uma variável ordenada de forma crescente:
- O percentil do menor valor é definido com 0% e o percentil do maior valor com
100%.
- Qualquer outro valor da variável se situará entre 0% e 100% como pode ser visto
na figura.
A relação entre as ordens dos n
valores da variável é dado pela
relação:

Nesta relação, n é a quantidade de valores da variável, x é a ordem de um


determinado valor da variável, e p é o percentil em por cento desse valor da
variável.
Considerando as variáveis registradas na tabela a seguir calcule o
percentil dos valores da variável.

Variável 15 18 19 24 27 31 32 38 39 42 43

Ordem 1 2 3 4 5 6 7 8 9 10 11

A variável na tabela foi ordenada de forma crescente. Depois de ordenar


os onze valores foram associados os números 1, 2, ..., 11.
O valor do percentil é dado por:

* 100%
Aplicando para cada ordem, construímos a tabela seguinte:

Variável 15 18 19 24 27 31 32 38 39 42 43

Percentil 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
• Quartil: Dividindo os valores ordenados da variável em quatro partes
iguais se obtém três quartis denominados primeiro, segundo e terceiro
quartil.
Variável 15 18 19 24 27 31 32 38 39 42 43
Percentil 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%

Q1 Q2 Q3

O primeiro quartil Q1 é um valor tal que 25% dos valores da variável são
menores e os restantes são maiores, ou o Q1 é o percentil 25%. O segundo
quartil Q2 é um valor tal que 50% dos valores da variável são menores e os
restantes 50% são maiores, ou Q2 é o percentil 50%. O terceiro quartil Q3 é
o percentil 75%.
Da expressão do percentil obtemos as expressões dos três quartis:
A expressão da ordem do valor da variável no primeiro quartil Q1 é

A expressão da ordem do valor da variável no segundo quartil Q2 é

A expressão da ordem do valor da variável no terceiro quartil Q3 é


Rendimento nominal mensal domiciliar per capita da
população residente, segundo Unidades da Federação – 2017
Média Rendimento per
Unidade da Federação capita (R$) = 7,5. 25% das variáveis
são maiores e os restantes 75% são
menores.
A expressão da ordem do valor da
variável no segundo quartil Q2 é
= 14. 50% das variáveis
são maiores e os restantes 50% são
menores.
A expressão da ordem do valor da
Fonte: IBGE, 28/02/2018

variável no terceiro quartil Q3 é



= 20,5. 75% das
variáveis são maiores e os restantes
25% são menores.
Medida de Posição e Tendência Central

• Medidas de Tendência Central: A medida de tendência central visa


determinar o centro da distribuição dos dados observados. As principais
medidas de tendência central são:

- Mediana

- Moda

- Média aritmética
- Mediana: A mediana (Md) é um valor localizado na posição central dos
valores ordenados da variável tal que 50% dos valores são menores do que
Md e os restantes 50% são maiores. Há dois casos a considerar:

1. A variável em estudo tem n ímpar. Neste caso a mediana será o valor da


variável que ocupa o posto de ordem

2. A variável tem n par. Neste caso, não existe na distribuição um valor que
ocupe o seu centro, isto é, a mediana é indeterminada, pois qualquer valor
compreendido entre os valores que ocupam os postos e pode
ser considerado o centro da distribuição.
Exemplo: Admita-se que o número de demissões em certa empresa nos
meses de janeiro dos últimos 6 anos, ordenando, fosse: 24, 37, 41, 65, 68 e

82. A mediana neste caso será por convenção Md = = 53 demissões, ou

seja, a média aritmética dos valores que ocupam os postos 3 e 4.

A mediana tem interpretação muito simples quando as observações são


diferentes umas das outras, pois ela é tal que o número de observações com
valores maiores a ela é igual ao número de observações com valores
menores do que ela.
Todavia, quando há valores repetidos, a sua interpretação não é tão simples.
Assim, admitindo, como resultado da aplicação de um teste a um conjunto
de alunos, as seguintes notas: 2, 2, 5, 5, 5, 5, 7, 7, 8, 8, a mediana seria a
nota 5 e, no entanto só, existem 2 notas menores e 4 maiores do que 5. Essa
desvantagem, faz com que, em análises estatísticas, a mediana seja menos
utilizada do que a média aritmética.
• Moda (Mo)
Dada uma distribuição de frequências, a moda é o valor da variável que
corresponde à frequência máxima, isto é, é o valor mais frequente.

Conquanto o seu resultado seja o mais simples possível, a moda nem sempre
existe e nem sempre é única. Quando numa distribuição existem poucos
valores da variável, muito frequentemente não há valores repetidos, com o
que nenhum deles satisfaz à condição de moda.

Exemplo: Se os pesos (em quilos) correspondentes a 8 adultos são:

82, 65, 59, 74, 60, 67, 71 e 73,

essas 8 medidas não definem uma moda.


Por outro lado, a distribuição dos pesos de 13 adultos:

63, 67, 70, 69, 81, 57, 63, 73, 68, 71, 71, 71, 83,

possui duas modas, a saber: Mo = 63 quilos e Mo = 71 quilos. Nesse caso, a


distribuição é chamada de bimodal. Será unimodal no caso de apresentar
uma só moda e multimodal se apresentar várias modas.
Se tratando de distribuições de classes de valores, a moda pertence à classe
de maior frequência. Resta, todavia, saber qual o valor da classe deve ser
escolhido para representar a moda. Relativamente simples, o cálculo da
moda, neste caso, é dado por:
𝑓
𝑀 =𝐿+𝑡
𝑓 +𝑓
onde L é o extremo inferior da classe em que está a moda, t é a amplitude
desta classe, f1 e f2 são, respectivamente, as frequências das classes
adjacentes à classe da moda.

Exemplo: Na tabela, a moda está na classe 30 |– 40, logo, L = 30, t = 10, f1 =


2 e f2 = 10. Portanto,

= 31,67 Logo M = 31
Observação: o valor da moda, em se tratando de classes, é fortemente
afetado pela maneira como as classes são construídas.
• Média Aritmética ( )
Dada uma distribuição de frequências, chama-se de média aritmética desta
distribuição, e representa-se por , a soma de todos os valores da variável,
dividida pela frequência total (número total de observações).

Por exemplo, considerando-se os


dados da tabela, tem-se:
22.1+27.1+30.1+31.1+ +65.3+67.2

X = 46,95 que é igual a 46 anos e 11 meses, ou


seja, a idade média dos hipertensos é igual a
46 anos e 11 meses.

De maneira geral,
• Medidas de Dispersão

Sejam duas localidades A e B com mesma renda média por habitante. Esse

simples fato de igualdade das duas médias não permite concluir que a

situação econômica das duas localidades é a mesma. Essa igualdade poderia

existir se todos os habitantes de A tivessem praticamente a mesma renda e B

tivesse uns poucos indivíduos com rendas extraordinariamente altas e a

maioria com rendas baixas.


Esse simples exemplo basta para mostrar que o conhecimento da
intensidade dos valores assumidos por uma grandeza, isto é, da posição de
uma distribuição, não é suficiente para a sua completa caracterização.

Nesse sentido, várias medidas foram propostas para indicar o quanto os


dados se apresentam dispersos em torno da região central. Caracterizam,
portanto, o grau de variação (variabilidade) existente no conjunto de dados.
Amplitude de Variação (R)

Uma das medidas mais elementares é a amplitude, a qual é definida como


sendo a diferença entre o maior e o menor valor do conjunto de dados:

R = Xmax – Xmin

Evidentemente que essa medida é muito precária, pois a amplitude não dá


informe algum a respeito da maneira pela qual os valores se distribuem
entre os valores extremos.
Amplitude Semiquartil ou Desvio Quartil

Esta medida, que se baseia na posição ocupada pelos 50% centrais da

distribuição, é definida por: ,

onde Q1 e Q3 são o primeiro e o terceiro quartis.

Essa medida, conquanto se baseia também em apenas dois valores,


apresenta sobre a anterior a vantagem de não estar tão sujeita às flutuações
amostrais quanto os valores extremos.
Desvio Padrão e Variância
Para medir a dispersão de uma distribuição faz-se uso da diferença entre
cada valor e a média aritmética da distribuição.
As medidas que se baseiam na diferença entre cada valor e a média
aritmética da distribuição partem do fato de que a média aritmética é o
valor que todas as observações teriam se fossem iguais entre si. O
desvio (diferença) de cada observação para a média aritmética
representa o quanto as observações variam com relação à média.
Por exemplo, as observações tivessem os valores: 1, 2, 3, 4, 5 cuja média
é = 3, calcular-se-iam as diferenças, como mostrado na tabela 3,
A propriedade da média aritmética, que diz que a soma de todos os desvios das
observações para a média aritmética é nula:
𝑥𝑖 − 𝑋 = 0

Por esta razão, a simples média aritmética dos desvios não pode ser usada
como medida de variabilidade. Calculando- se a média dos módulos dos
desvios ou apenas dos quadrados dos desvios, a medida de variabilidade
seria
= 1,2

que recebe o nome de


desvio médio (DM).
No segundo caso

e a medida de variabilidade seria

que recebe o nome de variância


(Var ou ).
Entretanto, quando calculamos a variância de um grupo de observações,
este grupo provém de um outro ainda maior, que inclui todos os possíveis
valores da variável X. Em geral, desejamos que a variância do nosso grupo
seja uma estimativa da variância de todas as observações de onde os
nossos dados particulares foram retirados. Pode ser mostrado que,
quando a variância do grupo maior é definida como feito acima, a
variância do grupo derivado deveria ser definida como
com o objetivo de obter uma boa estimativa da variância do grupo mais
amplo. Por isso usaremos n - 1 em lugar de n como divisor.
Para comparar a unidade da nossa medida de variabilidade com a dos dados
originais, extraímos a raiz quadrada,

a qual recebe o nome de desvio-padrão.


Tanto o desvio-padrão (S) quanto a variância (S2 ou Var(X)), são usados
como medidas de variabilidade. Conforme a finalidade, é conveniente o uso
de uma ou de outra.

De maneira geral, ao se ter uma distribuição de frequências, utiliza-se para o


cálculo da variância a seguinte expressão:
Como exemplo, tome a Tabela 2, lembrando-se que a média aritmética foi
igual a 47,5 anos:

= 147,44 anos

S=

= 12,44 anos
Considerações finais sobre o desvio-padrão:

• O desvio-padrão é uma quantidade essencialmente positiva.

• O desvio-padrão só é nulo se todos os valores da distribuição forem


iguais entre si, isto é, se não houver variabilidade.

• O desvio-padrão é da mesma natureza da variável X e depende


também de sua magnitude.
• Coeficiente de Variação

Para comparar duas distribuições quanto à variabilidade, deve-se usar


medidas de variabilidade relativa, tais como o coeficiente de variação de

Pearson (CV), CV = , o qual independe da natureza e magnitude da variável

X.

Esse resultado é multiplicado por 100, para que o coeficiente de variação


seja dado em porcentagem.
Exemplo: Para duas emissões de ações ordinárias da indústria
eletrônica, o preço médio diário, no fechamento dos negócios, durante
um período de um mês, para as ações A, foi de R$ 150,00 com um
desvio padrão de R$ 5,00. Para as ações B, o preço médio foi de R$
50,00 com um desvio padrão de R$ 3,00. Em termos de comparação
absoluta, a variabilidade do preço das ações A foi maior, devido ao
desvio padrão maior. Mas em relação ao nível de preço, devem ser
comparados os respectivos coeficientes de variação:
CV(A) = = ou 3,3%

CV(B) = = 0,060 ou 6%

Portanto, relativamente ao nível médio de preços das ações, podemos


concluir que o preço da ação B é quase duas vezes mais variável que o
preço da ação A.
Atividade: Utilizando a tabela, calcule as funções estatística.
Limites Frequência
Inferior Superior Pmi Absoluta Acumulada Pmi*fi xi-X (xi-X)^2 ((xi-X)^2)*fi
48 53 50,5 10 10
53 58 55,5 7 17
58 63 60,5 5 22
63 68 65,5 7 29
68 73 70,5 5 34
73 78 75,5 6 40
78 83 80,5 6 46
83 88 85,5 1 47
88 93 90,5 1 48
93 98 95,5 2 50
0

Função Estatística
Média
Moda
Mediana
Variância
Desvio
Padrão
Regressão Linear
A análise de regressão estuda a relação entre uma variável chamada
variável dependente e outras variáveis chamadas variáveis
independentes.
A relação entre elas é representada por um modelo matemático, que
associa a variável dependente com as variáveis independentes.
Este modelo é designado por modelo de regressão linear simples
(MRLS) se define uma relação linear entre a variável dependente e uma
variável independente.
Se em vez de uma, forem incorporadas várias variáveis independentes,
o modelo passa a denominar-se modelo de regressão linear múltipla.
Com a RLS podemos estudar a relação linear entre variáveis quantitativas
explicitando a dessa relação (regressão) e quantificando a força ou o grau de
relação (correlação)

Exemplos:

• Altura dos pais e altura dos filhos;

• Renda semanal e despesas de consumo;

• Variação dos salários e taxa de desemprego;

• Demanda dos produtos de uma firma e publicidade.


• Diagrama de dispersão

Os dados para a análise de regressão e correlação simples são da


forma:

(x1; y1); (x2; y2); : : : ; (xi ; yi ); : : : ; (xn; yn)

Com base nos dados constrói-se o diagrama de dispersão, que deve


exibir uma tendência linear para que se possa usar a regressão linear.
Este diagrama permite decidir empiricamente:

• se um relacionamento linear entre as variáveis X e Y deve ser


assumido

• se o grau de relacionamento linear entre as variáveis é forte ou fraco,


conforme o modo como se situam os pontos em redor de uma reta
imaginária que passa através do enxame de pontos.
Diagramas de dispersão que sugerem uma regressão linear entre as
variáveis

Existência de correlação positiva (em Existência de correlação negativa (em


média, quanto maior for a altura média, quanto maior for a colheita
maior será o peso) menor será o preço
Diagramas de dispersão que sugerem uma regressão não linear entre as
variáveis

O termo linear é usado para indicar que o modelo é linear nos


parâmetros da regressão, α e β e não porque Y é função linear dos X’s.
Por exemplo, uma expressão da forma E(Yjx) = α + βx + γx^2, é um
modelo linear em, α, β e γ, mas o modelo E(Yjx) = α exp(xβ), não é um
modelo linear em α e β.
No diagrama de dispersão mostrado na figura anteriormente, pode ser
observada uma ideia superficial do tipo de relação existente entre as
variáveis. A natureza da relação pode assumir várias formas, desde as
funções matemáticas mais simples até as mais complicadas. A mais simples
consiste em uma relação linear,
= +
Onde

coeficiente de regressão, que representa a interseção de Y


para a população;
= representa a inclinação para a população
= erro aleatório em Y para a observação i
Em geral não se conhece os valores de b0,
b1 e s2. Eles podem ser estimados através
de dados obtidos por amostras.

O método utilizado na estimação dos


parâmetros é o método dos mínimos
quadrados, o qual considera os desvios dos
Yi de seu valor esperado:

= -(
Em particular, o método dos mínimos quadrados requer que consideremos a
soma dos n desvios quadrados, denotado por Q:

−(

De acordo com o método dos mínimos quadrados, os estimadores de e


são aqueles, denotados por b0 e b1, que tornam mínimo o valor de Q.

-2 −( Regra da cadeia (derivada composta)

-2 −( ( ) ( )
Igualando as equações a zero, 0 e 0 , obtém-se os valores e
que minimizam Q:

onde e .
Propriedades da equação de regressão
Tabela: Vendas de Serviços Regressão Linear: Vendas de Serviços
Vendas Y
Empesa Cliente X X^2 Y^2 XY 14,00
($1000)
1 907 11,20 822649 125,44 10158,4
12,00 y = 0,0087x + 2,5084
2 926 11,05 857476 122,1025 10232,3
R² = 0,9203
3 506 6,84 256036 46,7856 3461,04
10,00
4 741 9,21 549081 84,8241 6824,61
5 789 9,42 622521 88,7364 7432,38 8,00

Vendas (Y)
6 889 10,08 790321 101,6064 8961,12
7 874 9,45 763876 89,3025 8259,3 6,00

8 510 6,73 260100 45,2929 3432,3


4,00
9 529 7,24 279841 52,4176 3829,96
10 420 6,12 176400 37,4544 2570,4 2,00
11 679 7,63 461041 58,2169 5180,77
12 872 9,43 760384 88,9249 8222,96 0,00
0 200 400 600 800 1000 1200
13 924 9,46 853776 89,4916 8741,04
Clientes (X)
14 607 7,64 368449 58,3696 4637,48
15 452 6,92 204304 47,8864 3127,84
16 729 8,95 531441 80,1025 6524,55
17 794 9,33 630436 87,0489 7408,02 Xmed 731,15 β1 = 0,008729338
18 844 10,23 712336 104,6529 8634,12
Ymed 8,8055 β0 = 2,423044396
19 1010 11,77 1020100 138,5329 11887,7
20 621 7,41 385641 54,9081 4601,61 Y = 2,423 + 0,00873X

Totais 14623 176,11 11306209 1602,0971 134127,9


• Coeficiente de Correlação
O Coeficiente fornece uma informação auxiliar ao resultado da análise
de variância da regressão, como uma maneira de se verificar se o
modelo proposto é adequado ou não para descrever o fenômeno.
As variâncias e covariâncias amostrais de X e Y são dadas por:

O coeficiente de correlação entre os valores de Y e X é dado por:

r=
O coeficiente de correlação assume valores 1 r 1.

• r = 1: relação linear perfeita (e positiva) entre X e Y;


• r = 0: inexistência de relação linear entre X e Y;
• r = -1: relação linear perfeita (e negativa) entre X e Y;
• r > 0: relação linear positiva entre X e Y;
• r < 0: relação linear negativa entre X e Y.
Alguns abusos no modelo de regressão

• Seleção de variável explicativa: É possível desenvolver uma relação


estatisticamente significativa entre a variável resposta (Y) e a variável
explicativa (X) que não faça sentido na prática.

• Extrapolação: A relação linear assumida para as variáveis resposta e


explicativa não pode ser estendida para fora do domínio de atuação
dos dados observados, a não ser que haja informação adicional sobre
a validade do modelo para esse domínio estendido.
• Coeficiente de Determinação
O coeficiente de determinação mede a proporção da variação, que é
explicada pela variável independente no modelo de regressão. O coeficiente
de determinação é definido como:
𝑆𝑄𝑅𝑒𝑔
𝑅 =
𝑆𝑇𝑄
= valor real de Y para a
𝑆𝑇𝑄 = 𝑌 − 𝑌 = 𝑌 − 𝑛𝑌
observação i
= valor previsto de Y para a
𝑆𝑄𝑅𝑒𝑔 = 𝑌 − 𝑌 =β 𝑌 +β 𝑋 𝑌 − 𝑛𝑌
observação i

com SQReg igual a soma dos quadrados devida à regressão e STQ a soma
total dos quadrados.
Para o exemplo das vendas de serviços dado anteriormente,

STQ = 51,3605 e SQReg = 46,9145.

Usando na expressão para o coeficiente de determinação

= 0,913

Portanto, 91,3% da variação nas vendas semanais podem ser explicados


pela variabilidade no número de clientes, de empresas.
Processo de tomada de decisão
Um profissional que assume uma função em uma empresa logo se
depara com situações onde deverá tomar algum tipo de decisão. Tomar
decisões é uma tarefa básica da gestão, nos seus vários níveis,
estratégico, gerencial ou operacional, devendo ser entendido que o ato
de decidir significa fazer uma opção entre alternativas de solução que
sejam viáveis de serem aplicadas à situação. No processo de tomada de
decisões algumas etapas devem ser observadas, configurando o que se
denomina de papel do decisor:
a) Identificar o problema: É fundamental se ter uma equipe de
analistas multidisciplinar para que o problema seja visto de prismas
diferentes e isso seja incorporado na sua solução;
b) Formular objetivo(s): Nesta etapa devem ser identificados e
formulados (muitas vezes matematicamente) quais são os objetivos
que deverão ser atingidos quando da solução do problema. Os
objetivos podem ser qualitativos (por exemplo, satisfação do
cliente), quantitativos (custo ou lucros) ou ainda conflitantes;
c) Analisar limitações: Deve-se levantar quais são as restrições que
limitarão as soluções a serem propostas, tais como atendimento de
tempo/prazo, orçamento, demandas, capacidades (transporte,
produção e armazenamento), tecnologia (equipamentos e
processos), entre outros;
• d) Avaliar alternativas: Identificar quais são suas alternativas de ação,
deverá, utilizando algum procedimento, escolher a “melhor solução”
que poderá ser aplicada. Nesse processo de avaliação de alternativas,
o decisor poderá utilizar uma abordagem qualitativa ou quantitativa:
– A abordagem qualitativa se aplica em problemas simples,
corriqueiros, repetitivos, com pouco impacto financeiro ou social, onde
é fundamental a experiência do decisor (ou de sua equipe de analistas).
– Já a abordagem quantitativa é a recomendada quando os problemas
são complexos, novos, envolvem grande volume de recursos humanos,
materiais e financeiros, têm alto impacto no ambiente onde se insere
(empresa ou sociedade).
• O processo de tomada de decisões está inserido em uma área do
conhecimento denominada Pesquisa Operacional (PO). A PO é uma
ciência aplicada que utiliza técnicas científicas conhecidas (ou as
desenvolve quando necessário), tendo como ponto de referência a
aplicação do método científico. A PO tem a ver, portanto, com a
pesquisa científica criativa em aspectos fundamentais das operações
de uma organização. podem-se resumir os principais aspectos da PO
como se segue:
– Possui um amplo espectro de utilização, no governo e suas agências,
indústrias e empresas comerciais e de serviço;
– É aplicada a problemas associados à condução e a coordenação de
operações ou atividades numa organização;
– Adota um enfoque sistêmico para os problemas;
– Busca a solução “ótima” para o problema;
– Usa uma metodologia de trabalho em equipe (engenharia,
computação, economia, estatística, administração, matemática,
ciências comportamentais).

• Fases da resolução de um problema usando a Pesquisa


Operacional

Pode-se, de uma forma simplificada, subdividir a resolução de um


problema pela PO em cinco etapas:
(a) Formulação do Problema (Identificação do Sistema)
(b) Construção do Modelo Matemático
(c) Obtenção da Solução
(d) Teste do Modelo e da Solução Obtida
(e) Implementação

Estas etapas podem ser visualizadas na Figura a seguir


Esquematização das Fases de um Estudo aplicando a PO
Nas aulas anteriores, discutimos procedimentos para estimar
parâmetros (como a média aritmética e a proporção). Esses
procedimentos, análise estatística, podem auxiliar no processo de
tomada de decisão. Nesse contexto, pode-se considerar quatro
características básicas de qualquer situação que envolva uma tomada
de decisão:
- Rumos de ação alternativos. O tomador de decisão deve dispor de
duas ou mais opções, passíveis de avaliação, antes de decidir por um
rumo de ação.
- Eventos ou estudos do mundo. Os eventos que possam ocorrer
devem ser relacionados e as suas probabilidades de ocorrências
devem ser avaliadas.
- Retorno ou remuneração. No sentido de avaliar cada rumo de ação,
deve se ter um valor ou o retorno a ela associado.
- Critérios de decisão. O tomador de decisão deve determinar de que
maneira se deve escolher o melhor rumo de ação.

• Teste de Hipótese

Nos concentraremos em uma fase da inferência estatística, que


também se baseia em informações sobre a amostra – o teste de
hipóteses. O Teste de Hipótese é uma regra de decisão para aceitar ou
rejeitar uma hipótese estatística com base nos elementos amostrais.
Uma hipótese estatística é uma suposição acerca da distribuição de
uma variável aleatória.
A inferência através dos testes de hipóteses se dá quando usamos os
resultados extraídos da amostra para testarmos valores de certos
parâmetros da população, ou mesmo testarmos a natureza da
população.
• Decisão Estatística
É o trabalho baseado em cálculos estatísticos que nos permitem
concluir se um determinado valor é válido ou não no fenômeno
estudado. Está baseado em hipóteses estatísticas, através dos testes de
hipótese. A Hipótese estatística é aquilo que queremos validar através
de testes estatísticos.
• Componentes de um Teste de Hipótese.

Hipóteses são afirmações sobre a população, não sobre a amostra.


- Hipótese nula: afirmação sobre o parâmetro, em geral, ligada a um
valor de referência, ou a uma especificação padrão ou histórica.

- Hipótese alternativa: afirmação sobre o parâmetro que suspeitamos


ser verdadeira (e que queremos testar).

Testes de hipóteses usam informações de uma amostra aleatória


proveniente da população de interesse.
A hipótese nula, denotada por H0, é uma afirmação sobre o valor do
parâmetro (p.ex. a média), e que deve sempre conter a condição de
igualdade. Por exemplo, em testes de hipótese para a média tem-se:
H0: , H0: , H0:

“Testamos a hipótese nula, no sentido em que, supondo-a verdadeira,


procuramos chegar a uma conclusão que nos leve à sua rejeição.”

A hipótese alternativa, denotada por HA (ou H1), é a afirmação que


deve ser verdadeira se a hipótese nula for falsa. Por exemplo:
HA: , HA: , HA:
Teste de hipótese bilateral ou bicaudal: São os que consideramos
ambas as extremidades da distribuição por amostragem como zonas de
rejeição.
H0: HA:

RR: significa a região de rejeição da hipótese nula (H0) e


RA: significa a região de aceitação da hipótese nula (H0)
Testes unilaterais: São os que consideramos apenas uma extremidade
da distribuição por amostragem como zona de rejeição.
Unilateral à esquerda : Unilateral à direita:
H0: 𝝁 = 𝝁𝟎 , HA: 𝝁 < 𝝁𝟎 H0: 𝝁 = 𝝁𝟎 , HA: 𝝁 > 𝝁𝟎
Nível de significância (é a área de RR):
É a máxima probabilidade de rejeitar H0 sendo verdadeira. Esta
probabilidade α (alfa) é especificada antes da extração da amostra de
modo que os resultados não influenciam na escolha. Na prática usamos
α = 1% ou 5%.
Exemplo: Um operador de uma máquina de empacotar cereais,
monitora o peso das caixas pesando um determinado número de caixas
periodicamente. A norma diz que a máquina deve continuar operando
a menos que a amostra indique que a máquina não esteja funcionando
normalmente. Neste caso, a máquina deve ser desligada e ajustada. A
condição requerida para a máquina continuar funcionando é que µ =
500 g.

Isso pode ser expresso formalmente como:

H0: HA:
Dependendo do problema, pode-se considerar testes com diferentes
hipóteses alternativas:
• Testes com hipótese bilateral

H0 : μ = 500g
HA : μ ≠ 500g
• Testes com hipótese unilateral

H0 : μ = 500g H0 : μ = 500g
HA : μ < 500g HA : μ > 500g
Seja Xm a taxa média de queima da amostra:

• Amostras com taxa média de queima Xm próxima de μ = 500g


evidenciam que H0 é verdadeira;

• Valores de Xm afastados de μ = 500g evidenciam que H0 é falsa (HA é


verdadeira);

Suponha que, se 485 ≤ Xm ≤ 515, não rejeitamos H0.


Se Xm < 485 ou Xm > 515, rejeitamos H0 em favor de HÁ.
Rejeitar H0 Falhar em rejeitar H0 Rejeitar H0
μ ≠ 500g μ = 500g μ ≠ 500g

485 500 515 Xm

Os limites 485 e 515 são chamados pontos críticos ou valores críticos


Erros:
Esse procedimento de decisão pode induzir a duas conclusões erradas
Erro tipo I: Quando a hipótese H0 é rejeitada e é verdadeira. Pode ser
limitado pela escolha de α .
Erro tipo II: É o erro cometido quando aceitamos uma hipótese nula
falsa = β
É importante ter controle sobre os erros tipo I e II.

• A probabilidade do erro tipo I é conhecida como nível de


significância ou tamanho do teste.

α = P(erro tipo I)=P(rejeitar H0 quando H0 for verdadeira)

Suponha σ = 25 g e H0 seja verdadeira:

O erro tipo I ocorrerá quando X < 485 ou X > 515


A estatística do teste é baseada na hipótese nula. Supondo que a
pesagem tenha distribuição normal, então

Z
Para n = 10

XM ~ N(500;7,9), pois = 7,9


α/2 = 0.0288 α/2 = 0.0288

485 µ = 500 515


O tamanho do teste será

α = P(rejeitar H0 quando H0 for verdadeira)

= P(X < 485|µ = 50)+ P(X > 515| µ = 500)

(
=P Z )+P(Z )
= P(Z < -1,90)+ P(Z >1,90) = 0,0287 + 0,0287 = 0,0574.

Portanto, 5,74% de todas as amostras aleatórias conduziriam à rejeição


de H0:μ = 500g
Como reduzir o nível de significância?

• Aumentar o tamanho da região de aceitação;


• Aumentar o tamanho da amostra

Para n = 16

XM ~ N(500;6,255), pois = 6,25

α = P(Z < -2,40)+ P(Z >2,4) = 0,0082 + 0,0082 = 0,0164.


Erro do tipo II

Depende de valores específicos da hipótese alternativa β,

β= P(Não rejeitar H0 quando H0 for falsa)

Suponha que seja importante rejeitar a hipótese nula H0:μ=500g toda


vez que a verdadeira taxa média de queima for superior a μ=520g ou
inferior a μ=480g.

Poderíamos, portanto, pensar em calcular a probabilidade de erro tipo


II para valores μ=480 ou μ=520
H0 : µ= 480 HA : µ= 500

480 500 515


H0 : µ= 480 HA : µ= 500

480 500 515


Por causa da simetria, só é necessário avaliar um dos dois casos. Por
exemplo, aceitar a hipótese nula H0:μ=500g quando o peso for μ=520g.

β = P(Não rejeitar H0 quando H0 for verdadeira)

= P(485  Xm  515 |µ = 520)

=P (  Z )
= P( Z ) = 0,2643 – 0,000
= 0,2643
Desse modo, no caso em que n = 10, se estivermos testando H0:μ= 500
contra HA:μ= 520, se a verdadeira pesagem for μ= 520g, a
probabilidade de não rejeitarmos a falsa hipótese nula será 0,2643.

Devido à simetria, no caso em que a verdadeira pesagem for μ= 480g,


também teremos β= 0,2643.

A probabilidade de erro tipo II aumenta rapidamente à medida que o


verdadeiro valor de μ se aproxima do valor da hipótese nula.
A probabilidade de erro tipo II é muito maior no caso em que a
verdadeira média for μ= 505 do que quando a verdadeira média é μ=
520.
= P(485  Xm  515 |µ = 505)

=P (  Z )
= P( Z ) = 0,8980 – 0,0057
= 0,8923
A probabilidade de erro tipo II também depende do tamanho da
amostra;
Os resultados discutidos até agora induzem ao quadro abaixo:
A probabilidade de erro tipo I é definida a partir dos valores críticos.

As probabilidades de erros tipo I e tipo II estão relacionadas, para


tamanhos amostrais fixos.

O aumento do tamanho da amostra reduzirá α e β, para valores críticos


fixados.

Quando a hipótese nula for falsa, β aumenta à medida que o


verdadeiro valor do parâmetro se aproxima do valor estabelecido sob
H0.
• Tabela de Retorno e Árvores de Decisão

Para que se possam considerar os vários rumos de ação alternativos


para o conjunto completo de eventos, pode se desenvolver uma tabela
de retorno ou pode-se construir uma arvore de decisão. Na primeira
aplicação, na primeira aplicação, suponha que o gerente de Marketing
de uma fábrica esteja avaliando se determinado produto deve ou não
ser introduzido no mercado. Ele está consciente que a decisão de
comercializar ou não o produto implica riscos. É possível que o produto
seja comercializado e não tenha sucesso. Por outro lado, poderia ser
tomada uma decisão no sentido de não comercializar um produto que
poderia ter sucesso.
- Tabela de retorno: Uma tabela de retorno contém todos os possíveis
eventos que podem ocorrer em cada rumo de ação alternativo. Para
cada combinação de um evento com um rumo de ação, deve estar
disponível um retorno.
Tabela de retorno para o problema da comercialização
de um produto.
Rumos de Ação Alternativos
Evento Ei Comercializar Não Comercializar
A1 A2
Produto bem sucedido E1 x11 x12
Produto mal sucedido E2 x21 x22

Xij é o retorno que ocorre quando o rumo de ação j é selecionado e o


evento i ocorre.
- Árvore de decisão: A árvore de decisão é um modo alternativo de
representar os eventos para cada curso alternativo. A árvore de decisão
representa graficamente os eventos e os rumos de ação, através de um
conjunto de ramificações e junções.
O primeiro conjunto de
ramificações se refere aos dois
rumos de ação alternativos,
comercializar ou não comercializar.
O segundo conjunto de
ramificações representa os eventos
possíveis bem sucedido e mal
sucedido. Esses eventos ocorrem
para cada um dos rumos de ação
alternativos na arvore de decisão.
Na árvore de decisão, os valores de “p” referem-se às probabilidades de
ocorrência de um evento. A árvore de decisão incorpora conceitos de
incerteza na análise de uma alternativa de decisão, o que a torna uma
técnica superior às técnicas tradicionais.

Exemplo: No problema relativo à comercialização do produto, o gerente


precisa determinar para cada combinação de um rumo de ação alternativo e
um evento, os verdadeiros retornos envolvidos. Suponha que haja um custo
fixo de $3.000, em que se incorre antes de se tomar uma decisão final
quanto a comercializar o produto. Com base na experiência passada, se o
produto tiver sucesso, será obtido um lucro de $45.000 ($48.000 - $3.000 de
custos fixos). Se o produto não for considerado um sucesso, haverá um
prejuízo de $36.000 ($33.000 na comercialização e $3.000 de custos fixos).
Esses retornos podem ser inseridos na tabela de retorno.
Rumos de Ação Alternativos
Evento Ei Comercializar Não Comercializar
A1 A2
Produto bem sucedido E1 +$45.000 -$3.000
Produto mal sucedido E2 -$36.000 -$3.000

Se soubermos que o produto terá sucesso, é claro que iremos


comercializá-lo. Ao contrário, se soubermos que ele não terá sucesso,
não o comercializaremos. Para cada evento, determinaremos o
montante do lucro que que será perdido se o melhor rumo de ação não
tiver sido tomado. A perda de oportunidade pode ser definido do
seguinte modo:
Perda de oportunidade é a diferença entre o lucro mais elevado
possível para um evento e o lucro real obtido para uma ação
empreendida.
No problema da comercialização do produto, para o evento “produto
bem sucedido” o lucro máximo é alcançado quando se comercializa o
produto (+$45.000). A oportunidade que se perderia em não
comercializar seria a diferença entre $45.000 e -$3.000, ou seja,
$48.000. Se o produto não tiver sucesso, a melhor ação seria não
comercializar o brinquedo (-$3.000 de lucro). A oportunidade que se
perderia em tomar a decisão incorreta de comercializar seria igual a -
$3.0000 – (-$36.000) = $33.000. Note. Nesse caso, a perda de
oportunidade será sempre um número não-negativo. Representemos a
tabela de perda de oportunidade.
Rumos de Ação Alternativos
Evento Ei Ação Ótima Lucro da Ação Comercializar Não Comercializar
Ótima A1 A2
Produto bem Comercializar $45.000 $45.000-$45.000 $45.000-(-$3.000)
sucedido = $0 =$48.000
Produto mal Não -$3.000 -$3.000-(-$36.000) -$3.000 – (-$3.000)
sucedido Comercializar =$33.000 = $0
• Critérios para a Tomada de Decisão

Agora que o lucro e a perda de oportunidade para cada evento, sob


cada rumo de ação alternativo foram fornecidos nas tabelas de retorno
e de oportunidades, precisamos determinar os critérios que podem ser
adotados para se selecionar o rumo de ação mais desejado. No sentido
de determinar que alternativa escolher, devem se obter informações
que permitam ao tomador de decisão atribuir uma probabilidade para
cada evento. Essas informações podem ser obtidas a partir de dados do
passado, de opiniões do tomador de decisões, ou a partir do
conhecimento sobre a distribuição de probabilidades à qual o evento
possa estar sujeito.
Valor Monetário Esperado (VME). Partindo dessas informações,
juntamente com os retornos e perdas de oportunidades de cada
combinação entre evento e rumo de ação alternativo, pode-se escolher
o melhor rumo de ação de acordo com determinado critério. O Valor
monetário esperado (VME) para um rumo de ação j é dado por:

VMEj ,

onde
= o retorno que ocorre quando o rumo de ação j é selecionado e o
evento i ocorre
Pi = probabilidade de ocorrência do evento i
No problema da comercialização do produto, a fim de encontrar o valor
monetário esperado para cada ação, precisamos determinar a
probabilidade de que o produto tenha sucesso. Utilizando a avaliação
subjetiva do gerente, suponha que seja atribuída ao evento uma
probabilidade de 0,40 de que o produto tenha sucesso (de modo que
uma probabilidade de 0,60 seja atribuída ao evento complementar de
que o brinquedo não tenha sucesso).
Rumos de Ação Alternativos

Pi Evento Ei Comercializar XijPi Não Comercializar XijPi


A1 A2
0,40 Produto bem +$45,000 $45.000 (0,4) -$3.000 -$3.000 (0,4)
sucedido = $18.000 = -$1.200

0,60 Produto mal -$36,000 -$36.000 (0,6) -$3.000 -$3.000 (0,6)


sucedido = -$21.600 = -$1.800

-------------------- -------------------
VME (A1) = -$3.600 VME (A2) = -$3.000

O valor monetário esperado para comercializar o produto é igual a -


$3.600, enquanto o valor monetário esperado para não comercializar
é igual a -$3.000. Portanto, se o objetivo for maximizar o valor
monetário esperado, escolhemos a ação não comercializar.
Perda de Oportunidade Esperada (POE). Uma outra maneira de se
avaliarem os rumos de ação alternativos envolve a utilização da tabela
de perda de oportunidade. A perda de oportunidade (POE) da ação j é
dada por:
POEj

onde
= a perda de oportunidade que ocorre quando o rumo de ação j é
selecionado e o evento i ocorre
Pi = probabilidade de ocorrência do evento i
Os cálculos das perdas de oportunidade esperadas para o problema da
comercialização do produto encontram-se resumidos na tabela abaixo,

Rumos de Ação Alternativos

Pi Evento Ei Comercializar lijPi Não Comercializar lijPi


A1 A2
0,40 Produto bem +$0 $0 (0,4) $48.000 $48.000 (0,4)
sucedido =$ = $19.200

0,60 Produto mal $33.000 $33.000 (0,6) $0 $0 (0,6)


sucedido = $19.800 = $0

-------------------- -------------------
POE (A1) = $19.800 POE (A2) = $19.200
A perda de oportunidade esperada é mais baixa para não
comercialização do produto ($19.200) do que para comercializar
($19.800). Essa perda de oportunidade esperada a partir da melhor
decisão tem um significado especial no contexto da tomada de decisão.
Ela é igual ao Valor Esperado da Informação Perfeita (VEIP). Esse valor é
igual a
VEIP = lucro esperado em condições de certeza – valor monetário esperado da melhor alternativa.

O lucro esperado em condições de certeza representa o lucro que será


realizado se tivermos a informação perfeita sobre qual evento irá
ocorrer. Se o gerente pudesse sempre prever o futuro, seria realizado
um lucro de $45.0000 para os 40% dos produtos bem sucedidos,
enquanto se teria um prejuízo de $3.000 para os 60% mal sucedidos.
Assim sendo, para o problema de comercialização do produto, temos:

Lucro esperado em condições de certeza = 0,40($45.000)+0,60(-$3.000)


= $18.000 - $1.800 = $16.200

Esse valor, $16.200, representa o lucro que seria realizado se o gerente


soubesse, com certeza, que o produto teria sucesso. Pode-se agora obter o
valor esperado da informação perfeita:

VEIP = $16.200 – (-$3.000) = $19.200

que é a perda de oportunidade esperada para a não comercialização. Esse


valor do VEIP representa a quantia máxima que o gerente estaria disposto a
pagar para obter a informação perfeita.
Exemplo: Carteiras de Investimento de $1.000 (a)

Suponha que um gerente de um fundo de ações esteja tentando decidir


entre vários lotes de ações a serem comprados, para investimentos de
curto prazo, de até um ano. Ao se juntar uma carteira ou um lote de
ações, existem dois objetivos: maximizar o retorno para os investidores
e, ao mesmo tempo, minimizar seus riscos. Carteiras diferentes terão
retornos diferentes, sob condições econômicas diferentes. Algumas
carteiras terão melhor desempenho em uma recessão; outras podem
operar melhor em condições de crescimento moderado ou em tempos
de superaquecimento da economia.
Suponha que o gerente tenha avaliado duas carteiras, sob quatro
condições econômicas: recessão, estabilidade, crescimento
moderado e superaquecimento. O retorno previsto para um ano, de
um investimento de $1.000 em cada carteira, sob a condição da
economia, é apresentado na tabela abaixo:
O gerente do fundo de ações atribui as seguintes probabilidades para as
diferentes condições econômicas:
P(recessão) = 0,10
P(economia estável) = 0,40
P(crescimento moderado) = 0,30
P(superaquecimento) = 0,20
Retorno previsto para um ano, de um investimento de $1.000
Tabela de Perda de Oportunidade

Valor Monetário Esperado


Perda Monetária Esperada

Se desejarmos levar em conta a variabilidade dos eventos (neste caso, as


condições econômicas), calcularemos a variância e o desvio padrão para
cada carteira, ou rumo de ação alternativo.
Cálculo da Variabilidade

Há mais variações nos rendimentos da carteira B do que na carteira A


Relação entre Retorno e Risco

Carteira A:
Relação entre retorno e risco =

Carteira B:
Relação entre retorno e risco =

•A carteira A tem um valor monetário esperado menor que a carteira


B, mas, em contrapartida, oferece um risco bem menor do que a
carteira B
•A relação entre retorno e risco mostra que A é preferível a B.

Das könnte Ihnen auch gefallen