Sie sind auf Seite 1von 75

INTRODUÇÃO À

BIOESTATÍSTICA
ESTATÍSTICA DESCRITIVA

É usada quando se pretende descrever


dados.
O QUE É estatística?

“(...) é um conjunto de técnicas e métodos de pesquisa


e análise de dados que entre outros tópicos envolve o
planejamento do experimento a ser realizado, a coleta
qualificada dos dados, a inferência, o processamento,
a análise e a disseminação das informações.”

Objetivo: “fornecer métodos e técnicas para


lidarmos, racionalmente, com situações sujeitas a
incertezas”.
Escola Nacional de Ciências Estatísticas (2014)
Introdução à Bioestatística

É a ciência que tem por objetivo:


 Planejar;
 Coletar;
 Tabular; Informações
 Analisar;
 Interpretar.

Extrair conclusões

Tomada de decisões acertadas


mediante incertezas.
BIOESTATÍSTICA
Aplicação para Ciências da
Saúde e Ciências Biológicas

Exemplos:
-coleta, organização, sintetização e apresentação de dados.

-medição da variação nos dados e levantamento de dados.

-estimativa dos parâmetros da população e a determinação da


precisão das estimativas.

-aplicação dos testes de hipótese em relação aos parâmetros.

- análise da relação entre duas ou mais variáveis.


DADOS
Estatística

INFORMAÇÃO

EX:
é representativo
ou não?
Conceitos básicos

População: conjunto de informações que apresentam


entre si uma característica comum de estudo. N
Amostra: é o subconjunto de dados recolhidos de
uma população. n
Variável: dado
referente a uma Hipertensão

característica de
interesse, coletado a
partir da amostra.
Introdução à Bioestatística
Amostras: por que utilizar?

Economia de tempo e dinheiro

Confiabilidade de
replicabilidade de
resultados

Reduzir perdas e
danos à população

Rapidez
Amostras: por que não utilizar?

Característica de
População pequena
fácil mensuração

Necessidade de
alta precisão
Seleção da amostra

Deve ser representativa da população

Quantidade Qualidade

Dimensionamento Aleatorização

1 – ser suficientemente grande;


2 – deve ser selecionada ao acaso.
Introdução à Bioestatística

• Dados amostrais podem ser usados para


formar conclusões sobre populações.

• Dados amostrais devem ser coletados


usando o método apropriado, caso contrário,
não terão valor.

Amostragem
Técnicas de amostragem

AMOSTRAS NÃO-ALEATÓRIAS AMOSTRAS ALEATÓRIAS

Amostragem... -Aleatória simples


-Aleatória estratificada
... por conveniência -Aleatória sistemática
... por julgamento
... por resposta voluntária

Menos confiáveis “Probabilísticas”


AMOSTRAS NÃO-ALEATÓRIAS
AMOSTRAGEM POR CONVENIÊNCIA: o pesquisador aborda
pessoas (amostra) onde e como for mais conveniente
para si.

AMOSTRAGEM POR JULGAMENTO: o


pesquisador aborda pessoas que
acredita descreverem o
fenômeno de seu interesse.

AMOSTRAGEM POR RESPOSTA VOLUNTÁRIA: as pessoas se


oferecem para serem pesquisadas.
AMOSTRAS ALEATÓRIAS

AMOSTRAGEM ALEATÓRIA SIMPLES: - sorteio por nome/número


- cara ou coroa
N= 10 - sorteio informatizado
n=2
AMOSTRAGEM ALEATÓRIA SISTEMÁTICA: seleção por intervalos

N= 10 N/n 10/2=5
n=2

2 grupos de 5 = sorteio do 1º = sequência + 5

Não importa quem estará na amostra (se homens ou


mulheres), nem a proporção de cada sexo.
AMOSTRAGEM ALEATÓRIA ESTRATIFICADA: quando a
população é heterogênea e a amostra também
precisa ser, na mesma proporção de diferentes.
N= 12
n=4
N/n 12/4=3

Ex há mais homens que mulheres: separar grupos


específicos de homens, outros de mulheres e
selecionar 1 de cada grupo
Classificação das variáveis

VARIÁVEIS

QUALITATIVAS QUANTITATIVAS

Nominais Ordinais Contínuas Discretas


Variáveis quantitativas

CONTÍNUAS DISCRETA
Há uma sequência de Não há sequência de
valores sem intervalos valores contínuos

Ex: Ex:
Altura, peso, profundidade de
bolsa periodontal =1;2
; 3 ; 4 dentes
= 1,50m ; 1,51m ; 1,52m...2,05m
Variáveis qualitativas

NOMINAIS ORDINAIS
Não há relação de ordem Há relação de ordem ou
ou sequência hierarquia

Definida por frequência Geralmente indica níveis


ou scores
Ex: Ex:
Masculino x Feminino Níveis de dor, índice de
Sim x Não reabsorção óssea
Sadio x Doente 0=ausente, 1=suave,
2 =moderado, 3 = grave
Introdução à Bioestatística
Variáveis nominais

São todos aqueles distribuídos em categorias


nominais, sem qualquer ordem.

Alguns exemplos são:


Gênero, raça, via de parto, etc.

Podem ser codificados através de números, por exemplo,


feminino = 1 e masculino = 2.

Esses dados não mensurados, portanto sem


qualquer cálculo como média e desvio padrão. Porém, são
dados que podem ser contados.
Variáveis ordinais

São dados que se atribuem por categorias que têm


uma ordem. Não há valores intermediários entre as
categorias e uma mesma diferença numérica não tem
sempre o mesmo significado.

Assim como os dados nominais, não se aplicam cálculos


de média, de soma, desvio padrão, etc., por não fazer
sentido. Porém, são usados freqüentemente a mediana e
porcentagens.
DESCRIÇÃO E APRESENTAÇÃO DE
DADOS NOMINAIS E ORDINAIS

Para esses dados geralmente basta apresentar o


seu número (valores absolutos) e distribuição
(porcentagem por categoria), como nos exemplos a seguir:
Variáveis contínuos (ratio data)

São aqueles em que os números são


intrinsecamente significantes e as diferenças entre eles
sempre tem a mesma aplicação, podendo sempre existir
valores intermediários.
Alguns exemplos são:
Peso, perímetros, estatura, etc.
CURVA DE GAUSS

Média

2/3

95%

Características: a média é o valor mais encontrado,


média = moda, há simetria entre os lados, assintótica
(não toca o eixo x).
APRESENTAÇÃO DE DADOS EM
TABELAS

Segundo VIEIRA (1980), os dados devem ser


apresentados em tabelas conforme as normas da
Fundação Instituto Brasileiro de Geografia e Estatística
(IBGE).
Componentes das tabelas

As tabelas devem possuir: título, corpo, cabeçalho e


coluna indicadora.
- O título explica o que a tabela contém.
- O corpo é formado pelas linhas e colunas de dados.
- O cabeçalho especifica o conteúdo das colunas e
- a coluna indicadora especifica o conteúdo das linhas.
Segue exemplo a seguir:
Tabelas de contingência

Muitas vezes os elementos da amostra ou da


população são classificados de acordo com dois fatores.
Os dados devem então ser apresentados em tabelas de
contingência, isto é, em tabelas de dupla entrada, cada
entrada relativa a um dos fatores.

O exemplo a seguir representa uma tabela de


contingência, com dois fatores (ano de registro e gênero).
Tabela de distribuição de freqüências

As tabelas com grande número de dados são


cansativas e não dão ao leitor visão rápida e global do
fenômeno. Para isso, é preciso que os dados estejam
organizados em uma tabela de distribuição de freqüências.
Tabela de distribuição de freqüências

O exemplo a seguir, utilizando o peso de ao nascer


de nascidos vivos, mostra como fazer isso passo a passo.
Primeiro é preciso definir as faixas de peso (kg) que
recebem o nome técnico de classes:
Tabela de distribuição de freqüências
Tabela de distribuição de freqüências

Nesse exemplo, cada intervalo de classe é de 0,5


kg.
Além disso, define-se o ponto médio de classe, que
é encontrado pela soma dos dois extremos da classe,
dividida por 2.
Exemplo: (1,5 + 2,0) / 2 = 1,75
Tabela de distribuição de freqüências
Medidas de tendência
central
MEDIDAS DE TENDÊNCIA CENTRAL

Segundo VIEIRA (1980), “os dados quantitativos,


apresentados em tabelas e gráficos, constituem a
informação básica do problema em estudo.’’ e ainda,
segundo FILHO (1999), “a medida de tendência central dá
uma idéia de onde se localiza o centro, o ponto médio de
determinado conjunto de dados.’’
São medidas de tendência central:

- Média;
- Mediana;
- Moda
MÉDIA aritmética

É o resultado da soma dos valores de todas as


observações, dividida pelo número de observações.

Média = soma de todos os dados


tamanho da amostra

X = ∑x
N
OBS: é afetada por valores extremos e, em distribuições
assimétricas, podem apresentar uma informação distorcida.
Exemplo: um professor de educação física mediu a
circunferência abdominal de 10 homens de uma
academia. Obteve os valores: 88; 83, 79; 76; 78; 70;
80; 82; 86; 105 (centímetros)

X = 88 + 83 + 79 + 76 + 78 + 70 + 80 + 82 + 86 + 105 = 827 = 82,7


10 10

Ou seja, a circunferência
abdominal dos homens mediu,
em média, 82,7 cm.
mediana

É uma medida de posicionamento: Ordena os


valores e divide em duas partes, uma com números
iguais ou menores e outra com números iguais ou
maiores. Ou seja, é o valor que ocupa a posição
central na série.
Não é afetada por
valores extremos. Logo,
é preferida em séries
com distribuição
assimétrica (anormal).
Para número ímpar de dados: a mediana é o
valor que fica no centro dos dados ordenados

3; 5; 9

Para número par de dados: a mediana é a média aritmética


dos dois valores que ficam na posição central dos dados ordenados

3; 5; 7; 9 5+7=6
2
moda

É o valor que ocorre em maior número de vezes.


Determina o evento que mais aparece.

0 ; 0; 2 ; 5 ; 3; 7 ; 4 ; 7; 8; 7; 9; 6

Moda = 7

OBS: um conjunto de dados 1 ; 2; 3; 4; 5; 6


pode não ter moda ou ter
mais de uma moda. 1; 2; 2; 3; 4; 4; 5; 6
A moda também pode ser aplicada a dados
qualitativos:
Exemplo
Tabela 1: Distribuição de indivíduos segundo raça. Belém, 2014.

COR PELE FREQUÊNCIA


Pardos 550
Brancos 456
Negros 132

O grupo “Pardos” ocorreu com mais frequência. Logo, é a


moda nessa amostra.
MEDIDAS DE DISPERSÃO

Os valores de média e mediana dão a abscissa o


ponto em torno do qual os dados se distribuem. Essas
medidas são tanto mais aprimoradas para descrever a
amostra quanto menor é a dispersão dos dados.
Para entender dispersão, vamos seguir o seguinte
exemplo:
MEDIDAS DE DISPERSÃO
MEDIDAS DE DISPERSÃO

Todos os alunos obtiveram média igual a 5, mas a


dispersão das notas da média não é a mesma para todos
os alunos.

Para verificar a dispersão dos dados, utilizam-se as


seguintes medidas de dispersão:
- Amplitude
- Variância
- Desvio padrão
Amplitude

É a diferença entre o maior e menor dado


observado.
Ela não informa como os dados se distribuem entre esses
valores e, à medida que a amostra cresce, ela cresce
também, devido a maior chance de aparecer um valor
extremo.
Amplitude

Seguindo o mesmo exemplo da tabela 4 (notas dos


alunos), podemos ter a amplitude de cada aluno da
seguinte forma:
Amplitude

A amplitude nem sempre capta certas diferenças.


No caso das notas dos alunos, é certo afirmar que as
notas de Antônio não variaram (a = 0) e que as notas de
João (a = 2) variaram menos do que as de José (a = 10) e
do que de Pedro (a = 10). Porém, a amplitude não mostra
que as notas de Pedro variaram mais do que as de José.
Variância

Os dados distribuem-se em torno da média, para


mais e para menos. Quanto mais próximo da média
estiverem, mais homogêneo será o conjunto.
Logo é importante medir o quanto os valores
obtidos se afastam da média, o que pode ser feito pela
variância e desvio padrão.

Símbolo da Variância de população = σ2


Símbolo da Variância na amostra = s
Variância
Então o grau de dispersão de um conjunto de dados pode ser
medido pelos desvios em relação à média, que é a diferença
entre cada dado em relação à média do conjunto.
Vamos usar de exemplo, as notas de José.

10-5 = 5
5-5= 0
5-5 = 0
5-5= 0
0-5 = -5
Note que a soma dos desvios/discrepância sempre
resultará em zero. Portanto, para medir a dispersão em
torno da média, eleva-se cada desvio ao quadrado,
somando-se a seguir os quadrados obtidos (usa-se a soma
dos quadrados dos desvios) e em seguida divide a soma
pelo tamanho da população.
Para explicar, vamos usar o mesmo exemplo das
notas de José.
Nota - média
(Nota – média)2

Σ = (Nota – média)2
A soma dos quadrados dos desvios não è usada
como medida de dispersão, pois seu valor cresce com o
número de dados. Portanto, para medir a dispersão dos
dados em torno da média usa-se a variância, através da
seguinte fórmula:
𝒙 – 𝒎é𝒅𝒊𝒂 𝟐
σ2 = 𝚺 𝑵
Caso a variância seja de uma amostra de certa
população, torna-se necessário fazer um ajuste
matemático, isto porque a dispersão dos dados na amostra
é menor que a dispersão dos mesmos na população onde
o aparecimento de valores extremos é mais fácil de
ocorrer. Para isso, basta subtrair 1 do denominador (N-1)
𝟐
𝒙 – 𝒎é𝒅𝒊𝒂
s2 = 𝚺

𝑵 𝟏
Representando mais claramente a discussão sobre
as notas dos alunos, vejam a tabela a seguir:
Desvio Padrão

Como medida de dispersão, a variância tem a


desvantagem de apresentar unidade de medida igual ao
quadrado da unidade de medida dos dados. Mas o desvio
padrão apresenta uma unidade de medida (s) que resolve
esse problema e é representado pela raiz quadra da
variância. Assim:
𝒙 – 𝒎é𝒅𝒊𝒂 𝟐
Desvio Padrão da população = σ = 𝚺 𝑵

𝟐
𝒙 – 𝒎é𝒅𝒊𝒂
Desvio Padrão da amostra = s = 𝚺 𝑵

𝟏
Coeficiente de Variação

É a razão entre o desvio padrão e a média, com o


resultado multiplicado por 100. O Coeficiente de Variação
expressa o desvio-padrão como porcentagem do valor da
média e independe da unidade de medida utilizada.
Quanto menor ele for, mais homogênea será a amostra.

𝐷𝑒𝑠𝑣𝑖𝑜 −𝑝𝑎𝑑𝑟ã𝑜
CV = x 100
𝑀é𝑑𝑖𝑎

Permite comparar dispersões de dados entre estudos onde foram usadas


unidades de medidas diferentes (Ex: polegada e centímetro)
ATIVIDADE DE FIXAÇÃO EM SALA
Erro padrão da média (EPM)

Dificilmente a média calculada da amostra será


igual à média real da população. Nesse sentido, a média
de uma amostra grande possui menos discrepância com
relação à média da população, quando comparada com
uma amostra pequena.
Erro padrão da média (EPM)

Para encontrar o valor do EPM basta dividir o


desvio-padrão pela raiz quadrada do tamanho da amostra.
A importância de saber o EPM é de o quão bem se
conhece a média calculada.
σ
σ(média) =
𝑛
Intervalo de confiança para médias

Consiste em um cálculo para saber se a média da


amostra é o quão representativa da média real da
população, com isso, intervalo de confiança muito alto
sugere que a média da amostra pouco representa a média
da população.
Para um Intervalo de confiança de 95% (intervalo dos
desvios não-significativos), temos:

IC= média + ou – Z. Erro padrão da média


σ
IC = média + ou – 1,96.( )
𝑛
Nível de significância (α) Valor de Z

0,05 ou 95% 1,96

0,01 ou 99,9% 2,58

0,001 ou 99,99% 3,29


CORRELAÇÃO

Algumas situações podem levar ao interesse de


estudar o comportamento de duas variáveis
quantitativas, sendo possível criar um diagrama de
dispersão.
Como exemplo, vamos imaginar uma situação
onde se levantou duas variáveis, sendo o IMC e a
glicemia em jejum de pessoas sedentárias, e você
queira verificar se existe correlação entre essas
variáveis, ou seja, se quanto maior o IMC seria
também maior o valor de glicemia em sedentários.
Para saber o grau de correlação entre duas
variáveis (coeficiente de correlação - r):
Imagine a seguinte situação, onde temos os valores
de x e de y (variáveis), então teríamos os seguintes dados
para compor a fórmula:
A correlação varia entre -1 e +1, sendo que se o
valor fica acima de zero, a correlação é positiva, se o valor
fica abaixo de zero, a correlação é negativa e se fica
exatamente em zero, a correlação não existe.
Score Z (estatística Z)

Baseia-se em uma curva normal e mede o quanto


um valor afasta-se da média em unidades de desvio-
padrão, com a seguinte fórmula:

Z = (valor – média)/DP
REFERÊNCIAS

FILHO, U. D. Introdução à bioestatística: para


simples mortais. São Paulo: Elsevier, 1999.

VIEIRA, S. Bioestatística: tópicos avançados. 2.


ed. Rio de Janeiro: Elsevier, 2004.

VIEIRA, S. Introdução à bioestatística. 3. ed. Rio


de Janeiro: Campus, 1980.

Das könnte Ihnen auch gefallen