Sie sind auf Seite 1von 9

PROBABILIDADE E ESTATSTICA

ROTEIRO DE ATIVIDADES AULA 16/03/2015

Caro estudante,
Leia atentamente o texto contendo as informaes sobre os comandos e as sadas do R, refaa
os comandos disponveis no texto e em seguida, faa o exerccio.
Copie e cole a sada do programa em um arquivo, salve o arquivo no formato .pdf e envie sua
atividade via Moodle em um arquivo nico.

Vamos l!
Como sugesto, apresento a voc o R Studio. Ele funciona da mesma maneira que o pacote
base, mas tem algumas vantagens!! Visualmente mais bonito, conseguimos abrir uma janela
de comandos facilmente (R Script), guardamos o histrico dos grficos, dos objetos criados e
temos a janela de help disponvel juntamente com o programa base.
R Studio
O R Studio uma interface mais amigvel do programa R comparado com a que utilizamos na
aula passada.
Para instalar o R Studio acesse a pgina: http://www.rstudio.com/products/rstudio/download/
O R Studio est disponvel para todos os sistemas operacionais, basta escolher o sistema de
seu computador e comear a utiliz-lo. Nos laboratrios de informtica da Unifesp, o
programa R Studio j est instalado, procure no menu!!
Assim que abrir o RStudio. Voc ver a seguinte tela:

O RStudio funciona igualmente ao programa base do R, mas tem algumas vantagens


adicionais. A aparncia do programa a mesma em todos os sistemas operacionais. possvel
abrir um arquivo de textos, ou um Script do R, na prpria interface onde voc poder digitar
seus comandos (ou cdigos), guarda-los e modific-los facilmente se necessrio.
Para abrir um Script do R v em File -> New File -> R Script.

Assim que abrir o R Script voc ver uma nova janela com a seguinte configurao:

R Script

Aqui voc digita seus


comandos!
Para execut-los
basta selecionar a
linha e clicar em
CTRL Enter.

Os objetos criados
podem ser vistos na
janela acima.
Na janela abaixo
possvel ver os
grficos construdos,
pacotes instalados,
help, etc

Pacote base do R
Ao digitar Ctrl Enter os comandos
so lidos no pacote base do R
Temos na figura acima o Script do R na janela superior esquerda, na janela inferior esquerda
tem o programa base do R. No lado direito superior aparecem os objetos que voc criou e
uma visualizao resumida do seu contedo e no labo direito inferior tem informaes de
help, grficos, pacotes instalados, etc.

Pronto, voc est apto a usar o RStudio.


ATENO
Se no entendeu algum passo, se teve algum problema na instalao do RStudio, ou se preferir
o programa base, fique a vontade. O importante realizar o exerccio e aprender o significado
dos comandos que sero descritos a seguir.
Iniciando a aula:
Inicialmente, leia o arquivo de dados com extenso .csv disponvel no Moodle no cone
Material R. O nome do arquivo dados.csv.
Lembre-se: Salve o arquivo no computador e guarde o endereo!
Para ler o arquivo .csv no R utilizamos o comando read.csv se a casa decimal estiver separada
com ponto:
dad<-read.csv("endereo do arquivo/dados.csv",header=T, sep=",")
Para ler o arquivo .csv com casa decimal separada por vrgula usamos read.csv2:
dad<-read.csv2("endereo do arquivo/dados.csv",header=T, sep=";")
Se tiver algum problema na leitura do arquivo, consulte o help do R. Para isso basta digitar
?read.csv
Depois de ler o arquivo, vamos construir uma tabela de frequncias para a varivel salrio.
Lembrando que a varivel salrio quantitativa contnua e portanto, precisamos separar a
varivel em faixas (intervalos) antes de resumir a informao na tabela de frequncias:
Para verificar qual a amplitude da varivel podemos usar o comando:
range(dad$salario)
O comando range nos fornece o valor mximo e mnimo presentes na varivel.
Para construir as faixas (ou intervalos) utilizamos a funo cut. Na funo cut precisamos dizer
o nome da varivel no primeiro argumento, e no segundo argumento onde ela comea, onde
termina, e quantos intervalos desejamos: seq(3.9, 23.30, l=7). No comando anterior estamos
dizendo que queremos uma sequncia que comea no 3,9 (valor um pouco menor do que o
que temos nos dados que 4) e termina no 23,30 e ser separada em l=7 (-1) intervalos. O
comando cria o nmero de faixas que definimos em l 1, ou seja, nossa tabela ter 7-1=6
intervalos. Logo, para obtermos a frequncia observada devemos usar o comando:
fo<- table(cut(dad$salario, seq(4, 23.30, l = 7)))
As frequncias relativas e acumulada, bem como a porcentagem, so obtidas da mesma forma
que fizemos para a varivel qualitativa:
fr<- prop.table(fo)
fac<-cumsum(fr)
por<-100*fr
Tabela<-cbind(fo,fr,fac,por)

Tabela

Podemos tambm fazer tabelas de contingncia ou dupla entrada no R, basta usar o comando
table e definir as duas variveis:
table(dad$est_civil, dad$filho)

Alm de contas e clculos podemos fazer grficos no R. Para ter uma ideia do que possvel
fazer nesse programa execute a funo de demonstrao de grficos no R. Clique em enter at
terminar todos os grficos.
demo(graphics)
Agora veremos como fazer os grficos que aprendemos em nossa aula. O primeiro ser o
grfico de barras que pode ser utilizado para variveis qualitativa e quantitativa discreta. O
comando utilizado o barplot, o argumento principal a frequncia observada da varivel que
ser visualizada:
barplot(table(dad$filho))

Podemos tambm colocar ttulo no grfico: main=, mudar a cor: col=, mudar escala dos eixos,
nomes. Para isso, acesse o help da funo ?barplot e obtenha todas as informaes que
precisar. Como exemplo, teste a funo:
barplot(table(dad$filho), main="Nmero de filhos", col="red")

O prximo grfico a ser visto o composio em setores ou pizza que tambm pode ser
utilizado para variveis qualitativa e quantitativa discreta. O comando o pie. Tambm
precisamos fazer o grfico da frequncia observada, portanto, vamos usar o comando table no
primeiro argumento. Outras informaes como mudar cores, legenda, inserir ttulo podem ser
vistas no help da funo: ?pie.
pie(table(dad$instrucao), main="Pizza")

Para variveis contnuas utilizaremos ou o grfico de ramo e folhas ou o histograma. O grfico


ramo e folhas obtido atravs da funo stem. Para informaes adicionais consulte o help da
funo.
stem(dad$salario)

stem(dad$salario,2)

O histograma obtido atravs da funo hist. Aqui possvel definir o nmero de classes
usando o argumento nclass =, bem como, mudar a cor, inserir ttulo, mudar a escala e legenda
dos eixos. Procure no help da funo.
hist(dad$salario)

hist(dad$salario, nclass=5)

hist(dad$salario, nclass=5, col="blue", main="Salrio", freq=F)

Perceba a diferena entre os eixos y dos histogramas anteriores!


Para mudar o eixo utilize o argumento freq=F
E finalmente podemos construir um boxplot, grfico que nos apresenta o primeiro e terceiro
quartis, bem como a mediana. O comando que ser utilizado o boxplot. Podemos, como em
todos os outros grficos, adicionar argumentos. Para ver o que possvel alterar acesse o help
da funo.
boxplot(dad$salario)

Medidas descritivas so facilmente obtidas no programa R, elas so muito intuitivas e basta


saber como escrev-las em ingls. Por exemplo, queremos calcular a mdia da varivel salrio,
devemos usar o comando:
mean(dad$salario)
Para calcular a mediana usamos a funo median, a funo quantile usada para obtermos os
quartis e a funo IQR nos fornece a distncia interquartil.
median(dad$salario)
quantile(dad$salario)
IQR(dad$salario)
possvel obter um resumo da varivel utilizando a funo summary. Ela retorna o menor
valor, quartis, mdia e maior valor da amostra.
summary(dad$salario)

Com relao ao clculo da varincia e do desvio padro devemos prestar ateno na forma
como calculamos. Na calculadora existem dois tipos de varincia e desvio-padro, os divididos
por n-1 e os divididos por n. Vimos em sala de aula que a princpio utilizaremos a varincia e o
desvio padro divididos por n.
No programa R as funes var e sd referem-se aos clculos de varincia e desvio-padro
(respectivamente) divididos por n-1. No o que queremos!!
var(dad$salario)
sd(dad$salario)
Portanto, para calcular a varincia e desvio divididos por n precisamos escrever a funo.
Lembremos como so as frmulas dessas duas estatsticas:
n

var( X )

(x
i 1

X )2
n

e dp( X )

var( X )

Precisamos fazer a soma (funo sum), subtrair da mdia (funo mean), elevar ao quadrado
(funo ^2) e dividir por n (funo length). Ento temos:
varp<-sum((dad$salario - mean(dad$salario))^2/(length(dad$salario)))

varp
O desvio padro obtido como a raiz quadrada da varincia:
dp<-sqrt(varp)
dp

Varincia e desvio
dividido por n-1

Varincia e desvio
dividido por n
Exerccios:
1) Construa a tabela de frequncias da varivel procedencia.
2) Faa o grfico de barras, com ttulo Regio de Procedncia e pinte as barras de cor
azul.
3) Obtenha a mdia, mediana, primeiro e terceiro quartis, distncia interquartil,
varincia e desvio padro da varivel filhos.
Ao terminar os exerccios, copie e cole as sadas, bem como os comandos, num arquivo e
salve com extenso pdf. Envie em arquivo nico para o Moodle.

Das könnte Ihnen auch gefallen