Sie sind auf Seite 1von 36

STATISTICS!!!

 
The  science  of  data  
What  is  data?  
Informa7on,  in  the  form  of  facts  or  
figures  obtained  from  experiments  
or  surveys,  used  as  a  basis  for  making  
calcula7ons  or  drawing  conclusions  
                                                             Encarta  dic7onary      
Sta7s7cs  in  Science  

•  Data  can  be  collected  about  a  


popula7on  (surveys)  

•  Data  can  be  collected  about  a  


process  (experimenta7on)  
2  types  of  Data  

                       Qualita7ve  
                     Quan7ta7ve  
Qualita7ve  Data  
•  Informa7on  that  relates  to  characteris)cs  or  
descrip)on    (observable  quali7es)  
•  Informa7on  is  o/en  grouped  by  descrip7ve  category  
•  Examples  
–  Species  of  plant  
–  Type  of  insect  
–  Shades  of  color  
–  Rank  of  flavor  in  taste  tes7ng  
Remember:  qualita.ve  data  can  be  “scored”  and  evaluated  
numerically  
Qualita7ve  data,  manipulated  numerically  

•  Survey  results,  teens  and  need  for  environmental  ac7on  


Quan7ta7ve  data  
•  Quan7ta7ve  –  measured  using  a  
naturally  occurring  numerical  scale    
•  Examples  
– Chemical  concentra7on  
– Temperature  
– Length  
– Weight…etc.  
Quan7ta7on    
•  Measurements  are  oRen  displayed  graphically  
Quan7ta7on  =  Measurement  
•  In  data  collec7on  for  Biology,  data  must  be  measured  
carefully,  using  laboratory  equipment    
(ex.  Timers,  meters7cks,  pH  meters,  balances  ,  pipeVes,  etc)  
•  The  limits  of  the  equipment  used  add  some  
uncertainty  to  the  data  collected.  All  equipment  has  
a  certain  magnitude  of  uncertainty.  For  example,  is  a  
ruler  that  is  mass-­‐produced  a  good  measure  of  1  cm?  
1mm?  0.1mm?  

•  For  quan7ta7ve  tes7ng,  you  must  indicate  the  level  


of  uncertainty  of  the  tool  that  you  are  using  for  
measurement!!  
How  to  determine  uncertainty?  
•  Usually  the  instrument  manufacturer  will  indicate  
this  –  read  what  is  provided  by  the  manufacturer.  
•  Be  sure  that  the  number  of  significant  digits  in  the  
data  table/graph  reflects  the  precision  of  the  
instrument  used  (for  ex.  If  the  manufacturer  states  
that  the  accuracy  of  a  balance  is  to  0.1g  –  and  your  
average  mass  is  2.06g,  be  sure  to  round  the  average  
to  2.1g)  Your  data  must  be  consistent  with  your  
measurement  tool  regarding  significant  figures.  
Finding  the  limits  
•  As  a  “rule-­‐of-­‐thumb”,  if  not  specified,  use  +/-­‐  1/2  of  
the  smallest  measurement  unit    (ex  metric  ruler  is  
lined  to  1mm,so  the  limit  of  uncertainty  of  the  ruler  
is  +/-­‐  0.5  mm.)  
•   If    the  room  temperature  is  read  as  25  degrees  C,  
with  a  thermometer  that  is  scored  at  1  degree  
intervals  –  what  is  the  range  of  possible  
temperatures  for  the  room?  
•     (ans.s  +/-­‐  0.5  degrees  Celsius    -­‐  if  you  read  15oC,  it  
may  in  fact  be  14.5  or  15.5  degrees)  
Looking  at  Data  
•  How  accurate  is  the  data?    (How  close  are  the  
data  to  the  “real”  results?)  This  is  also  
considered  as  BIAS  

•  How  precise  is  the  data?  (All  test  systems  have  


some  uncertainty,  due  to  limits  of  
measurement)  Es7ma7on  of  the  limits  of  the  
experimental  uncertainty  is  essen7al.    
Comparing  Averages  
•  Once  the  2  averages  are  calculated  
for  each  set  of  data,  the  average  
values  can  be  ploVed  together  on  a  
graph,  to  visualize  the  rela7onship  
between  the  2  
Drawing  error  bars  
•  The  simplest  way  to  draw  an  error  bar  is  to  use  
the  mean  as  the  central  point,  and  to    use  the  
distance  of  the  measurement  that  is  furthest  
from  the  average  as  the  endpoints  of  the  data  
bar  
Value farthest
from average

Calculated
distance

Average
value
What  do  error  bars  suggest?  
•  If  the  bars  show  extensive  overlap,  it  is  likely  
that  there  is  not  a  significant  difference  
between  those  values  
Quick  Review  –  3  measures  of  “Central  
Tendency”  
•  mode:  value  that  appears  most  frequently  
•  median:  When  all  data  are  listed  from  least  to  
greatest,  the  value  at  which  half  of  the  
observa7ons  are  greater,  and  half  are  lesser.    
•  The  most  commonly  used  measure  of  central  
tendency  is  the  mean,  or  arithme7c  average  
(sum  of  data  points  divided  by  the  number  of  
points)            
How  can  leaf  lengths  be  displayed  
graphically?  
Simply  measure  the  lengths  of  each  and  plot  how  many  are  of  
each  length  
If  smoothed,  the  histogram  data  assumes  this  
shape  
This  Shape?  
•  Is  a  classic  bell-­‐shaped  curve,    AKA  Gaussian  
Distribu7on  Curve,  AKA  a  Normal  Distribu7on  
curve.  

•  Essen7ally  it  means  that  in  all  studies  with  an  


adequate  number  of  datapoints  (>30)  a  
significant  number  of  results  tend  to  be  near  
the  mean.      Fewer  results  are  found  farther  
from  the  mean    
SD  
•  The  standard  devia)on  is  a  sta7s7c  that  tells  
you  how  7ghtly  all  the  various  examples  are  
clustered  around  the  mean  in  a  set  of  data  
Standard  devia7on  

•  The  STANDARD  DEVIATION  is  a  more  


sophis7cated  indicator  of  the  precision  of  a  set  
of  a  given  number  of  measurements  
–  The  standard  devia7on  is  like  an  average  devia7on  
of  measurement  values  from  the  mean.  In  large  
studies,  the  standard  devia7on  is  used  to  draw  
error  bars,  instead  of  the  maximum  devia7on.  
A  typical  standard  distribu7on  curve  
According  to  this  curve:  
•  One  standard  devia7on  away  from  the  mean  
in  either  direc7on  on  the  horizontal  axis  (the  
red  area  on  the  preceding  graph)  accounts  for  
somewhere  around  68  percent  of  the  data  in  
this  group.    
•  Two  standard  devia7ons  away  from  the  mean  
(the  red  and  green  areas)  account  for  roughly  
95  percent  of  the  data.      
Three  Standard  Devia7ons?  
•  three  standard  devia7ons  (the  red,  green  and  
blue  areas)  account  for  about  99  percent  of  
the  data  

-3sd -2sd +/-1sd 2sd +3sd


How  is  Standard  Devia7on  calculated?  

With  this  formula!  


AGHHH!    

DO  I  NEED  TO  KNOW  


THIS  FOR  THE  
TEST?????  
Not  the  formula!  
•  This  can  be  calculated  on  a  scien7fic  calculator  

•  OR….  In  MicrosoR  Excel,  type  the  following  code  into  the  cell  
where  you  want  the  Standard  Devia7on  result,  using  the  
"unbiased,"  or  "n-­‐1"  method:  =STDEV(A1:A30)  (subs.tute  the  
cell  name  of  the  first  value  in  your  dataset  for  A1,  and  the  cell  
name  of  the  last  value  for  A30.)    

•  OR….Try  this!  hVp://www.pages.drexel.edu/~jdf37/mean.htm  


You  DO  need  to  know  the  concept!  
•   standard  devia)on  is  a  sta7s7c  that  tells    how  7ghtly  
all  the  various  datapoints  are  clustered  around  the  
mean  in  a  set  of  data.    
•  When  the  datapoints  are  7ghtly  bunched  together  
and  the  bell-­‐shaped  curve  is  steep,  the  standard  
devia7on  is  small.(precise  results,  smaller  sd)  
•   When  the  datapoints  are  spread  apart  and  the  bell  
curve  is  rela7vely  flat,  a  large  standard  devia7on  
value  suggests  less  precise  results  
THE  END  
   

• For  today……….  

Das könnte Ihnen auch gefallen