Sie sind auf Seite 1von 5

Estadstica Pgina 1

T e m a 1 Estadstica descriptiva
U n i d a d e s e s t a d s t i c a s
Se llama p o b l a c i n al conjunto de individuos que son objeto de estudio. Se llama m u e s t r a a
cualquier subconjunto de la poblacin, o sea, a una parte que ser la analizada en el estudio y a la
vez ser representativa de la poblacin a estudiar. Se llama u n i d a d e s t a d s t i c a a cada uno de los
elementos de la poblacin.
Cada individuo de una poblacin se puede estudiar segn uno o varios c a r a c t e r e s o
caractersticas. Cada uno de estos caracteres puede presentar varias respuestas posibles llamadas
m o d a l i d a d e s .
Si los caracteres no son medibles con c u a l i t a t i v o s (cualidades); si pueden ser medibles son
c u a n t i t a t i v o s (cantidades). Estas cantidades caractersticas de los elementos de la poblacin son las
variables estadsticas.
V a r i a b l e s e s t a d s t i c a s
Una v a r i a b l e e s t a d s t i c a es el conjunto de valores numricos que puede tomar un carcter
cuantitativo. Estas pueden ser d i s c r e t a s cuando solo puede tomar una cantidad finita o numerable
de valores o c o n t i n u a s si sus posibles valores pueden ser cualesquiera de un intervalo. Los datos
obtenidos, en el caso de las variables continuas, se agrupan en intervalos denominados c l a s e s .
Los limites que acotan una clases sern el l i m i t e d e c l a s e i n f e r i o r y el l i m i t e d e c l a s e
s u p e r i o r . El punto medio de la clase es la m a r c a d e c l a s e . La diferencia entre el limite superior e
inferior es la a m p l i t u d o t a m a o d e c l a s e .
D i s t r i b u c i o n e s d e f r e c u e n c i a s
Se denomina f r e c u e n c i a a b s o l u t a de cada modalidad A
i
(i= 1, 2, ... ,k) al numero de
individuos que pertenecen a dicha modalidad en la muestra seleccionada n
i
.
El cociente entre cada n
i
y el numero de elementos de la muestra se denomina f r e c u e n c i a
r e l a t i v a de la modalidad A
i
, y se denota como f(A
i
) o f
i
. Es evidente
11
y 1
k k
i i
i i
nnf
= =
= =

Se llama d i s t r i b u c i n d e f r e c u e n c i a s a una tabla que contiene cada una de las modalidades
del carcter a estudio con su frecuencia absoluta, o sea, una relacin entre cada caracterstica a
evaluar y la cantidad de veces que aparece esa caracterstica.
R e p r e s e n t a c i o n e s g r f i c a s
Por comodidad la informacin que aparece en las tablas de distribucin de frecuencias se
trasladan a representaciones grficas para apreciar con un simple golpe de vista el resultado del
estudio.
G r a f i c o c i r c u l a r o d e s e c t o r e s : Consiste en dividir un circulo o un semicrculo de forma
proporcional entre la frecuencia absoluta de cada modalidad. El total de elemento esta representado
por todo el circulo (360) o semicrculo (180).
D i a g r a m a d e b a r r a s y g r f i c o d e P a r e t o : El diagrama de barras se obtiene construyendo
barras verticales de altura proporcional a la frecuencia absoluta de cada modalidad. Cuando el
diagrama de barras se ordena de izquierda a derecha del mayor al menos se denomina grafico de
Pareto.
H i s t o g r a m a y p o l g o n o d e f r e c u e n c i a s : Al contrario que las anteriores, esta representacin
solo es vlida para variables cuantitativas continuas. El histograma est formado por rectngulos
con un rea proporcional a la frecuencia y la base del rectngulo al tamao o amplitud de su clase.
La unin del punto medio de la base superior del rectngulo da lugar al polgono de frecuencias.
Pgina 2 Estadstica
P a r m e t r o s e s t a d s t i c o s . C l a s i f i c a c i n
Dada una distribucin de frecuencia de un carcter cuantitativo, llamaremos p a r m e t r o
e s t a d s t i c o a cualquier valor numrico que caracteriza, en algn sentido, a dicha distribucin.Los
mas habituales son los p a r m e t r o s d e c e n t r a l i z a c i n que se sitan en el centro de los datos y los
p a r m e t r o s d e d i s p e r s i n que miden las desviaciones de los datos respecto de algn parmetro de
centralizacin.
P a r m e t r o s e s t a d s t i c o s d e c e n t r a l i z a c i n
Se llama m o d a al valor de la variable que presenta la mayor frecuencia absoluta. Cuando la
variable es continua se tiene la c l a s e m o d a l en vez de la moda.Puede ocurrir que en una
distribucin de frecuencias exista ms de un moda.
Se denomina m e d i a n a al valor de la variable que divide a la muestra en dos partes con el
mismo numero de elementos, suponiendo los datos ordenados de menor amayor. Si la muestra la
dividimos enkpartes, tenemos los c u a n t i l e s de orden k, de forma que tendremos r= k1 cuantiles
de orden k. Para k= 4 se tienen los tres c u a r t i l e s , para k= 10 los nueve d e c i l e s y para k= 100 los
99 p e r c e n t i l e s . La mediana coincide con el segundo cuartil y el quinto decil. Mediana, cuantiles,
cuartiles, deciles y percentiles son como fronteras que limitan bloques de muestras.
Dada una variable discreta xcon una distribucin de frecuencias, tales que
11
y ,
k k
i i
i i
xxnn
= =
= =

se llama m e d i a o v a l o r m e d i o de xy se denota como xa:
1
k
ii
i
xnx
x
n
=
=
=

Si en lugar de las frecuencias absolutas se utilizan las frecuencias relativas /,
ii
fnn = se
tiene que:
1
k
ii
i
xfx
x
n
=
=
=

En el caso de variable continua se utiliza la marca de clase correspondiente en lugar de x
i
.
P r o p i e d a d e s d e l a m e d i a :
1) Si dos variables xy x estn relacionadas por una transformacin lineal, sus medias estn
relacionadas por la misma transformacin lineal:
00
''
xxxx
xx
aa

= =
donde x
0
es el cambio de origen y aes el cambio de escala.
2) La media de la diferencia de una variable a su media es cero.
Se llama m o m e n t o n o c e n t r a d o de ordenre y se denota
r
a:
1
k
r
ii
i
r
nx
n

=
=

r
es la media de la variable x
r
. Es claro que
1
. x =
P a r m e t r o s e s t a d s t i c o s d e d i s p e r s i n
Estos parmetros miden las desviaciones de los datos respecto de algn parmetro de
centralizacin, normalmente la media. Se trata de dar una medida de las diferencias de la variable a
su media. Para este parmetro se toman las diferencias a la media al cuadrado o en valor absoluto.
Dada la variable discreta xcon valores x
1
, x
2
, ... , x
k
y frecuencia absoluta respectivas n
1
, n
2
,
... , n
k
, se denomina d e s v i a c i n m e d i a de xy se denota por DM(x) a:
Estadstica Pgina 3
1
()
k
ii
i
nxx
DMx
n
=

=

La v a r i a n z a de xse denota por V(x) es:
2
1
()
()
k
ii
i
nxx
Vx
n
=

=

La raz cuadrada positiva de la varianza de xes la d e s v i a c i n t p i c a , se denota por s
x
y es:
2
1
()
k
ii
i
x
nxx
s
n
=

=

En el caso de variable continua se toman las marcas de clase en lugar de x
i
.
Si
0
2
1
', entonces (')().
xx
x VxVx
a a

= = La varianza es invariante por cambios de origen y


como consecuencia
0
'
1
', entonces .
xx
xx
x ss
aa

= =
Se llama m o m e n t o c e n t r a d o de orden re de la variable x, o m o m e n t o r e s p e c t o d e l a
m e d i a , y se denota
r
a:
1
()
k
r
ii
i
r
nxx
n

=

=

Ntese que
1
0 = y que
2
es la varianza.
22
212
() Vxx = =
Se define el c o e f i c i e n t e d e v a r i a c i n de la variable x, que se denota por v, como el cociente
entre la desviacin tpica y el valor absoluto de la media
x
s
v
x
=
Este coeficiente representa el nmero de veces que la desviacin tpica contiene a la media.
Cuanto menor sea este coeficiente mejor representar la media al conjunto de datos.
C a r a c t e r s t i c a s d e f o r m a
Si una distribucin es simtrica sus momentos centrados de orden impar son nulos. Fisher ha
propuesto una medida de asimtrica utilizando en momento centrado de orden tres. El coeficiente
de asimetra
3
13
s

=
Este coeficiente es invariante por cambios de origen y de escala y vale cero para
distribuciones simtricas. El c o e f i c i e n t e d e c u r t o s i s mide el aplastamiento o deformacin y es:
4
24
3
s

=
Este coeficiente toma el valor
2
0 > si la distribucin esta menos aplastada que la normal
(de la misma media y desviacin tpica) y
2
0 < en caso contrario.
D i s t r i b u c i n d e f r e c u e n c i a s m u l t i v a r i a n t e
A veces hay que estudias datos que contienen valores de varias variables relacionadas.
Se llama d i s t r i b u c i n c o n j u n t a d e f r e c u e n c i a de dos variables Xe Ya una tabla en donde
se representan los valores observados de cada variable y las frecuencias absolutas de cada par.
Pgina 4 Estadstica
D i s t r i b u c i o n e s m a r g i n a l e s y c o n d i c i o n a d a s
Se llama d i s t r i b u c i n m a r g i n a l de una variable a la que se obtiene al estudiar esa variable
con independencia de las dems. En el caso bidimensional las distribuciones marginales se obtienen
..
y
k k
iijjij
j i
nnnn = =

donde n
i.
esla frecuencia absoluta del valor x
i
y n
.j
es la frecuencia absoluta del valor y
j
.
Se llama d i s t r i b u c i n c o n d i c i o n a d a deYpor X= x
i
a la distribucin de frecuencias que se
obtiene considerando nicamente las frecuencias para X= x
i
.Anlogamente se obtienen
distribuciones de Xcondicionadas por Y= y
j
.
Las frecuencias relativas serian
(,)(,)
(/) (/)
()()
ij ij
ji ij
i j
fxy fxy
fyxfxy
fx fy
= =
V e c t o r d e m e d i a s
En el tratamiento estadstico de variables k-dimensionales, las kobservaciones asociadas a
cada individuo se pueden considerar como un vector Xde .
k

Se llama v e c t o r d e m e d i a s de la variable k-dimensional X, y se denota por , Xal vector de


k
que tienen por componentes las medias de cada una de las kvariables, es decir:
1
2
k
X
X
X
X
| |
|
|
=
|
|
|
\ .

En la prctica el vector de medias se obtiene a partir de las distribuciones marginales


calculando las medias respectivas.
M a t r i z d e v a r i a n z a s y c o v a r i a n z a s
Se llama c o v a r i a n z a de la variable bidimensional (X, Y) y se denota Cov(X, Y) a:
()()
Cov(,)
ij
xXyY
XY
n

=
en donde el sumatorio est extendido a los n pares de datos. Si los datos estn agrupados
()()
Cov(,)()()
ijij
ijij
nxXyY
XY fxXyY
n

= =
La varianza de Xla denotaremos s
2
X
y se obtiene utilizando la distribucin marginal de la
variable X. Anlogamente s
2
Y
.
Se llama m a t r i z d e c o v a r i a n z a s a la matriz cuadrada y simtrica que contienelas varianzas
de cada variable en la diagonal principal y las covarianzas correspondientes a cada par de variables
en el resto de elementos.En el caso de una variable bidimensional denotando como C a la matriz de
covarianzas
2
2
Cov(,)
Cov(,)
X
Y
sXY
C
YXs
| |
=
|
\ .
Denotando como
2
i
sla varianza de la variable X
i
y por s
ij
la Cov(X
i
, Y
j
), la matriz seria:
2
1121
2
2122
2
12
k
k
kkk
sss
sss
C
sss
| |
|
|
=
|
|
|
\ .

Estadstica Pgina 5
La matriz de covarianzas es siempre semidefinida positiva.
C o e f i c i e n t e d e c o r r e l a c i n
La covarianza es una medida de la relacin entre las variables Xe Y.El inconveniente es que
depende de las unidades elegidas. Para solventar este problema a partir de la covarianza se define el
c o e f i c i e n t e d e c o r r e l a c i n , r, de Xe Y, el cual es:
Cov(,)
XY
XY
r
ss
=
en donde s
X
y s
Y
son las desviaciones tpicas de Xe Y, respectivamente.
El coeficiente de correlacin es invariante por cambios de origen y cambios de escala. Este
coeficiente est comprendido entre 1 y 1.

Das könnte Ihnen auch gefallen