Sie sind auf Seite 1von 14

1

ESTADISTICA DESCRIPTIVA
HA/LR

La estadstica descriptiva es un procedimiento estadstico en el cual podemos recolectar,
organizar, resumir, analizar y presentar datos relativos a un conjunto de observaciones y
que nos permiten extraer conclusiones vlidas y efectuar decisiones basadas en dichos
anlisis. Los pasos en el diseo de tratamiento de datos consideran:
La definicin de objetivos y poblacin de estudio, bsqueda de la informacin disponible
(listado de condiciones y medios), elaboracin de instrumentos de medicin, definir las
variables y el diseo de muestreo, recoleccin de los datos, procesamiento estadstico de los
datos: tablas, grficos, medidas estadsticas, e interpretacin de los resultados y redaccin
del informe del estudio.
El objetivo de la estadstica descriptiva en una variable es analizar y sintetizar la
informacin contenida en los datos estadsticos mediante:
Tablas (distribuciones de frecuencias absolutas y relativas)
Grficos (de Barra, de sectores circulares, Histograma, Box plot,...)
Resmenes numricos (ndices de posicin y de dispersin).

Conceptos bsicos asociados son los siguientes:
Poblacin: Conjuntos de individuos o elementos que cumplen ciertas propiedades
comunes.
Censo: Coleccin de datos de cada uno de los miembros de la poblacin.
Muestra: Subconjunto representativo de la poblacin.
Parmetro: Medicin numrica que describe algunas caractersticas de una poblacin.
Estadstico: Medicin numrica que describe algunas caractersticas de una muestra.
Unidad Observable: Cualquier elemento que podamos extraerle informacin.
Variable: Caracterstica o propiedad asociada a una unidad observable de la poblacin.

Tipos de Variables
Variables Cualitativas o Categricas: Son las que presentan una caracterstica observada de
un atributo o cualidad, y tienen por valores cantidades no numricas. Se clasifican en
ordinal (el orden de las categoras es importante, ej: nivel de estudios, rendimiento
acadmico,..) y nominal (los nombre o etiquetas de la categora no denota jerarqua, ej:
color de ojos, religin,..). Para variables cualitativas se pueden elaborar tablas de
distribucin de frecuencias en categoras con frecuencias absolutas y relativas, aadiendo
grficos de barras y circular.

Variables Cuantitativas: Son las que tienen por valores cantidades numricas a cada
caracterstica de una unidad de observacin. Se clasifican en discretas (si los valores es un
conjunto finito o infinito numerable, ej: nmero de fallas de una mquina, cantidad de sillas
en el aula,.. ) y continuas (los valores que la componen es un subconjunto de la recta real,
ej: tiempo de vida de una ampolleta, largo de una mesa,..). Para variables cuantitativas se
pueden elaborar tablas de distribucin de frecuencias para datos agrupados en intervalos de
clase; complementadas con representaciones grficas de histograma, box plot, polgono de
frecuencias, entre otros, y la utilizacin de las medidas de tendencia central, de posicin y
de dispersin.

2
Escala de Medicin: Son cuatro los niveles de medicin: nominal, ordinal, de intervalo y
de razn. El nivel de medicin de intervalo se parece al nivel ordinal, pero con la propiedad
adicional de que la diferencia entre los valores de datos cualesquiera tiene un significado y
las razones no tienen un significado. Sin embargo, los datos en este nivel no tienen un
punto de partida inherente (natural) desde cero (donde nada de la cantidad est presente).
El nivel de medicin de razn tiene las mismas propiedades de las escalas de intervalos,
pero las razones, diferencias si tienen sentido. Tiene un punto de partida o cero inherente
(donde cero indica que nada de la cantidad est presente)

Distribucin de frecuencias
Una vez definida la variable de inters es necesario clasificar y ordenar los elementos de la
poblacin. As, una distribucin de frecuencias lista valores de datos u observaciones, ya
sea de manera individual o por grupos de intervalos, junto con sus frecuencias
correspondientes.
Primero a cada valor de la variable se le identifica por
i
x siendo el i-simo resultado
perteneciendo a una clase. Los resultados agrupados en cada una de estas clases se
resumen en una tabla de frecuencias, la cual contiene la siguiente informacin:

i
n : Frecuencia absoluta de la clase i (nmero de elementos de cada clase).
i
f : Frecuencia relativa (cuociente entre frec. absoluta y N total de la poblacin)
i
N : Frecuencia acumulada (suma de las frec. absolutas de la clase i y las anteriores)
i
F : Frecuencia acumulada relativa (cuociente entre
i
N y N ).

Se cumple que la
1
n
i
i
n N
=
=

;
i
i
n
f
N
= ;
1
1
n
i
i
f
=
=



Debe tener presente en las variables Cuantitativas que si el nmero de datos poblacionales
distintos entre s es grande podemos obtener un gran nmero de clases con frecuencia
absoluta igual a 1 que estadsticamente no resulta relevante; en tal situacin podemos
agrupar las clases en intervalos. Se recomienda entre 5 y 20 intervalos de clase o utilizar la
regla de Sturge. Los elementos que conforman la elaboracin de la distribucin de
frecuencias por intervalos son los siguientes:

X
R : Recorrido de la variable X (diferencia entre el mayor y la menor observacin)
Clases : Son subintervalos, generalmente de igual longitud, del conjunto de datos.
Lmites: Inferior y superior de un intervalo i son los extremos del intervalo.
i
a : Amplitud del intervalo i (longitud del intervalo i).
Si los k intervalos de clase tienen la misma longitud entonces k R a
X i
=
Con k= 1 + 3.3 log N ( Regla de Sturge).
Como criterio para facilitar la interpretacin, la amplitud debe presentarse con la misma
cantidad de decimales que los datos originales, por tanto sta debe aproximarse hacia arriba
de acuerdo a la naturaleza de los datos.

3
i
m : Marca de clase del intervalo i (punto medio del intervalo i), en clculos
estadsticos es considerada como el valor ms representativo de las clases.
Fronteras: Es el punto medio entre el lmite superior de la clase de un intervalo y el lmite
inferior del intervalo siguiente.

Ejemplo 1: Tabulacin de 40 datos de valores distintos
Variable: Contenidos de
nicotina, en miligramos, de
cigarrillos de la marca pucho

Tipo: var. cuantitativa continua


Pasos para construir una
distribucin de frecuencias en
intervalos de clase:
Recorrido de la variable

Nmero K de clases :
(entre 5 y 20) .
Regla de Sturge

Amplitud A del intervalo

Elegir el extremo inferior de la
primera clase

Establecer la frontera inferior
de la primera clase

La frontera superior de la
primera clase se obtiene
sumando la amplitud de la
clase 0.31, a la frontera inferior

Frmulas:

R =
. mx
X -
. mn
X = 2.55 0.72 = 1.83

K = 1 + 3.3 * log N.
Como N = 40, entonces K = 1 + 3.3* log 40 = 6.286
6.3 clases. As, deberamos tener 6 7 clases.

A =
K
R
=
6
83 . 1
= 0.305 0.31

Dado que el valor mnimo es 0.72, el extremo debe ser
0.72 o menos; se considerar 0.72.

Recordando que la frontera se expresan con una cifra
decimal ms, se considerar 0.715.

FS = FI + A = 0.715 + 0.31 = 1.025
En consecuencia, el lmite aparente superior del primer
intervalo de clase es 1.02.

Tabla de Distribucin de Frecuencias
Lmite Fronteras
i
n
i
f
i
m
i
N
i
F
i i
m n
2
i i
m n
0.72 1.02 0.715 1.025 2 0.05 0.87 2 0.05 1.74 1.5138
1.03 1.33 1.025 1.335 2 0.05 1.18 4 0.10 2.36 2.7848
1.34 1.64 1.335 1.645 8 0.20 1.49 12 0.30 11.92 17.7608
1.65 1.95 1.645 1.955 17 0.425 1.80 29 0.725 30.6 55.08
1.96 2.26 1.955 2.265 6 0.15 2.11 35 0.875 12.66 26.7126
2.27 2.57 2.265 2.575 5 0.125 2.42 40 1 12.1 29.282
N = 40 1 71.38 133.134

4
En resumen, para construir tablas de distribucin de frecuencias para variables continuas
debemos seguir los siguientes pasos:
1. Identificar la variable de estudio y la unidad de observacin.
2. Determinar el nmeros de clases ( K)
3. Obtener la amplitud (A)
4. Escribir los intervalos de clases comenzando por el valor mnimo.
5. Contar cuantas observaciones pertenecen en cada clase ( n
i
)

Ejercicio 1: Un Ingeniero Civil visita 15 condominios en una ciudad y en cada una registr
el nmero de casas que han sufrido daos ocasionados por un aluvin el invierno recin
pasado. Se obtuvo la siguiente informacin:

15 15 18 16 17 18 18 18
17 19 16 17 17 16 19

a) Defina la unidad de observacin, la variable de estudio y su clasificacin.
b) Elabore una tabla de distribucin de frecuencias adecuada a este conjunto de datos.
c) Cuntos condominios tienen a lo ms 16 casas que han sufrido daos?
d) Qu proporcin de condominios tienen por lo menos 17 casas con daos?
e) Qu proporcin de condominios tienen 18 casas que han sufrido daos?
f) Obtenga un grfico adecuado para sus datos e intrprete.


Representaciones grficas de las distribuciones de frecuencias

La representacin grfica permite visualizar el comportamiento de un conjunto de datos,
como tambin conocer caractersticas especiales de la distribucin a la cual pertenecen. La
utilizacin adecuada de un grfico, al igual que la distribucin de frecuencias, depende del
tipo de variable. En los siguientes captulos mostraremos la utilidad de los grficos para la
obtencin de un modelo probabilstico al cual se pueden ajustar los datos.

Grfico de Barra
Es usado en observaciones cualitativas o
cuantitativas discretas. Sobre cada clase se
levanta una barra de altura igual a la
frecuencia de la clase.
Eje horizontal: se representan las clases
Eje vertical: las frecuencias absolutas
i
n (
i
f )
0
5
10
15
20
25
N


a
l
u
m
n
o
s
51 52 53 54
Unidad Acadmica


5
Histograma
Se utiliza en variables cuantitativas cuyas
observaciones han sido divididas en intervalos
de clases. Consiste en un conjunto de
rectngulos cada uno de los cuales representa
un intervalo de agrupacin o clase. Sus bases
son iguales a la amplitud del intervalo y la
altura se determinan de manera que su rea
sea proporcional a la frecuencia de cada clase.
Eje horizontal: intervalo de frontera FI-FS
Eje vertical: frecuencias absolutas
0
2
4
6
8
EDAD
1 a 5
5 a 15
15 a 33
33 a 50
50 a 60
60 a 72

Polgono de Frecuencias
El tipo de representacin es un grfico de
lnea. Se construye uniendo con segmentos de
recta los puntos medios (marca de clase) de
los intervalos adyacentes. Se utiliza para
determinar la forma que sigue la distribucin
de frecuencias de las observaciones con el
propsito de ajustarle alguna funcin
probabilstica determinada.
Eje horizontal: marcas de clases
i
m
Eje vertical: frecuencias absolutas
0
5
10
15
20
25
1 3 4 6 7 Notas
N


a
l
u
m
n
o
s

Ojiva
Es un polgono de frecuencias acumulativas,
comienza en cero y termina en 100%. Es un
polgono que parte de la frontera inferior del
primer intervalo de clase y en cada frontera
superior va indicando su frecuencia
acumulada.
Eje horizontal: intervalo de frontera FI-FS
Eje vertical: frec. acumuladas
i
N (
i
F )
0
5
10
15
20
25
30
1 5 15 33 50 60
Edades
N


p
e
r
s
o
n
a
s

Grfico Circular
Permite representar las frecuencias absolutas
o frecuencias relativas porcentuales en un
crculo. Se debe determinar la cantidad de
grados del crculo correspondiente a cada
frecuencia absoluta mediante la proporcin

N
n
X
i

=

360

Nalumnos por U. A.
51
3%
52
5%
53
38%
54
54%

Grfico de Tallo y Hoja
Es un procedimiento semi-grfico para
variables cuantitativas. Los dgitos se separan
en dos partes, el Tallo que corresponde a un
cierto nmero de dgitos de una clase
contados de izquierda a derecha, y la Hoja que

Edades de un grupo de 31 personas




6
define la frecuencia absoluta de la clase y
corresponde al siguiente dgito desechando los
restantes, si existen. La representacin de los
datos se realiza usando una columna para los
tallos, ordenados en forma ascendente y sin
repetir y otra para las correspondientes hojas.
Tallo Hoja
0 4 5
1 0 0 1 3
2 2 5 7 7 9 9
3 0 1 1 1 4 6 8 9 9
5 1 1 3 6 7
6 0 0 6
7 1 1
Grfico Box Plot
Un grfico de cajas con patillas muestra las
posiciones relativas de los cuartiles, porcin
central y valores extremos de una distribucin
de frecuencias. Esta grfica encierra el rango
intercuartil
1 3
q q de los datos en una caja
que tiene la mediana dibujada dentro.
Adems, podemos identificar el tipo de
asimetra de una distribucin de frecuencias.
Ser simtrica si la posicin de la mediana se
encuentra en la mitad de la caja y las antenas
tienen la misma distribucin.

Max = 6,500000
Min = 2,000000
75% = 5,000000
25% = 3,500000
Median value:
Med = 4,750000
Box & Whisker Plot
1,5
2,5
3,5
4,5
5,5
6,5
7,5
NOTAS



Medidas Estadsticas

En una distribucin descriptiva de una poblacin o muestra, es necesario recurrir a ciertos
valores numricos que permiten cuantificar ciertas caractersticas de la distribucin. Estas
son llamadas Medidas estadsticas o Estadgrafos, y dentro de las ms comunes se
encuentran las medidas de posicin o de tendencia central.

Medidas de Tendencia Central
Permite determinar un valor caracterstico de una distribucin de frecuencias ubicado hacia
el centro de la distribucin. Estas medidas son las siguientes:

Media Aritmtica : es un promedio, se denota por : x , y se calcula segn la forma de la
distribucin de frecuencia.
i) Para N datos Individuales
N
x x x ,....., ,
2 1
se tiene x =
N
x
N
i
i
=1

ii) Para datos agrupados en k clases individuales con frecuencias absolutas respectivas
k
n n n ,....., ,
2 1
, entonces x =
N
n x
k
i
i i
=

1

7
iii) Para datos agrupados en intervalos de clase: Sea
k
m m m ,....., ,
2 1
las marcas de clase y
k
n n n ,....., ,
2 1
las frecuencias absolutas de una distribucin de frecuencias, entonces
x =
N
n m
k
i
i i
=

1


Propiedades de la Media Aritmtica
i) A la diferencia
i
x - x se le llama desviacin del i-simo dato con respecto de la
media aritmtica. Se cumple que: ) (
1
x x
N
i
i

=
= 0.
ii) Si cada valor
i
x se multiplica por una constante c y se calcula la media aritmtica de
estos nuevos valores el resultado es igual al producto de la constante por la media
aritmtica de los datos originales, es decir, x c = c x .
iii) Si cada valor
i
x se le suma o resta una constante c y se calcula la media aritmtica de
estos nuevos valores el resultado es igual al promedio original ms o menos la constante c,
es decir, c x = x c.

La Mediana: La media aritmtica no resulta ser adecuado cuando existe una concentracin
de valores en algunos de los extremos. En este caso es preferible utilizar la mediana como
estadgrafo de posicin, este valor divide a la distribucin de frecuencia en dos partes
iguales cada una conteniendo el 50% de los datos. Se denota por Me.
Geomtricamente la mediana es el valor de X (abscisa) que corresponde a la recta vertical
que divide un histograma en dos partes de reas similares.

i) Para datos individuales los datos son ordenados en forma creciente o decreciente.
Si el nmero de datos N es impar, la mediana corresponde al valor que ocupa el centro de la
ordenacin. Si el nmero de datos N es par, la mediana corresponde a la media aritmtica
de los dos valores que ocupan el centro de la ordenacin. Es decir, la mediana de un
conjunto de nmeros ordenados en magnitud
( ) ( ) ( ) N
X X X ......
2 1
es o el valor central
( )
( )

+
=
|

\
|
+
+
par es N si
2
X
impar es N si
1
2
2
N
2
1
N
N
X
X
Me

ii) Para datos en intervalos de clases: Primero se debe identificar el intervalo donde se
encuentra y enseguida aproximar el valor de la mediana a este intervalo llamado Intervalo
Mediano cuya frecuencia acumulada supere o sea igual al cuociente N/2. La mediana se
obtiene despus de la siguiente expresin.
Me =
i
FI + A
n
N
N
i
i

|
|
|
|

\
|

1
2

i
FI Frontera inferior del intervalo mediano
8
1 i
N Frecuencia absoluta acumulada de la clase anterior al intervalo mediano
n
i
Frecuencia absoluta del intervalo mediano
A Amplitud del intervalo

La Moda: Para datos aislados, la moda es el valor (o valores) que tiene la mayor
frecuencia relativa en una muestra extrada de cierta poblacin. Se utiliza cuando la
distribucin de frecuencias presenta una alta inestabilidad; existen agrupaciones de datos en
ciertas clases. Se define como el valor ms comn o ms frecuente de todo el conjunto de
datos. Es posible que una poblacin tenga dos o ms modas. En esos casos se suelen llamar
distribuciones bimodales o multimodales.
Para datos agrupados en intervalos de clases: Mo =
i
FI + A
n n
n
i i
i

|
|

\
|
+
+
+
1 1
1


1 i
n : Frecuencia absoluta de la clase anterior al intervalo modal.
1 + i
n : Frecuencia absoluta de la clase posterior al intervalo modal.

Las medidas de tendencia central nos proporcionan una idea de la forma de la distribucin.
Una distribucin de datos est sesgada si no es simtrica y se extiende ms hacia un lado
que hacia el otro. Una distribucin de datos es simtrica si la mitad izquierda de su
histograma es aproximadamente una imagen en espejo de su mitad derecha.
a) Sesgada a la izquierda (sesgo negativo): La media y la mediana estn a la izquierda de la
moda.
b) Simtrica (sesgo cero): La media, la moda y la mediana son iguales.
c) Sesgada a la derecha (sesgo positivo): La media y la Me estn a la derecha de la Mo.

Medidas de Dispersin
La media aritmtica es la ms representativa como medida de tendencia central en
distribuciones simtrica, sin embargo no es suficiente si queremos comparar dos
distribuciones. Las medidas estadsticas de variabilidad cuantifican la dispersin de los
datos en torno al centro de los datos. Mide cun esparcidos se encuentran stos o qu tan
heterogneos son. Las ms usuales son: el recorrido, el rango intercuartlico, la varianza,
desviacin estndar y el coeficiente de variacin.

Varianza: es la de mayor utilidad en aplicaciones estadsticas y se define segn la
agrupacin de los datos.
i) Para datos individuales: ( )

= N x x X V
i
/ ) (
2

ii) Para datos agrupados en clases individuales: ( )

= N n x x X V
i i
/ ) (
2

iii) Para datos en intervalos de clases: ( )
2 1
2
/ ) (
2
X
N
n m
N n x m X V
K
i
i i
i i

= =

=


Desviacin estndar: se define como la raz cuadrada positiva de la varianza (desviacin
promedio de los datos originales con respecto a su media aritmtica).
9
Si la distribucin de frecuencias tiene forma de campana, o aproximadamente esta forma, se cumple
la siguiente propiedad de la desviacin estndar y la media aritmtica:
* x contiene aproximadamente el 68% de las observaciones.
* 2 x el 95%
* 3 x el 100%

Coeficiente de Variacin: entrega el grado o % de variabilidad de los datos y se utiliza
para comparar dos distribuciones en que pueden tener distinta unidad de medida.
% 100 . . =
x
V C


Regla emprica, si el C.V. 35% el conjunto es homogneo, en caso contrario se dice
heterogneo.

Coeficiente de Sesgo: Se entiende por sesgo el grado de asimetra o falta de simetra de
una distribucin de frecuencias.
Si el coef. sesgo es + entonces el sesgo de la distribucin es positivo.
Si el coef. sesgo es - entonces el sesgo de la distribucin es negativo.
Si el coef. sesgo es cero, entonces la distribucin es simtrica.
Para datos individuales, el coeficiente de sesgo
[ ]
3
3
N
X X
N
i
i
=

1

; donde
3
= [ ]
3
) (X V
Para datos agrupados, el coeficiente de sesgo
( )
3
N
n X m
k
i
i i
=

1
3


Curtosis: Mide el grado de apuntamiento de una distribucin de frecuencias en relacin a
una distribucin simtrica. Para una distribucin simtrica se cumple que el coeficiente de
curtosis es igual a 3. Luego K = Coeficiente de curtosis 3. Se pueden presentar los
siguientes casos:
Si K > 0, entonces la distribucin es leptocrtica ( tiene un pico alto)
Si K < 0, entonces la distribucin es platicrtica (est aplastada)
Si K = 0, entonces la distribucin es mesocrtica (tiene distribucin de campana).

Para datos individuales, el Coeficiente de curtosis es
[ ]
4
1
4
N
X X
N
i
i
=

; donde
4
= [ ]
2
) ( X V
Para datos agrupados, el Coeficiente de curtosis es
( )
4
1
4
N
n X m
k
i
i i
=



Medidas de Posicin relativa

Cuantiles: Particionan el rea bajo el polgono de frecuencias en ms de dos partes, siendo
los usuales en cuatro, diez y cien partes.

Cuartiles: divide la distribucin de frecuencias en 4 partes,
10
i
Q : es el punto tal que el 25 i % de las observaciones son a este valor. i = 1,2, 3.

Deciles: divide la distribucin de frecuencias en 10 partes iguales,
i
D : es el punto tal que el 10 i % de las observaciones es a este valor. i = 1 a 9

Percentiles: divide la distribucin de frecuencias en 100 partes iguales, donde:
i
P : Es el punto tal que el i % de las observaciones es a este valor. i = 1 a 99.

Observe que: Q
1
= P
25 ;
Q
2
= M
e
= P
50
= D
5
; Q
3
= P
75

Procedimiento para determinar el valor del k-simo percentil (datos no agrupados):
1) Ordenar los N datos en forma ascendente
2) Calcular i =
100
k N
pregunte si es entero o no. Si es entero obtenga la posicin i del
percentil mediante i =
100
k N
y luego obtenga P
k
de acuerdo a P
k
=
( ) ( )
2
X
1 +
+
i i
X
.
Si no es entero obtenga la posicin i como el entero siguiente al nmero
100
k N
y obtenga P
k
como P
k =

( ) i
X , es el k-simo percentil. Para datos agrupados el cuantil es

C =
i
FI + A
n
N N x
i
i

|
|

\
|
1
%


Ejercicio 2: Del ejemplo 1, si se utiliza la tabla de frecuencias anterior compruebe los
siguientes resultados:
X = 1.7845
2
= 0.1439 Me = 1.79088
Mo = 1.7779
1
Q = 1.5675
3
Q = 2.0067
CV = 21.25%, la dispersin es pequea = 0.3794 se puede afirmar que el conjunto de
datos originales es homogneo.
Coeficiente de sesgo = -0.3138 < 0, la distribucin presenta un leve sesgo negativo.
Coeficiente de curtosis = 3.1478 K = 0.147855 > 0, la distribucin es leptocrtica.
El intervalo [1.0257, 2.5433] contiene el 95% de las observaciones.
Interprete estos resultados y dibuje grficos adecuados.


ESTADISTICA DESCRIPTIVA BIVARIADA

El propsito es estudiar el comportamiento de dos variables en forma simultnea, por
ejemplo el estudio del rendimiento de una reaccin qumica y la temperatura a la cual tiene
lugar. El anlisis estadstico consiste en describir su comportamiento como tambin poder
ajustarle alguna funcin matemtica, si se prueba estadsticamente que existe algn grado
de dependencia entre las variables.

Supongamos que existen N pares de la forma (
i i
y x , ). Adems, consideremos r clases
(o intervalos)
i
X de la variable X y s clases (o intervalos)
j
Y de la variable Y.
11
Denotemos por
ij
n al nmero de observaciones (o frec. absoluta) que pertenecen a la clase:
i
X -
j
Y y su frecuencia relativa se define por N n f
ij ij
/ =
Se cumple que N n
r
i
s
j
j i
=

; 1 =

r
i
s
j
j i
f donde,
n
ij
es la frecuencia absoluta para los individuos que representan la modalidad conjunta x
i

de X e y
j
de Y.
f
ij
es la frecuencia relativa para los individuos que representan la modalidad conjunta x
i
de
X e y
j
de Y.
Las frecuencias absolutas (o relativas) se resumen en una tabla de frecuencias
bidimensional llamada tambin Tabla de Contingencia o tabla de doble entrada. En total
hay s r clases.

Y
X
1
Y
2
Y
j
Y
s
Y Totales
_______________________________________________
1
X
11
n
12
n
s
n
1

1
n
2
X
21
n

i
X
ij
n
is
n
i
n

r
X
1 r
n
rj
n
rs
n
r
n
_______________________________________________
Totales
1
n
j
n


s
n

=
s
j
ij i
n n
1
;
=

=
r
i
ij j
n n
1


Las distribuciones marginales corresponden a las distribuciones de frecuencias de cada una
de las variables por separado ignorando el efecto de la otra variable.
) (x n
i
y ) ( y n
j

De todos los elementos, podemos estar interesados en un conjunto ms pequeo. Las
distribuciones condicionales consisten en determinar la distribucin de frecuencias de una
de las variables condicionada a un valor fijo o intervalo. Notacin X / Y = y; Y / X = x
La distribucin de frecuencias relativas condicionadas son:
f
i/j
=
ij
j
n
n

y f
j/i
=
ij
i
n
n



Un concepto de inters en estadstica es la Covarianza o variabilidad conjunta de dos
variables y se define por: Cov (x,y) = Y X Y X donde
N
n y x
Y X
r
i
s
j
ij j i

=


12
Observacin:
a) Si las variables son independientes entre s la covarianza es cero. El inverso no siempre
se cumple.
b) Si la Covarianza es distinto de cero entonces las variables son dependientes.
c) Si la Covarianza es positiva la dependencia es directa, es decir el aumento o
disminucin en una variable provoca el mismo efecto en la otra variable.
d) Si la Covarianza es negativa la dependencia es inversa

Un problema de la covarianza es que depende de las unidades de medida por lo que no
logramos cuantificar el grado de relacin lineal entre dos variables. Una medida
adimensional del grado de relacin lineal entre las variables X e Y es el Coeficiente de
correlacin de Pearson dada por:

[ ]
r
Cov X Y
V X V Y
=
( , )
( ) ( )
1 2


El Coeficiente de correlacin mide la intensidad de una relacin lineal entre dos variables.
En general podemos decir: (para interpretar)
r = 0 no hay correlacin lineal (no estn relacionadas linealmente)
5 . 0 0 <
XY
r existe correlacin lineal dbil
8 . 0 5 . 0 <
XY
r hay correlacin lineal aceptable
1 8 . 0 < <
XY
r existe correlacin lineal fuerte (altamente correlacionadas)
1 =
XY
r correlacin lineal perfecta.

Grfica de datos para diferentes valores de r :



13
Ejemplo 2: La siguiente distribucin de frecuencias muestra el nmero de sectores de una
determinada comuna segn: su superficie X (en km
2
) y la cantidad de residuos slidos Y
(en toneladas), evacuados mensualmente por los recolectores.


a) Construya un histograma de frecuencias para la cantidad de residuos slidos evacuados
mensualmente.
b) Para la distribucin de frecuencias de los sectores, segn superficie, calcule la media
aritmtica de la distribucin condicional de 400 350 / Y X e interprete su resultado.
c) Calcule la superficie (rea) promedio, a travs de la mediana, de los sectores en que la
cantidad de residuos slidos evacuados mensualmente flucta entre 350 y 450 toneladas.
d) La Municipalidad de dicha comuna decide aumentar la dotacin de recolectores de
basura de modo que, en cada sector se incremente en un 3% la cantidad de residuos slidos
evacuados. Calcule la varianza de la cantidad de residuos evacuados despus del aumento
de la dotacin de recolectores.
Solucin:
a)

Histograma
Cantidad de residuos slidos
N
o

s
e
c
t
o
r
e
s

d
e

l
a

c
o
m
u
n
a
0,000
1,000
2,000
3,000
4,000
5,000
6,000
7,000
<= 300 (300|350] (350|400] (400|450] (450|500] > 500














b)
( ) 8 . 1
6
8 . 10
400 350 / = =

= < < =
N
n m
Y X X
i i


Interprete Usted:



X Y 300 - 350 350 - 400 400 - 450 450 - 500
0,8 - 1,3 2 1 1 0
1,3 - 1,8 0 2 1 0
1,8 - 2,3 3 2 0 1
2,3 - 2,8 0 1 1 1
2,8 - 3,3 0 0 2 2

X
i
n
i
m
0.8 1.3
1.3 1.8
1.8 2.3
2.3 2.8
2.8 3.3
1
2
2
1
0
1.05
1.55
2.05
2.55
3.05
6

14














c) 5 . 5
2
=
N
N
i


2
e
km 925 , 1 5 , 0
2
5 5 . 5
8 . 1 = |

\
|
+ = M

















d) 850 , 2 ) 395 (
20
3177500
) (
2
= = Y V

se pide

( ) ( )
2 2
ton 0236 , 3 ) ( 03 , 1 03 , 1 = = Y V Y V




Ejercicio 3: Cul es la relacin entre la cantidad gastada por semana en alimentos y el
tamao de una familia?, Las familias grandes gastan ms en alimentos? Una muestra de 10
familias en el rea de Oregon revel los siguientes tamaos de familia e importe en dinero
gastado en alimento, en cierto perodo.

Tamao de familia 3 6 5 6 6 3 4 4 5 3
Gastos en alimentos US$ 99 104 151 129 142 111 74 91 119 91

a) Construir una tabla de doble entrada. Considere la variable cantidad gastada en alimentos
dividida en tres intervalos de clases.
b) Interprete los valores de n
21


, f
12
, n.
2
y n3.


c) Calcular e interpretar el coeficiente de variacin de gastos en alimentos.
d) Obtener la distribucin condicional de los gastos en alimentos dado que el tamao
familiar lo componen cuatro personas.
e) Calcular e interpretar el promedio de los gastos en alimentos dado que el tamao
familiar lo componen cinco personas.
f) Determinar la varianza del tamao familiar dada la cantidad gastada en alimentos.
g) Determine si existe relacin entre la cantidad gastada por semana en alimentos y el
tamao de una familia.

X
i
n
Ni
0.8 1.3
1.3 1.8
1.8 2.3
2.3 2.8
2.8 3.3
2
3
2
2
2

2
5
7
9
11

11



Y
i
m
i
n
300 350
350 400
400 450
450 500

325
375
425
475

5
6
5
4

20

Das könnte Ihnen auch gefallen