Sie sind auf Seite 1von 18

2.

ESTADSTICA DESCRIPTIVA
Estadstica descriptiva describe las regularidades o
caractersticas existentes en un conjunto de datos, organizndolos en
tablas y representaciones grficas y analizndolos mediante la
obtencin de ndices estadsticos representativos (medidas de
tendencia central y de dispersin).
2.1 Conceptos bsicos. Muestreo y tipos de muestreo.
- Poblacin: Colectivo que se desea estudiar, puede ser finita
infinita, pero normalmente incluye demasiados individuos para
poder estudiarlos a todos.
- Muestra: es el subconjunto de la poblacin sobre el que se
recogern y analizarn datos, con el objeto de extraer
conclusiones para toda la poblacin.
- Variable: caracterstica observable medida en la muestra, que
vara en la poblacin. Existen diferentes tipos de variables en
funcin de los valores que puede tomar y/o de cmo ha sido su
medicin.
- Muestreo: Es el procedimiento que permite obtener una
muestra que sea representativa de la poblacin. Se llama
muestreo aleatorio, a aqul en que los individuos son
seleccionados al azar.
a) Muestreo aleatorio simple: todos los individuos de la poblacin (N)
tienen igual probabilidad de ser elegidos. Es el ms habitual aunque
no siempre es posible realizarlo. Presenta la ventaja de que puede
asumirse la independencia de los valores observados entre los sujetos
y cuando el tamao de la poblacin es muy grande es irrelevante si
se permite o no la posibilidad de que los individuos puedan ser
reelegidos (muestreo con reemplazamiento).
b) Muestreo aleatorio sistemtico: para obtener una muestra de n
individuos, se toma un nmero aleatorio k entre 1 y h=N/n, como
integrantes de la muestra se tomaran a los individuos: K, k+h, k+2h,
k+3h, , k+(n-1)h. La muestra podra no ser representativa si los
datos dentro de los grupos estn ordenados segn alguna
caracterstica que tenga que ver con el parmetro de inters.
c) Muestreo aleatorio estratificado: Es el mtodo ideal cuando la
poblacin se divide en varios grupos o estratos cuya representacin
en la muestra se desea asegurar. Consiste en tomar una submuestra
en cada grupo manteniendo en la muestra la proporcionalidad que se
da en la poblacin.
Es decir, si N: tamao de la poblacin y N i el tamao del estrato i,
Ni N , y se desea obtener una muestra de tamao n, en cada
i

estrato se seleccionarn ni individuos, siendo ni

Ni
n
N

Este tipo de muestreo posibilita la inferencia en cada grupo, y es


tanto ms efectivo cuanto ms homogneos son los estratos

internamente, respecto a la caracterstica sobre la que se desea


inferir. Es algo ms costoso que el muestreo aleatorio simple pero
puede ser ms preciso, ya que elimina como posible fuente de sesgos
la caracterstica que define los grupos.
d) Muestreo aleatorio por conglomerados: Se eligen al azar grupos
de sujetos y se estudian todos los individuos de cada grupo
seleccionado. Los conglomerados deben ser lo ms homogneos
entre s y lo ms heterogneos posibles dentro de ellos. Se puede
reducir bastante el coste del estudio y si los conglomerados no tienen
la misma cantidad de individuos pueden establecerse pesos.

2.1 Representacin numrica.


Una vez recogida una muestra aleatoria de tamao n de una variable X,
xi n1 , los valores obtenidos se presentan y resumen mediante una tabla
de frecuencias (TDF). En una tabla de frecuencia las filas son las p
categoras distintas de la variable X obtenidas en la muestra a las que
llamaremos modalidades, ordenadas de menor a mayor.
xi: valores o modalidades de la variable registrados en la muestra.
Adems de la columna con las modalidades, la TDF debe constar de al
menos una de las columnas siguientes:
- fi: frecuencias absolutas ordinarias: nmero de casos en que se da
en la muestra cada modalidad: fi =ni
- hi: frecuencias relativas ordinarias: probabilidad de la modalidad xi:

hi

ni
n

(%)i: Porcentaje ordinario: % i 100 hi


- Fi: frecuencias absolutas acumuladas: nmero de casos que toman
i

un valor inferior a la modalidad i-sima: Fi fj Fi1 fi . Si solo se


j1

conocieran las frecuencias absolutas acumuladas, las frecuencias


absolutas ordinarias podran calcularse como: fi Fi Fi1
- Hi: frecuencias relativas acumuladas: probabilidad de tomar una
i

modalidad inferior a la i-sima: Hi hj Hi1 hi . Si solo se conocieran


j1

las frecuencias relativas acumuladas, las frecuencias relativas ordinarias


podran calcularse como: hi Hi Hi1

- (%)acum,i: Porcentaje acumulado: porcentaje de valores inferiores a


la modalidad i-sima % acum,i 100(%)i
Nota 1: los indicadores acumulados slo tienen sentido si la variable es
cuantitativa (discreta o continua).

Nota 2: Si solo se muestra una frecuencia relativa o un porcentaje como


columna en la TDF, ser necesario proporcionar tambin el nmero de
individuos en la muestra (n) para tener toda la informacin.
Nota 3: Categorizacin de una variable continua: Cuando se toma una
muestra de una variable cuantitativa continua es necesario categorizar
la variable por medio de intervalos equiespaciados para poder resumir
el resultado de la muestra en una tabla de frecuencia. En este caso la
tabla de frecuencia se realiza utilizando como modalidades los valores
llamados marcas de clase. Si se desea trabajar con k intervalos, las
respectivas marcas de clase se obtienen siguiendo los siguientes pasos.
1.) Obtener la sensibilidad. Sensibilidad es la unidad de medida o
precisin del aparato que se ha utilizado para la medicin.
2.) Calcular la Amplitud del intervalo total: A= xmax-xmin+s
3.) Se obtiene la longitud (l) de cada intervalo redondeando por exceso
A
a un mltiplo de la sensibilidad el cociente: l
k
4.) Los lmites exactos (LE) de los sucesivos intervalos se obtienen
fijando como lmite inferior del primero s 0= xmin-s/2 y sumando l
sucesivamente. Es decir los k intervalos sern:
s0 s1; s1 s2 , s2 s3 ,...
s
siendo: s0 xmin , si si1 l
2
Se llaman lmites aparentes (LA) a aquellos que tienen por
extremos valores observables.
Dados los lmites aparentes se obtienen los lmites exactos
correspondientes restando y sumando s/2 a los extremos inferior y
superior respectivos de cada intervalo.
Dados los lmites exactos se obtienen los lmites aparentes
correspondientes sumando y restando s/2 a los extremos inferior y
superior respectivos de cada intervalo.
5.) Se llama marca de clase de un intervalo a la media de sus dos
lmites exactos: xi
LE.

si si1
. Las marcas de clase coinciden con LA y
2

Alternativa: utilizar intervalos cerrados por un extremo y abiertos por el


otro siempre buscando la continuidad. Las marcas de clase sern los
puntos medios de los intervalos correspondientes. Este procedimiento
ignora el conocimiento de la precisin del aparato de medida y es el que
suele usarse con la edad.
Notar que con la edad los intervalos suelen expresarse en aos
cumplidos: 0-4 aos, 5-9 aos,, 65-70. Debe tenerse en cuenta que
en lo relativo a los clculos estos intervalos son equivalentes a [0,5[,
[5,10[,, [65, 70[.
Ejemplo 1 Durante los meses de julio y agosto,
registrado las siguientes temperaturas mximas:
32, 31, 28, 29, 33, 32, 31, 30, 31, 31, 27, 28, 29, 30,
29, 30, 30, 31, 30, 31, 34, 33, 33, 29, 29, 27, 40, 28,
32, 33, 32, 34, 34, 35, 32, 28, 29, 28, 30, 32, 31, 30,
32, 26

en una ciudad se han


32, 31, 31, 30, 30, 29,
30, 33, 27, 27, 30, 30,
30, 31, 32, 33, 36, 38,

Agrupar en 4 intervalos de igual amplitud. Presentar lmites exactos y despus


obtener los lmites aparentes.
xmin=26 ; xmax=40; s=1. Luego A=40-26+0,5=14,5.
Como se desean k=4 intervalos, la longitud de cada intervalo viene dada por el
cociente: 14,5/4=3,625. L es el mltiplo de la sensibilidad inmediatamente
superior al cociente, luego l=4.
Los extremos de los 4 intervalos se generan aadiendo l=4 al extremo inferior
que se toma por definicin xmin-s/2=26-0,5=25,5.
En nuestro caso, los 4 intervalos con lmites exactos son: 25,5-29,5 ; 29,5-33,5;
33,5-37,5; 37,5-41,5
Los 4 intervalos con lmites aparentes seran: 26-29 ; 30-33; 34-37; 37-41.
Ejemplo 2
Sea X: nmero de partos previos en una muestra de 795
embarazadas. Hubo 655 mujeres con ningn parto previo. 123 con 1 parto
previo, 16 con 2 partos previos y tan solo 1 con 3 partos previos. Construir la
tabla de frecuencia con todos sus elementos.
xi
0

fi
655

Fi
655

123

16

655+123=
778
778+16=7
94
797+1=79
5

Ejemplo 3

Ejemplo 4

hi
655/795=0,8
24
123/795=0,1
55
16/795=0,02
0
1/795=0,001

Hi
0,824
0,824+0,155=
0,979
0,979+0,02=0,
999
100%

(%)i
82,4
%
15,5
%
2%

(%)acum.,i
82,4%

0,1%

100%

97,9%
99,9%

Nota 4: Cuando la variable represente la ocurrencia de cierto fenmeno en


intervalos de tiempo consecutivos y con periodicidad constante (das,
meses, aos) se dice que se trata de una serie temporal o cronolgica. En
estos casos la presentacin numrica de los datos es una TDF sin
proporciones y porcentajes, ya que no tienen sentido en este contexto.
Adems si el fenmeno estudiado est relacionado con una poblacin cuyo
nmero de individuos ha variado a lo largo del tiempo, es conveniente
incluir en la tabla una columna que muestre el nmero de veces que ocurri
el fenmeno por cada 10k individuos.

Ejemplo 5

Tablas de contingencia
Si estudiamos dos variables [X con M modalidades e Y con M modalidades]
la variable conjunta tendr M*M modalidades y la presentacin de los datos
la haremos mediante una tabla de doble entrada [tabla de contingencia] con
contendr las modalidades y el nmero (o proporcin) de casos que
observamos de cada una de ellas.

Cada celda contiene el numero de casos que presentan a la vez una


modalidad de X y una de Y. Asi el valor 19 (f32) indica que 19 casos
presentan a la vez el valor M3 de la variable X y el valor M2 de la variable
Y.
Si sumamos todas las frecuencias de la fila 2, obtendremos el nmero de
casos en la modalidad M2 de la variable X. Esta frecuencia se denota por

f2 .

f2

2j 120

Si sumamos todas las frecuencias de la columna 3, obtendremos el nmero


de casos en la modalidad M3 de la variable Y. Esta frecuencia se denota por
f 3 .
f 3

j3

414

A las frecuencias resultantes de sumar toda una fila o columna se les llama
frecuencias marginales y proporcionan la TDF de cada una de las
variables estudiadas, Si sumamos todas las frecuencias obtendremos el
numero total de casos y lo mismo ocurre si sumamos las frecuencias
marginales de cualquiera de las dos variables estudiadas.

f f f
i

ij

i,j

687

Las tablas de contingencia pueden presentarse tambin en porcentajes,


dividiendo por la frecuencia total y multiplicando por 100. Segn la
frecuencia que se utiliza como total se obtienen diferentes resultados.
Ingresos en la unidad de obstetricia Hospital Dr Peset. Ao
1996.
Tabla 1

Evol/lu Maternidad Dilatacin Paritorio tot


gar
(M)
(D)
(P)
al
Normal

444

285

A=14

743

Otra

30

21

53

total

474

306

16

796

A: 14 ingresos ocurridos por paritorio y con evolucin no normal.

Si se divide por el total de individuos en la muestra (n total de


datos), la tabla resultante expresa la distribucin de probabilidad
conjunta de las variables X e Y. La suma de todos sus elementos ser
100.
Tabla 2

Evol/luga
r

Maternidad
(M)

Dilatacin
(D)

Paritorio
(P)

total

Normal

B=55,8

35,8

1,8

93,3

Otra

3,8

2,6

0,3

6,7

total

59,5

38,4

2,0

100

B: 55,8% de ingresos ocurridos por maternidad y con evolucin normal

Si se divide por la frecuencia marginal de la fila correspondiente, la


tabla resultante expresa la distribucin de probabilidad condicionada
a tipo de evolucin. Las nuevas frecuencias marginales por filas sern
100.
Tabla 3

Evol/luga
r

Maternidad
(M)

Dilatacin
(D)

Paritorio
(P)

total

Normal

59,76

38,36

1,88

100

Otra

56,60

39,62

C=3,77

100

total

58,18

38,99

2,83

100

C: Los ingresos por paritorio suponen un 3,77% de los ingresos con evolucin
no normal, i.e. de los ingresos con evolucin no normal, el 3,77% fueron por
paritorio.

Si se divide por la frecuencia marginal de la columna correspondiente,


la tabla resultante expresa la distribucin de probabilidad
condicionada al lugar de ingreso. Las nuevas frecuencias marginales
por columnas sern 100.
Tabla 4

Evol/luga
r

Maternidad
(M)

Dilatacin
(D)

Paritorio
(P)

total

Normal

93,67

93,14

87,50

91,44

Otra

6,33

6,86

D=12,50

8,56

total

100

100

100

100

C: Los ingresos con evolucin no normal, suponen un 12,5% de los ingresos


por paritorio, i.e. de los ingresos por paritorio, el 12,5% tienen una evolucin
no normal. El porcentaje de ingresos con evolucin no normal es casi el
doble cuando el ingreso es por paritorio que cuando es por maternidad o
dilatacin.

2.2 Representacin grfica.


Aunque la tabla de distribucin de frecuencias contiene toda la informacin
disponible en ocasiones resulta necesario presentarla mediante un grafico
para conseguir una mejor visin de conjunto.
VARIABLES CUALITATIVAS O VARIABLES CUANTITATIVAS DISCRETAS
Se basan en el principio de proporcionalidad entre reas y frecuencias.
*Diagrama de sectores
Se asocia a cada modalidad un sector circular con ngulo central
proporcional a la frecuencia de dicha modalidad. As el ngulo (i) que
corresponder a una modalidad con frecuencia f i se obtiene fcilmente
mediante la regla de tres:
fi n

i 360
Ejemplo 6: El grfico de sectores de los datos sobre trasplantes del ejemplo 3 se
muestra a continuacin. El ngulo que correspondera por ejemplo a la categora
hgado es:
112 387
360 112
104,2 grados
-> i
i 360
387

*Diagrama de barras
Sobre unos ejes coordenadas marcamos en el eje de abscisas las posibles
modalidades y sobre el eje de ordenadas la frecuencia (o porcentaje). Sobre
cada modalidad trazamos rectngulos de base constante y altura igual a la
frecuencia (o porcentaje) correspondiente [en el ejemplo
se representan las proporciones de las modalidades de la variable Lugar de
ingreso]

*Diagrama de barras dobles


Similar al diagrama de barras, se utiliza para representar conjuntamente dos
o ms variables
cualitativas y se basa en los datos recogidos en la tabla de contingencia [en
el ejemplo se representan las frecuencias/casos de las modalidades de la
variable conjunta Lugar de ingreso Evolucin del parto]

*Diagrama de barras estratificado


Presenta las modalidades de una variable condicionadas a una segunda
variable. Normalmente se expresa en porcentajes [en la primera grfica se
representan los porcentajes de las modalidades de la variable Evolucin
del parto condicionada a la variable Lugar de ingreso; en la segunda los
porcentajes
de
las
modalidades
de
la
variable
Lugar
de
ingresocondicionada a la variable Evolucin del parto]

*Grficos de secuencia de Serie temporal o perfil ortogonal se


representan en abcisas las posibles modalidades y en ordenadas las
correspondientes frecuencias (en ocasiones utilizaremos las cifras relativas
calculadas: ndices, tasas, ...). Uniendo los puntos obtenemos el perfil
ortogonal. En algunos casos hay que recurrir a una escala semi-logartmica
para que los perfiles se puedan apreciar (en la evolucin de la mortalidad en
el Camp de Turia en el eje de ordenadas se representa el logaritmo decimal
de las defunciones por 1000 habitantes).

N diario de casos de gripe en Valencia obtenidos a partir del sistema de


declaracin obligatoria (EDO) para el periodo 2006-2009.

VARIABLES CUANTITATIVAS CONTINUAS


*Histograma asociamos a cada clase o intervalo un rectangulo cuya base
sera la longitud de la clase (trabajaremos con limites exactos) y cuya rea
sera igual a la frecuencia (proporcion o porcentaje) correspondiente a dicha
clase. La altura de cada barra se vendr dada por tanto por: hi

fi
siendo ai
ai

la amplitud del intervalo correspondiente. Nota: si todos los intervalos


tienen la misma amplitud pueden utilizarse como alturas las frecuencias, es
decir: hi fi
*Polgono de frecuencias consideramos los pares formados por la marca
de cada clase y su
correspondiente frecuencia (proporcin o porcentaje). Al representar estos
puntos y unir dos
consecutivos mediante una linea recta obtenemos el poligono de
frecuencias.

*Polgono acumulativo o curva de distribucin si consideramos la


proporcin (porcentaje) de una clase uniformemente repartida a lo largo de
ella, podremos definir a la proporcin acumulada a un punto del intervalo
como:

H x

0 si x l1
h x li
Hi1 i
si li x Li
Li li
1 si x Lm

esta funcin es montona creciente y su representacin grfica la


llamaremos polgono acumulativo.

2.3 Medidas de tendencia central y de dispersin.


Son medidas numricas que se emplean para describir conjuntos de datos.
Permiten conocer la muestra y a veces detectar errores en los datos
registrados. Adems algunas de estas medidas sern la base para hacer
inferencias, esto es, para sacar conclusiones sobre el fenmeno recogido en
toda la poblacin a la que representa la muestra.
*Medidas de tendencia: Las medidas de tendencia central son aquellas que
intentan caracterizar el centro de la distribucin. Las ms importantes son la
media aritmtica, la mediana y la moda. En general para describir variables
cualitativas ninguna, salvo la moda tiene sentido. Para describir variables
cuantitativas son muy tiles, sobre todo las dos primeras.
*Medidas de dispersin: son aquellas que cuantifican la dispersin de los
datos observados (recorrido, intervalo intercuartlico, varianza y coeficiente
de variacin)
* Media aritmtica: es la suma de las observaciones en todos los
individuos, dividido por el tamao muestral:
xi fi
x

Es decir, supuesta una barra sin peso que empezara en el dato de menor
valor y acabara en el de mximo, si se colocaran en las posiciones
correspondientes a los datos tantos kilos como su frecuencia, la media
aritmtica sera el punto dnde se ha de apoyar la barra para que sta se
mantuviera en equilibrio.
Ejemplo 6: X: nmero de hijos en 500 mujeres entre 20 y 30 aos

x f
i

0175 1* 225 275 325


0,9
500

Nota: Caso de calcular la media aritmtica de una distribucin cuantitativa


continua, a partir de su tabla de frecuencia, como x i se utilizarn las marcas
de clase de los intervalos.
Propiedades de la media:
- La media aritmtica se mide en las mismas unidades de la variable y
se ubica entre el mnimo y el mximo de los valores recogidos.
- La media depende directamente de los valores de la variable, por lo
que es sensible a datos extremos, de hecho cuando se dan este tipo
de valores o bien la distribucin no es simtrica se recomienda no
usar la media sino la mediana como medida de tendencia central.
- La
media
aritmtica
es
un
operador
lineal:
Z a bX cY

z a bx cy

Cuando se incorporan nuevos datos, x2, a una muestra, x1, la media


aritmtica tambin puede actualizarse, sin necesidad de ser
recalculada: x

x1N1 x2 N2
N

la suma de las desviaciones en torno a la media es cero:

x x 0
i

Ejemplo 7: En una variable dicotmica (0: fracaso, 1: xito) la probabilidad


muestral de xito es tambin la media. Por ejemplo si en una muestra de 280
individuos, 93 resultaron afectados de cierta enfermedad, la probabilidad de
enfermar: 93/280, sera el resultado de sumar todos los valores de la variable, o sea
todos los 1 y dividir por el total.
Ejemplo 8: X=N de lesiones causadas por el virus de la viruela en membranas
ovulares.
N de
lesiones

Marca de
clase(xi)

fi

hi

Fi

Hi

[0,10)
[10, 20)
[20, 30)
[30,40)
[40,50]
[50, 60)
[60, 70)
[70, 80)
[80, 90)
[90, 100)
[100, 110)
[110, 120)
totales

5
15
25
35
45
55
65
75
85
95
105
115

1
6
14
14
17
8
9
3
6
1
0
1
80

0,0125
0,075
0,175
0,175
0,2125
0,1
0,1125
0,0375
0,075
0,0125
0
0,0125
1,00

1
7
21
35
52
60
69
72
78
79
79
80

0,0125
0,0875
0,2625
0,4375
0,65
0,75
0,8625
0,9
0,975
0,9875
0,9875
1

5 156 2514 3514 4517 558 659 753 856 95 115


45,875
80

Ejemplo 9: Supongamos que la media de ingresos urgentes diarios en un hospital


es 10, Cul es la media de ingresos semanales?
X=N de ingresos urgentes, Y=n de ingresos semanales, Y=7X -> y 7x 70
Ejemplo 10: Supongamos que la media de ingresos diarios por causas circulatorias
en Valencia es 9 y por causas respiratorias es 3. Entonces la media de ingresos por
causas cardio-respiratorias sera 12:
X=N de ingresos circulatorios, Y=n de ingresos respiratorios, Z=n de ingresos
cardio-respiratorios Z=X+Y -> z 9 3 12.
Ejemplo 11: Supongamos una muestra de 20 datos en los que la media muestral
result 18, se obtienen 10 nuevos datos que tienen una media de 16, la media
aritmtica del conjunto es:

1820 1610
17,33
30

* Mediana: Es el valor de la variable que deja atrs la mitad de la


frecuencia, o dicho de otro modo, es el primer valor de la variable que

divide a la muestra en dos grupos con el mismo nmero de individuos.


Cuando no es posible, se prefiere dejar por debajo algo ms que hacerlo por
delante. Es decir, colocados en orden ascendente y tantas veces como se
repiten en la muestra, la mediana sera el dato central. Si se tratara de una
muestra con un nmero par de datos por convenio se da como mediana la
media aritmtica de los dos valores en torno al centro.
Cuando se calcula la mediana partiendo de una tabla de frecuencia, se hace
segn las siguientes reglas:
- En variables discretas: Se da como mediana el primer valor que tiene una
frecuencia absoluta acumulada superior a n/2. De existir un dato con
frecuencia absoluta acumulada exactamente igual a n/2, se da como
mediana la media entre dicho valor y el siguiente
Ejemplo 12:

Me 1

Me 1,5

- En variables continuas se calcula mediante la frmula

Me li (Li li)

n/ 2 Hi1
hi

Hi-1 0,5 Hi

La frmula viene de haber aplicado la ley de proporcionalidad de tringulos


sobre el polgono de frecuencias acumulado:
Ejemplo 13: Calcular la mediana de la siguiente distribucin.

n/2=250. Luego la mediana est entre 1 y 2:

Propiedades de la Mediana
- La mediana no depende de los valores de la variable, tan solo de la
frecuencia con la que se dan, por lo que no es sensible a datos
extremos.
- En caso de distribuciones simtricas, la media y la mediana toman el
mismo valor. En caso de distribuciones asimtricas, la mediana es
mejor medida de tendencia central que la media.
- En el mismo sentido que la mediana puede trabajarse con otro
porcentaje del tamao muestral y calcular los llamados percentiles.
Algunos percentiles, muy usados, tienen nombres especiales. Por
ejemplo se llaman cuartiles (Q1,Q2,Q3) a los valores que separan la
distribucin en 4 partes con igual frecuencia, es decir a los valores
que dejan atrs respectivamente el 25, el 50 y el 75% de los datos.
Los deciles (D1,,D9) son los puntos que separan a la distribucin en
10 partes con igual frecuencia.
- Los percentiles se calculan igual que la mediana sin ms que cambiar
n/2 por la fraccin de la frecuencia correspondiente. Por ejemplo si se
va a calcular el percentil 25, n/2 se sustituir por 25n/100, es decir
por n/4.
* Moda: es el valor ms frecuente de la muestra. Si la variable es continua
hablamos de intervalo modal.
Propiedades de la Moda
La moda no tiene porqu ser nica, las distribuciones con una sola
moda se llaman unimodales.
En caso de distribuciones simtricas y unimodales, la media, la
mediana y la moda coinciden
Ejemplo 14:

Mo 1

Mo 2

* Varianza: es una medida de alejamiento de los valores de la variable con


respecto a la media

Var(x) S
2
x

Propiedades de la Varianza

x x
i

fi

- El clculo anterior es equivalente a: S2


x

2
i

fi

x2

-Se mide en las unidades de la variable al cuadrado.


-La varianza es un operador cuadrtico, que no depende de los cambios de
origen. Es decir: Var(AX+B)=A 2Var(x)
-La varianza de la suma de dos variables solo es igual a la suma de las
varianzas en el caso en que las dos variables son independientes.
* desviacin tpica: Es la raz cuadrada positiva de la varianza:
Sx Var(x)
Propiedades de la desviacin tpica
- La desviacin tpica se mide en las mismas unidades que la variable. Por
tanto, es comparable con la media de la distribucin. Cuando la variable es
simtrica sin datos extremos suele darse como rango habitual de los
valores de la variable como: x S
Ejemplo 15:

x 0,9
225 4 75 9 25
S2x
0,92 0,69
500

x 1,2
75

4 225 9 25
S2x
1,22 0,96
500

Sx 0,69 0,83

Sx 0,96 0,98

* Coeficiente de variacin: es una medida relativa de dispersin que


permite as comparar la dispersin entre dos variables.
Ejemplo 16:

Supongamos que deseamos saber si el peso dentro de una muestra de


obesos, es ms variable que el peso dentro de una muestra de anorxicos.
En la primera muestra la desviacin tpica es de 6 kilos y en la segunda es
de 3, el peso medio en la primera muestra es de 100 kg, mientras que en la
segunda es de 40 kg. As pues, el peso en la muestra de anorxicos es ms
variable en trminos relativos. (CV(anorxicos)=0.075; CV(obesos)=0.06).
* Recorrido: diferencia entre el mnimo y el mximo: R=x max-xmin
* Rango intercuartlico: diferencia entre el percentil primero y tercero:
RI= Q3-Q1

El rango intercuartlico es el rango del 50% centrado de la muestra. Un RI


pequeo indica que los valores estn muy concentrados en torno a la
mediana.

Das könnte Ihnen auch gefallen