Sie sind auf Seite 1von 42

CUALITATIVAS CUANTITATIVAS

NOMINAL ORDINAL INTERVALO RAZON CONTINUAS DISCRETAS

Denota una caracteristica Denota Orden y/o jerarquia El 0 es arbitrario El 0 es no es arbitario El rango los datos se comportan de manera infinita. Los datos se presentan con decimales. El rango los datos se comportan de manera finita. Los datos son nuemros enteros.

Ejemplo Ejemplo Ejemplo Ejemplo Ejemplo Ejemplo

Genero IMC, Nivel socieconomico La temperatura El peso, la edad. Peso; 3,78 Kg Numero de Hijos

LOS DATOS Alumno Alumno 1 Alumno 2 Alumno 3 Alumno 4 Alumno 5 Alumno 6 Alumno 7 Alumno 8 Alumno 9 Alumno 10 Alumno 11 Alumno 12 Alumno 13 Alumno 14 Alumno 15 Alumno 16 Alumno 17 Alumno 18 Alumno 19 Alumno 20 Alumno 21 Alumno 22 Alumno 23 Alumno 24 Alumno 25 Alumno 26 Alumno 27 Alumno 28 Alumno 29 Alumno 30 Estatura 1.25 1.28 1.27 1.21 1.22 1.29 1.3 1.24 1.27 1.29 1.23 1.26 1.3 1.21 1.28 1.3 1.22 1.25 1.2 1.28 1.21 1.29 1.26 1.22 1.28 1.27 1.26 1.23 1.22 1.21

PRIMER PASO ORDENAR Alumno Alumno 19 Alumno 4 Alumno 14 Alumno 21 Alumno 30 Alumno 5 Alumno 17 Alumno 24 Alumno 29 Alumno 11 Alumno 28 Alumno 8 Alumno 1 Alumno 18 Alumno 12 Alumno 23 Alumno 27 Alumno 3 Alumno 9 Alumno 26 Alumno 2 Alumno 15 Alumno 20 Alumno 25 Alumno 6 Alumno 10 Alumno 22 Alumno 7 Alumno 13 Alumno 16 Estatura 1.2 1.21 1.21 1.21 1.21 1.22 1.22 1.22 1.22 1.23 1.23 1.24 1.25 1.25 1.26 1.26 1.26 1.27 1.27 1.27 1.28 1.28 1.28 1.28 1.29 1.29 1.29 1.3 1.3 1.3

AGRUPAR LOS DATOS POR FRECUENCIAS Variable (Valor) 1.2 1.21 1.22 1.23 1.24 1.25 1.26 1.27 1.28 1.29 1.3

LOS DATOS Alumno Alumno 1 Alumno 2 Alumno 3 Alumno 4 Alumno 5 Alumno 6 Alumno 7 Alumno 8 Alumno 9 Alumno 10 Alumno 11 Alumno 12 Alumno 13 Alumno 14 Estatura 1.15 1.16 1.17 1.18 1.19 1.2 1.21 1.22 1.24 1.25 1.26 1.26 1.27 1.28

Si los valores que toma la variable son muy diversos y cada uno de ellos se repite muy pocas veces, entonces conviene agruparlos por intervalos, ya que de otra manera obtendramos una tabla de frecuencia muy extensa que aportara muy poco valor a efectos de sntesis.

Variable (Valor) 1,15 a 1,19 1,20 a 1.25 1,26 a 1.29 1,30 a 1,34 1.35 a 1,39 > 1.40

Frecuencias absolutas Simple 5 4 6 5 5 7 32 Acumulada 5 9 15 20 25 32

Frecuencias relativas Simple 15.6% 12.5% 18.8% 15.6% 15.6% 21.9%

Alumno 15 Alumno 16 Alumno 17 Alumno 18 Alumno 19 Alumno 20 Alumno 21 Alumno 22 Alumno 23 Alumno 24 Alumno 25 Alumno 26 Alumno 27 Alumno 28 Alumno 29 Alumno 30 Alumno 31 Alumno 32

1.29 1.3 1.31 1.32 1.33 1.34 1.35 1.36 1.37 1.38 1.39 1.4 1.41 1.42 1.43 1.44 1.44 1.45
El nmero de agrupaciones por intervalos o tramos en los que se consolida la informacin es una decisin que debe tomar el analista: la regla es que mientras ms tramos se utilicen menos informacin se pierde, pero puede que menos representativa e informativa sea la tabla.

AGRUPAR LOS DATOS POR FRECUENCIAS Frecuencias absolutas Simple 1 4 4 2 1 2 3 3 4 3 3 Acumulada 1 5 9 11 12 14 17 20 24 27 30 Frecuencias relativas Simple 3% 13% 13% 7% 3% 7% 10% 10% 13% 10% 10% Acumulada 3% 17% 30% 37% 40% 47% 57% 67% 80% 90% 100%

muy diversos y cada uno de ellos se

ne agruparlos por intervalos, ya que

la de frecuencia muy extensa que

ntesis.

Frecuencias relativas Acumulada 16% 28% 47% 63% 78% 100%

o tramos en los que se consolida la

el analista: la regla es que mientras ms

de, pero puede que menos representativa

Alumno Alumno 1 Alumno 2 Alumno 3 Alumno 4 Alumno 5 Alumno 6 Alumno 7 Alumno 8 Alumno 9 Alumno 10 Alumno 11 Alumno 12 Alumno 13 Alumno 14 Alumno 15 Alumno 16 Alumno 17 Alumno 18 Alumno 19

Estatura 1.2 1.2 1.2 1.3 1.3 1.4 1.4 1.4 1.5 1.5 1.6 1.6 1.6 1.7 1.7 1.8 1.8 1.9 2

Media: es el valor medio ponderado de la serie de datos. Se pueden calcular diversos tipos de media, siendo las ms utilizadas: a) Media aritmtica: se calcula multiplicando cada valor por el nmero de veces que se repite. La suma de todos estos productos se divide por el total de datos de la muestra

b) Media geomtrica: se eleva cada valor al nmero de veces que se ha repetido. Se multiplican todo estos resultados y al producto fiinal se le calcula la raz "n" (siendo "n" el total de datos de la muestra).

A Estatura 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2

B Frecuencia 3 2 3 2 3 2 2 1 1 19

Calcular Medias Aritmetica Geometrica n B Sum(A*B/n) RAIZ (A ) 3.6 2.6 4.2 3 4.8 3.4 3.6 1.9 2 1.53 1.728 1.69 2.744 2.25 4.096 2.89 3.24 1.9 2 1.51

Mediana: es el valor de la serie de datos que se sita justamente en el centro de la muestra (un 50% de valores son inferiores y otro 50% son superiores). No presentan el problema de estar influido por los valores extremos, pero en cambio no utiliza en su clculo toda la informacin de la serie de datos (no pondera cada valor por el nmero de veces que se ha repetido).

La mediana es 1,5
Moda: es el valor que ms se repite en la muestra.

Hay valores que se repiten 3 veces. Hay 3 modas.

erie de datos. Se pueden s utilizadas:

da valor por el nmero de productos se divide por el

mero de veces que se ha s y al producto fiinal se le de la muestra).

Las medidas de posicin no centrales permiten conocer otros puntos caractersticos de la distribucin que no son los valores centrales. Entre otros indicadores, se suelen utilizar una serie de valores que dividen la muestra en tramos iguales: Cuartiles: son 3 valores que distribuyen la serie de datos, ordenada de forma creciente o decreciente, en cuatro tramos iguales, en los que cada uno de ellos concentra el 25% de los resultados.

Deciles: son 9 valores que distribuyen la serie de datos, ordenada de forma creciente o decreciente, en diez tramos iguales, en los que cada uno de ellos concentra el 10% de los resultados.

Percentiles: son 99 valores que distribuyen la serie de datos, ordenada de forma creciente o decreciente, en cien tramos iguales, en los que cada uno de ellos concentra el 1% de los resultados. Percentil 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 Percentil 1 Percentil 2 Percentil 3 Percentil 4 Percentil 5 Percentil 6 Percentil 7 Percentil 8 Percentil 9 Percentil 10 Percentil 11 Percentil 12 Percentil 13 Percentil 14 Percentil 15 Percentil 16 Percentil 17 Percentil 18 Percentil 19 Percentil 20 Percentil 21 Percentil 22 Percentil 23 Percentil 24 Percentil 25 Percentil 26 Percentil 27 Percentil 28 Percentil 29 Percentil 30 Percentil 31 Decil 3 Cuartil 1 Decil 2 Decil 1

32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80

Percentil 32 Percentil 33 Percentil 34 Percentil 35 Percentil 36 Percentil 37 Percentil 38 Percentil 39 Percentil 40 Percentil 41 Percentil 42 Percentil 43 Percentil 44 Percentil 45 Percentil 46 Percentil 47 Percentil 48 Percentil 49 Percentil 50 Percentil 51 Percentil 52 Percentil 53 Percentil 54 Percentil 55 Percentil 56 Percentil 57 Percentil 58 Percentil 59 Percentil 60 Percentil 61 Percentil 62 Percentil 63 Percentil 64 Percentil 65 Percentil 66 Percentil 67 Percentil 68 Percentil 69 Percentil 70 Percentil 71 Percentil 72 Percentil 73 Percentil 74 Percentil 75 Percentil 76 Percentil 77 Percentil 78 Percentil 79 Percentil 80 Cuartil 3 Decil 7 Decil 6 Cuartil 2 Decil 5 Decil 4

81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100

Percentil 81 Percentil 82 Percentil 83 Percentil 84 Percentil 85 Percentil 86 Percentil 87 Percentil 88 Percentil 89 Percentil 90 Percentil 91 Percentil 92 Percentil 93 Percentil 94 Percentil 95 Percentil 96 Percentil 97 Percentil 98 Percentil 99

Decil 8

Decil 9

Las medidas de forma permiten conocer que forma tiene la curva que representa la serie de datos de la muestra. En concreto, siguientes caractersticas de la curva:

a) Concentracin: mide si los valores de la variable estn ms o menos uniformemente repartidos a lo largo de la muestra.

b) Asimetra: mide si la curva tiene una forma simtrica, es decir, si respecto al centro de la misma (centro de simetra) los se quedan a derecha e izquierda son similares.

c) Curtosis: mide si los valores de la distribucin estn ms o menos concentrados alrededor de los valores medios de la muestr a) Concentracin

Para medir el nivel de concentracin de una distribucn de frecuencia se pueden utilizar distintos indicadores, entre ellos el Indice

Este ndice se calcula aplicando la siguiente frmula:

IG =

S (pi - qi) ----------------------------

S pi (i toma valores entre 1 y n-1) En donde pi mide el pocentaje de individuos de la muestra que presentan un valor igual o inferior al de xi.

pi =

n1 + n2 + n3 + ... + ni ---------------------------n

x 100

Mientras que qi se calcula aplicando la siguiente frmula:

qi =

(X1*n1) + (X2*n2) + ... + (Xi*ni) ------------------------------------ x 100 ----------------(X1*n1) + (X2*n2) + ... + (Xn*nn)

El Indice Gini (IG) puede tomar valores entre 0 y 1:

IG = 0 : concentracin mnima. La muestra est unifomemente repartida a lo largo de todo su rango. IG = 1 : concentracin mxima. Un slo valor de la muestra acumula el 100% de los resultados.

Ejemplo: vamos a calcular el Indice Gini de una serie de datos con los sueldos de los empleados de una empresa (millones peset

Sueldos (Millones) 3.5

Empleados (Frecuencias absolutas) Simple 10 Acumulada 10

Frecuencias relativas Simple 25.00% Acumulada 25.00%

4.5 6 8 10 15 20

12 8 5 3 1 1

22 30 35 38 39 40

30.00% 20.00% 12.50% 7.50% 2.50% 2.50%

55.00% 75.00% 87.50% 95.00% 97.50% 100.00%

Xi 3.5 4.5 6 8 10 15 25

ni
10 12 8 5 3 1 1

S ni 10 22 30 35 38 39 40

pi
25 55 75 87.5 95 97.5 100 435

S pi (entre 1 y n-1) =

Xi * ni 35 54 48 40 30 15 25 x

S Xi * ni 35 89 137 177 207 222 247

qi
13.6 36.0 55.5 71.7 83.8 89.9 100.0

S (pi - qi) (entre 1 y n-1 )

Sueldos (Millones) 3.5 4.5 6 8 10 15 20

Empleados (Frecuencias absolutas) Simple Acumulada 10 10 10 20 8 28 5 33 3 36 0 36 4 40

Frecuencias relativas Simple Acumulada 25.00% 25.00% 25.00% 50.00% 20.00% 70.00% 12.50% 82.50% 7.50% 90.00% 0.00% 90.00% 10.00% 100.00%

Xi 3.5 4.5 6 8 10 15 25

ni
10 10 8 5 3 0 4

S ni 10 20 28 33 36 36 40 S pi (entre 1 y n-1) =

pi
25.0 50.0 70.0 82.5 90.0 90.0 100.0 407.5

Xi * ni 35 45 48 40 30 0 100 x

S Xi * ni 35
80 128 168 198 198 298

qi
11.7 26.8 43.0 56.4 66.4 66.4 100.0

S (pi - qi) (entre 1 y n-1 )

507.5
b) Asimetra

Hemos comentado que el concepto de asimetra se refiere a si la curva que forman los valores de la serie presenta la misma fo izquierda y derecha de un valor central (media aritemtica)

Para medir el nivel de asimetra se utiliza el llamado Coeficiente de Asimetra de Fisher, que viene definido:

Los resultados pueden ser los siguientes:

g1 = 0 (distribucin simtrica; existe la misma concentracin de valores a la derecha y a la izquierda de la media) g1 > 0 (distribucin asimtrica positiva; existe mayor concentracin de valores a la derecha de la media que a su izquierda) g1 < 0 (distribucin asimtrica negativa; existe mayor concentracin de valores a la izquierda de la media que a su derecha)

Ejemplo: Vamos a calcular el Coefiente de Asimetra de Fisher de la serie de datos referidos a la estatura de un grupo de alumno Variable (Valor) x 1.2 1.21 1.22 1.23 1.24 1.25 1.26 1.27 1.28 1.29 1.3 x Frecuencias absolutas Frecuencias relativas Simple Acumulada Simple Acumulada x x x 1 1 3.30% 3.30% 4 5 13.30% 16.60% 4 9 13.30% 30.00% 2 11 6.60% 36.60% 1 12 3.30% 40.00% 2 14 6.60% 46.60% 3 17 10.00% 56.60% 3 20 10.00% 66.60% 4 24 13.30% 80.00% 3 27 10.00% 90.00% 3 30 10.00% 100.00%

c) Curtosis

El Coeficiente de Curtosis analiza el grado de concentracin que presentan los valores alrededor de la zona central de la distribu Se definen 3 tipos de distribuciones segn su grado de curtosis:

Distribucin mesocrtica: presenta un grado de concentracin medio alrededor de los valores centrales de la variable (el mismo Distribucin leptocrtica: presenta un elevado grado de concentracin alrededor de los valores centrales de la variable.
Distribucin platicrtica: presenta un reducido grado de concentracin alrededor de los valores centrales de la variable.

El Coeficiente de Curtosis viene definido por la siguiente frmula:

Los resultados pueden ser los siguientes:

g2 = 0 (distribucin mesocrtica). g2 > 0 (distribucin leptocrtica). g2 < 0 (distribucin platicrtica).


Ejemplo: Vamos a calcular el Coefiente de Curtosis de la serie de datos referidos a la estatura de un grupo de alumnos (leccin 2): Variable (Valor) x 1.2 1.21 1.22 1.23 1.24 1.25 1.26 1.27 1.28 1.29 1.3 x Frecuencias absolutas Frecuencias relativas Simple Acumulada Simple Acumulada x x x 1 1 3.30% 3.30% 4 5 13.30% 16.60% 4 9 13.30% 30.00% 2 11 6.60% 36.60% 1 12 3.30% 40.00% 2 14 6.60% 46.60% 3 17 10.00% 56.60% 3 20 10.00% 66.60% 4 24 13.30% 80.00% 3 27 10.00% 90.00% 3 30 10.00% 100.00%

Recordemos que la media de esta muestra es 1,253 S((xi xm)^4)*ni x x 0.00004967 Luego: g2 = (1/30) * 0,00004967 ((1/30) * (0,03046667))^2 -3 -1.39

S((xi - xm)^2)*ni 0.03046667

Por lo tanto, el Coeficiente de Curtosis de esta muestra es -1,39, lo que quiere decir que se trata de una distribucin platicrtica, es decir, con una reducida concentracin alrededor de los valores centrales de la distribucin.

erie de datos de la muestra. En concreto, podemos estudiar las

repartidos a lo largo de la muestra.

o de la misma (centro de simetra) los segmentos de curva que

dedor de los valores medios de la muestra.

distintos indicadores, entre ellos el Indice de Gini.

o inferior al de xi.

odo su rango.

sultados.

mpleados de una empresa (millones pesetas).

pi - qi
11.4 19.0 19.5 15.8 11.2 7.6 84.6

IG

0.194385965

pi - qi
13.3 23.2 27.0 26.1 23.6 23.6 136.69

IG

0.335435583

s valores de la serie presenta la misma forma a

er, que viene definido:

y a la izquierda de la media)

cha de la media que a su izquierda)

ierda de la media que a su derecha)

ridos a la estatura de un grupo de alumnos (leccin 2):

s alrededor de la zona central de la distribucin.

s valores centrales de la variable (el mismo que presenta una distribucin normal).

os valores centrales de la variable.

s valores centrales de la variable.

Rango: mide la amplitud de los valores de la muestra y se calcula por diferencia entre el valor ms elevado y el valor ms bajo.

Varianza: Mide la distancia existente entre los valores de la serie y la media. Se calcula como sumatorio de las difrenci cuadrado entre cada valor y la media, multiplicadas por el nmero de veces que se ha repetido cada valor. El sumatorio obteni divide por el tamao de la muestra. La varianza siempre ser mayor que cero. Mientras ms se aproxima a cero, ms concentr estn los valores de la serie alrededor de la media. Por el contrario, mientras mayor sea la varianza, ms dispersos estn.

Desviacin tpica: Se calcula como raz cuadrada de la varianza. Coeficiente de varizacin de Pearson: se calcula como cociente entre la desviacin tpica y la media. POBLACION N 1 Promedio Xn - Promedio 1.531578947 -0.331578947 1.531578947 -0.331578947 1.531578947 -0.331578947 1.531578947 -0.231578947 1.531578947 -0.231578947 1.531578947 -0.131578947 1.531578947 -0.131578947 1.531578947 -0.131578947 1.531578947 -0.031578947 1.531578947 -0.031578947 1.531578947 0.068421053 1.531578947 0.068421053 1.531578947 0.068421053 1.531578947 0.168421053 1.531578947 0.168421053 1.531578947 0.268421053 1.531578947 0.268421053 1.531578947 0.368421053 1.531578947 0.468421053 -1.9984E-15

Xn 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 SUMA RANGO N Valores PROMEDIO CURTOSIS ASIMETRIA 1.2 1.2 1.2 1.3 1.3 1.4 1.4 1.4 1.5 1.5 1.6 1.6 1.6 1.7 1.7 1.8 1.8 1.9 2 29.1 0.8 19 1.531578947 -0.858713016 0.264129257

(X-Promedio)2 0.109944598 0.109944598 0.109944598 0.053628809 0.053628809 0.017313019 0.017313019 0.017313019 0.00099723 0.00099723 0.00468144 0.00468144 0.00468144 0.028365651 0.028365651 0.072049861 0.072049861 0.135734072 0.219418283 1.061052632

Raiz de la Varianza DESVIACION Desviac/promedio COEFICIENTE VARIACION

Xn 1 2 3 1.2 1.2 1.2

POBLACION N 2 Promedio Xn - Promedio 1.595652174 -0.395652174 1.595652174 -0.395652174 1.595652174 -0.395652174

(X-Promedio)2 0.156540643 0.156540643 0.156540643

4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 SUMA RANGO N Valores PROMEDIO CURTOSIS

1.3 1.3 1.4 1.4 1.4 1.5 1.5 1.6 1.6 1.6 1.7 1.7 1.8 1.8 1.9 1.9 1.9 1.9 1.9 2 36.7 0.8 23 1.595652174 -1.341790811

1.595652174 1.595652174 1.595652174 1.595652174 1.595652174 1.595652174 1.595652174 1.595652174 1.595652174 1.595652174 1.595652174 1.595652174 1.595652174 1.595652174 1.595652174 1.595652174 1.595652174 1.595652174 1.595652174 1.595652174

-0.295652174 -0.295652174 -0.195652174 -0.195652174 -0.195652174 -0.095652174 -0.095652174 0.004347826 0.004347826 0.004347826 0.104347826 0.104347826 0.204347826 0.204347826 0.304347826 0.304347826 0.304347826 0.304347826 0.304347826 0.404347826 2.44249E-15

0.087410208 0.087410208 0.038279773 0.038279773 0.038279773 0.009149338 0.009149338 1.89036E-05 1.89036E-05 1.89036E-05 0.010888469 0.010888469 0.041758034 0.041758034 0.092627599 0.092627599 0.092627599 0.092627599 0.092627599 0.163497164 1.509565217

Raiz de la Varianza DESVIACION Desviac/promedio COEFICIENTE VARIACION

RANGO PROMEDIO DESVIAC COEF VAR

POB N 1 0.8 1.531578947 1.03007409 67.3%

POB N 2 0.8 1.595652174 1.228643649 77.0%

0.071437767

or ms elevado y el valor ms bajo.

ula como sumatorio de las difrencias al tido cada valor. El sumatorio obtenido se s se aproxima a cero, ms concentrados varianza, ms dispersos estn.

y la media.

1.03007409 67.3%

1.23 77.0%

Distribuciones bidimensionales

Las distribuciones bidimensionales son aquellas en las que se estudian al mismo tiempo dos variables de cada elemento d poblacin: por ejemplo: peso y altura de un grupo de estudiantes; superficie y precio de las viviendas de una ciudad; potenc velocidad de una gama de coches deportivos. Estatura / Peso 1,21 cm 1,22 cm 1,23 cm 1,24 cm 1,25 cm 1,26 cm 1,27 cm 1,28 cm 1,29 cm 1,30 cm

31 kg 0 0 0 0 1 0 2 0 3 0

32 kg 0 1 0 2 1 0 1 1 0 0

33 kg 1 1 0 1 1 0 0 1 1 0

34 kg 2 0 0 0 0 0 2 0 1 2

35 kg 0 1 0 0 0 0 1 1 1 1

Distribuciones marginales
Al analizar una distribucin bidimensional, uno puede centrar su estudio en el comportamiento de una de las variables, independencia de como se comporta la otra. Estaramos as en el anlisis de una distribucin marginal. De cada distribucin bidimensional se pueden deducir dos distribuciones marginales: una correspondiente a la variable x, y correspondiente a la variable y.

a) Distribucin marginal de la variable X (estatura) Obtenemos la siguiente tabla de frecuencia:

Variable (Estatura)
xx xx

Frecuencias absolutas Simple Acumulada


xx xx

Frecuencias relativas Simple Acumulada


xx

1.21 1.22 1.23 1.24 1.25 1.26 1.27 1.28 1.29 1.3

3 3 0 3 3 0 6 3 6 3

3 6 6 9 12 12 18 21 27 30

10.00% 10.00% 0.00% 10.00% 10.00% 0.00% 20.00% 10.00% 20.00% 10.00%

10.00% 20.00% 20.00% 30.00% 40.00% 40.00% 60.00% 70.00% 90.00% 100.00%

b) Distribucin marginal de la variable Y (peso) Obtenemos la siguiente tabla de frecuencia: Variable (Peso)
xx xx

Frecuencias absolutas Simple Acumulada


xx xx

Frecuencias relativas Simple Acumulada


xx

31 32 33 34 35

6 6 6 7 5

6 12 18 25 30

20.00% 20.00% 20.00% 23.30% 16.60%

20.00% 40.00% 60.00% 83.30% 100.00%

o dos variables de cada elemento de la las viviendas de una ciudad; potencia y

rtamiento de una de las variables, con ucin marginal.

na correspondiente a la variable x, y otra

Coeficiente de correlacin lineal


En una distribucin bidimensional puede ocurrir que las dos variables guarden algn tipo de relacin entre si.

Por ejemplo, si se analiza la estatura y el peso de los alumnos de una clase es muy posible que exista relacin entre ambas varia ms alto sea el alumno, mayor ser su peso.

El coeficiente de correlacin lineal mide el grado de intensidad de esta posible relacin entre las variables. Este coeficiente se la relacin que puede existir entre las varables es lineal (es decir, si representaramos en un gfico los pares de valores de las do nube de puntos se aproximara a una recta).

No obstante, puede que exista una relacin que no sea lineal, sino exponencial, parablica, etc. En estos casos, el coeficiente d lineal medira mal la intensidad de la relacin las variables, por lo que convendra utilizar otro tipo de coeficiente ms apropiado.

Para ver, por tanto, si se puede utilizar el coeficiente de correlacin lineal, lo mejor es representar los pares de valores en un gr forma describen.

El coeficiente de correlacin lineal se calcula aplicando la siguiente frmula:

Es decir:

Numerador: se denomina covarianza y se calcula de la siguiente manera: en cada par de valores (x,y) se multiplica la "x" menos la "y" menos su media. Se suma el resultado obtenido de todos los pares de valores y este resultado se divide por el tamao de la Denominador se calcula el produto de las varianzas de "x" y de "y", y a este produto se le calcula la raz cuadrada. Los valores que puede tomar el coeficiente de correlacin "r" son: -1 < r < 1

Si "r" > 0, la correlacin lineal es positiva (si sube el valor de una variable sube el de la otra). La correlacin es tanto ms fuerte c aproxime a 1. Por ejemplo: altura y peso: los alumnos ms altos suelen pesar ms.

Si "r" < 0, la correlacin lineal es negativa (si sube el valor de una variable disminuye el de la otra). La correlacin negativa es tan cuanto ms se aproxime a -1. Por ejemplo: peso y velocidad: los alumnos ms gordos suelen correr menos.

Si "r" = 0, no existe correlacin lineal entre las variables. Aunque podra existir otro tipo de correlacin (parablica, exponencial,

De todos modos, aunque el valor de "r" fuera prximo a 1 o -1, tampoco esto quiere decir obligatoriamente que existe una relac efecto entre las dos variables, ya que este resultado podra haberse debido al puro azar.

Ejemplo: vamos a calcular el coeficiente de correlacin de la siguiente serie de datos de altura y peso de los alumnos de una clase

Alumno Alumno 1 Alumno 2 Alumno 3 Alumno 4 Alumno 5 Alumno 6 Alumno 7 Alumno 8 Alumno 9 Alumno 10

Estatura 1.25 1.28 1.27 1.21 1.22 1.29 1.3 1.24 1.27 1.29

Peso 32 33 34 30 32 35 34 32 32 35

Alumno Alumno 11 Alumno 12 Alumno 13 Alumno 14 Alumno 15 Alumno 16 Alumno 17 Alumno 18 Alumno 19 Alumno 20

Estatura 1.25 1.28 1.27 1.21 1.22 1.29 1.3 1.24 1.27 1.29

Peso 33 35 34 30 33 34 35 32 33 33

Alumno Alumno 21 Alumno 22 Alumno 23 Alumno 24 Alumno 25 Alumno 26 Alumno 27 Alumno 28 Alumno 29 Alumno 30

Aplicamos la frmula:

r=
Luego,

(1/30) * (0,826) (((1/30)*(0,02568)) * ((1/30)*(51,366)))^(1/2)

r=

0.719

Por lo tanto, la correlacin existente entre estas dos variables es elevada (0,7) y de signo postivo. Representamos en un grfico los pares de valores de una distribucin bidimensional: la variable "x" en el eje horizontal o eje de abcisa, y la variable "y" en el eje vertical, o eje de ordenada. Vemos que la nube de puntos sigue una tendencia lineal:

El coeficiente de correlacin lineal nos permite determinar si, efectivamente, existe


relacin entre las dos variables. Una vez que se concluye que s existe relacin, la regresin nos permite definir la recta que mejor se ajusta a esta nube de puntos.

Una recta viene definida por la siguiente frmula:

y = a + bx
Donde "y" sera la variable dependiente, es decir, aquella que viene definida a partir de la otra variable "x" (variable independiente). Para definir la recta hay que determinar los valores de los parmetros "a" y "b": El parmetro "a" es el valor que toma la variable dependiente "y", cuando la variable independiente "x" vale 0, y es el punto donde la recta cruza el eje vertical. El parmetro "b" determina la pendiente de la recta, su grado de inclinacin.

La regresin lineal nos permite calcular el valor de estos dos parmetros, definiendo la recta que mejor se ajusta a esta nube de puntos. El parmetro "b" viene determinado por la siguiente frmula:

Es la covarianza de las dos variables, dividida por la varianza de la variable "x". El parmetro "a" viene determinado por:

a = ym - (b * xm)
Es la media de la variable "y", menos la media de la variable "x" multiplicada por el parmetro "b" que hemos calculado. Ejemplo: vamos a calcular la recta de regresin de la siguiente serie de datos de altura y peso de los alumnos de una clase. Vamos a considerar que la altura es la variable independiente "x" y que el peso es la variable dependiente "y" (podamos hacerlo tambin al contrario): Alumno Estatura Peso Alumno Estatura Peso Alumno x x x x x x x Alumno 1 1.25 32 Alumno 11 1.25 33 Alumno 21 Alumno 2 1.28 33 Alumno 12 1.28 35 Alumno 22 Alumno 3 1.27 34 Alumno 13 1.27 34 Alumno 23 Alumno 4 1.21 30 Alumno 14 1.21 30 Alumno 24 Alumno 5 1.22 32 Alumno 15 1.22 33 Alumno 25 Alumno 6 1.29 35 Alumno 16 1.29 34 Alumno 26 Alumno 7 1.3 34 Alumno 17 1.3 35 Alumno 27 Alumno 8 1.24 32 Alumno 18 1.24 32 Alumno 28 Alumno 9 1.27 32 Alumno 19 1.27 33 Alumno 29 Alumno 10 1.29 35 Alumno 20 1.29 33 Alumno 30 El parmetro "b" viene determinado por: (1/30) * 1,034 b= (1/30) * 0,00856 Y el parmetro "a" por:

40.265

a = 33,1 - (40,265 * 1,262) = -17,714


Por lo tanto, la recta que mejor se ajusta a esta serie de datos es: y = -17,714 + (40,265 * x)

Esta recta define un valor de la variable dependiente (peso), para cada valor de la variable independiente (estatura):
Estatura 1.2 1.21 1.22 1.23 1.24 1.25 1.26 1.27 1.28 1.29 1.3 Peso 30.6 31 31.4 31.8 32.2 32.6 33 33.4 33.8 34.2 34.6

gn tipo de relacin entre si.

uy posible que exista relacin entre ambas variables: mientras

relacin entre las variables. Este coeficiente se aplica cuando amos en un gfico los pares de valores de las dos variables la

parablica, etc. En estos casos, el coeficiente de correlacin utilizar otro tipo de coeficiente ms apropiado.

or es representar los pares de valores en un grfico y ver que

da par de valores (x,y) se multiplica la "x" menos su media, por res y este resultado se divide por el tamao de la muestra.

uto se le calcula la raz cuadrada.

l de la otra). La correlacin es tanto ms fuerte cuanto ms se

nuye el de la otra). La correlacin negativa es tanto ms fuerte

otro tipo de correlacin (parablica, exponencial, etc.)

uiere decir obligatoriamente que existe una relacin de causaro azar.

atos de altura y peso de los alumnos de una clase:

Estatura 1.25 1.28 1.27 1.21 1.22 1.29 1.3 1.24 1.27 1.29

Peso 33 34 34 31 32 34 34 31 35 34

de signo postivo.

nal: la variable "x" en el eje horizontal o eje de de puntos sigue una tendencia lineal:

nos permite determinar si, efectivamente, existe vez que se concluye que s existe relacin, la que mejor se ajusta a esta nube de puntos.

rtir de la otra variable "x" (variable etros "a" y "b":

able independiente "x" vale 0, y es el punto

endo la recta que mejor se ajusta a esta nube

el parmetro "b" que hemos calculado.

altura y peso de los alumnos de una clase. s la variable dependiente "y" (podamos hacerlo Estatura x 1.25 1.28 1.27 1.21 1.22 1.29 1.3 1.24 1.27 1.29 Peso x 33 34 34 31 32 34 34 31 35 34

1.25 1.28 1.27 1.21 1.22 1.29 1.3 1.24 1.27 1.29 1.25 1.28 1.27 1.21 1.22 1.29 1.3 1.24 1.27 1.29 1.25 1.28 1.27 1.21 1.22 1.29 1.3 1.24 1.27 1.29

32 33 34 30 32 35 34 32 32 35 33 35 34 30 33 34 35 32 33 33 33 34 34 31 32 34 34 31 35 34

or de la variable independiente (estatura):

Probabilidad: Introduccin

La probabilidad mide la frecuencia con la que aparece un resultado determinado cuando se realiza un experimento.

Ejemplo: tiramos un dado al aire y queremos saber cual es la probabilidad de que salga un 2, o que salga un nmero par, o qu El experimento tiene que ser aleatorio, es decir, que pueden presentarse diversos resultados, dentro de un conjunto posible Ejemplos: lanzamos una moneda al aire: el resultado puede ser cara o cruz, pero no sabemos de antemano cual de ellos va a En la Lotera de Navidad, el "Gordo" (en Espaa se llama "Gordo" al primer premio) puede ser cualquier nmero entre el 1 y el Hay experimentos que no son aleatorios y por lo tanto no se les puede aplicar las reglas de la probabilidad.

Ejemplo: en lugar de tirar la moneda al aire, directamente selccionamos la cara. Aqu no podemos hablar de probabilidades, si Antes de calcular las probabilidades de un experimento aleaotorio hay que definir una serie de conceptos: Suceso elemental: hace referencia a cada una de las posibles soluciones que se pueden presentar.

Ejemplo: al lanzar una moneda al aire, los sucesos elementales son la cara y la cruz. Al lanzar un dado, los sucesos elemental Suceso compuesto: es un subconjunto de sucesos elementales.

Ejemplo: lanzamos un dado y queremos que salga un nmero par. El suceso "numero par" es un suceso compuesto, integrado

O, por ejemplo, jugamos a la ruleta y queremos que salga "menor o igual que 18". Este es un suceso compuesto formado por 1

Al conjunto de todos los posibles sucesos elementales lo denominamos espacio muestral. Cada experimento aleatorio tiene d Ejemplo: si tiramos una moneda al are una sola vez, el espacio muestral ser cara o cruz.

Si el experimento consiste en lanzar una moneda al aire dos veces, entonces el espacio muestral estara formado por (cara-car

e realiza un experimento.

2, o que salga un nmero par, o que salga un nmero menor que 4.

dos, dentro de un conjunto posible de soluciones, y esto an realizando el experimento en las mismas condiciones. Por lo tanto, a priori no

mos de antemano cual de ellos va a salir.

er cualquier nmero entre el 1 y el 100.000, pero no sabemos a priori cual va a ser (si lo supiramos no estaramos aqu escribiendo esta le

de la probabilidad.

demos hablar de probabilidades, sino que ha sido un resultado determinado por uno mismo.

de conceptos:

zar un dado, los sucesos elementales son el 1, el 2, .., hasta el 6.

es un suceso compuesto, integrado por 3 sucesos elementales: el 2, el 4 y el 6

n suceso compuesto formado por 18 sucesos elementales (todos los nmeros que van del 1 al 18).

Cada experimento aleatorio tiene definido su espacio muestral (es decir, un conjunto con todas las soluciones posibles).

estral estara formado por (cara-cara), (cara-cruz), (cruz-cara) y (cruz-cruz).

condiciones. Por lo tanto, a priori no se conoce cual de los resultados se va a presentar:

o estaramos aqu escribiendo esta leccin).

uciones posibles).

ESTUDIO DE LA CAPACIDAD PREDICTIVA DE UNA PRUEBA DIAGNSTICA D E

Verdadero diagnstico o criterio de referencia Positivo Negativo

7 8 9

Resultado de la prueba diagnstica

Positivo Negativo Total

634 487
1121

269 1251
1520

95 % I.C.
Lmite inferior Lmite superior

Prevalencia de la enfermedad Pacientes correctamente diagnosticados Sensibilidad Especificidad Valor predictivo positivo Valor predictivo negativo Cociente de probabilidades positivo Cociente de probabilidades negativo

42.45% 71.37% 56.56% 82.30% 70.21% 71.98% 3.20 0.53

40.55%

69.60% 53.59% 80.27% 67.09% 69.79% 2.83 0.49

44.36% 73.08% 59.48% 84.17% 73.16% 74.07% 3.60 0.57

La seguridad de una prueba diagnstica. Valores predictivos.

Los conceptos de sensibilidad y especificidad permiten, por lo tanto, valorar la validez de una prueba diagnstica. Sin embargo, c

en la prctica clnica. Tanto la sensibilidad como la especificidad proporcionan informacin acerca de la probabilidad de obt le realiza alguna prueba, el mdico carece de informacin a priori acerca de su verdadero diagnstico, y ms bien la pregunta se

concreto (positivo o negativo) en funcin de la verdadera condicin del enfermo con respecto a la enfermedad. Sin embargo, cuand

contrario: ante un resultado positivo (negativo) en la prueba, cul es la probabilidad de que el paciente est realmente enfermo informacin

resulta obvio que hasta el momento slo hemos abordado el problema en una direccin. Por medio de los valores predictivos co

VPP = a/a+b VPN= d/c+d Sensibilidad= a/a+c Especificidad= d/b+d

Prueba

Positiva Negativa

Positiva Prueba Negativa

UEBA DIAGNSTICA F

Total 903 1738 2641

7 8 9

D9/F9 (D7+E8)/F9 D7/D9 E8/E9 D7/F7 E8/F8 Sens/1-Esp (1-Sens)/Esp

alidez de una prueba diagnstica. Sin embargo, carecen de utilidad informacin acerca de la probabilidad de obtener un resultado

on respecto a la enfermedad. Sin embargo, cuando a un paciente se

rdadero diagnstico, y ms bien la pregunta se plantea en sentido

dad de que el paciente est realmente enfermo (sano)?. As pues,

reccin. Por medio de los valores predictivos completaremos esta

Enfermedad Presente Ausente a b c b Enfermedad Presente Ausente Verdadero Falso Positivo Positivo Falso Negativo Verdadero Negativo

Curtosis Mediana promedio Desv Std Asimetria

1 2 2 2 2 3 3 3 3 4 4 4 4 5 (0.61) 3 3 1.07 -

1 1 1 1 1 2 2 1 2 2 1 2 2 1 3 3 2 3 3 2 3 3 2 4 3 3 4 4 3 4 4 3 5 4 4 5 5 4 5 5 5 5 (0.85) (0.74) (1.12) 3 2 3.5 3 2.35714286 3.42857143 1.25 1.29 1.29 0.83 (0.17)

1 2 2 3 3 3 3 3 3 3 3 4 4 5 1.33 3 3 0.93 -

1 2 2 3 3 3 4 4 5

(0.29) 3 3 1.15 -

1.25 1.28 1.27 1.21 1.22 1.29 1.3 1.24 1.27 1.29 1.25 1.28 1.27 1.21 1.22 1.29 1.3 1.24 1.27 1.29 1.25 1.28 1.27 1.21 1.22 1.29 1.3 1.24 1.27 1.29

32 33 34 30 32 35 34 32 32 35 33 35 34 30 33 34 35 32 33 33 33 34 34 31 32 34 34 31 35 34

-1.1 -0.1 0.9 -3.1 -1.1 1.9 0.9 -1.1 -1.1 1.9 -0.1 1.9 0.9 -3.1 -0.1 0.9 1.9 -1.1 -0.1 -0.1 -0.1 0.9 0.9 -2.1 -1.1 0.9 0.9 -2.1 1.9 0.9

993 33.1 2.02333333

1.21 0.01 0.81 9.61 1.21 3.61 0.81 1.21 1.21 3.61 0.01 3.61 0.81 9.61 0.01 0.81 3.61 1.21 0.01 0.01 0.01 0.81 0.81 4.41 1.21 0.81 0.81 4.41 3.61 0.81 60.7 2.02333333

xi

yi

1 3 2 4 4 4 6 4 6 7 9 10 60 5 5.92

xi yi

xi

4 9 16 16 25 36 36 49 49 64 100 100 504

yi

1 9 4 16 16 16 36 16 36 49 81 100 380

PROMEDIO COVARIANZA DESV TIPICA R

3 4 4 5 6 6 7 7 8 10 10 72 6 (Xi*Yi/n)-(p1*p2)

9 8 16 20 24 36 28 42 56 90 100 431

2.44948974 0.935507141

2.5819889

TOTALES PROMEDIO N=

COVARIANZA r

Alumno

Estatura

Peso

Xi
Alumno 1 Alumno 2 Alumno 3 Alumno 4 Alumno 5 Alumno 6 Alumno 7 Alumno 8 Alumno 9 Alumno 10 Alumno 11 Alumno 12 Alumno 13 Alumno 14 Alumno 15 Alumno 16 Alumno 17 Alumno 18 Alumno 19 Alumno 20 Alumno 21 Alumno 22 Alumno 23 Alumno 24 Alumno 25 Alumno 26 Alumno 27 Alumno 28 Alumno 29 Alumno 30 TOTALES PROMEDIO N= COVARIANZA r 1.25 1.28 1.27 1.21 1.22 1.29 1.3 1.24 1.27 1.29 1.25 1.28 1.27 1.21 1.22 1.29 1.3 1.24 1.27 1.29 1.25 1.28 1.27 1.21 1.22 1.29 1.3 1.24 1.27 1.29

Yi
32 33 34 30 32 35 34 32 32 35 33 35 34 30 33 34 35 32 33 33 33 34 34 31 32 34 34 31 35 34

37.86 1.262
30

993 33.1

xi yi 40 42.24 43.18 36.3 39.04 45.15 44.2 39.68 40.64 45.15 41.25 44.8 43.18 36.3 40.26 43.86 45.5 39.68 41.91 42.57 41.25 43.52 43.18 37.51 39.04 43.86 44.2 38.44 44.45 43.86 1254.2

x i2 1.5625 1.6384 1.6129 1.4641 1.4884 1.6641 1.69 1.5376 1.6129 1.6641 1.5625 1.6384 1.6129 1.4641 1.4884 1.6641 1.69 1.5376 1.6129 1.6641 1.5625 1.6384 1.6129 1.4641 1.4884 1.6641 1.69 1.5376 1.6129 1.6641 47.805

yi2 1024 1089 1156 900 1024 1225 1156 1024 1024 1225 1089 1225 1156 900 1089 1156 1225 1024 1089 1089 1089 1156 1156 961 1024 1156 1156 961 1225 1156 32929

0.03446667 0.90498386

1.54632015

40.6013957 0

Das könnte Ihnen auch gefallen