Beruflich Dokumente
Kultur Dokumente
Denota una caracteristica Denota Orden y/o jerarquia El 0 es arbitrario El 0 es no es arbitario El rango los datos se comportan de manera infinita. Los datos se presentan con decimales. El rango los datos se comportan de manera finita. Los datos son nuemros enteros.
Genero IMC, Nivel socieconomico La temperatura El peso, la edad. Peso; 3,78 Kg Numero de Hijos
LOS DATOS Alumno Alumno 1 Alumno 2 Alumno 3 Alumno 4 Alumno 5 Alumno 6 Alumno 7 Alumno 8 Alumno 9 Alumno 10 Alumno 11 Alumno 12 Alumno 13 Alumno 14 Alumno 15 Alumno 16 Alumno 17 Alumno 18 Alumno 19 Alumno 20 Alumno 21 Alumno 22 Alumno 23 Alumno 24 Alumno 25 Alumno 26 Alumno 27 Alumno 28 Alumno 29 Alumno 30 Estatura 1.25 1.28 1.27 1.21 1.22 1.29 1.3 1.24 1.27 1.29 1.23 1.26 1.3 1.21 1.28 1.3 1.22 1.25 1.2 1.28 1.21 1.29 1.26 1.22 1.28 1.27 1.26 1.23 1.22 1.21
PRIMER PASO ORDENAR Alumno Alumno 19 Alumno 4 Alumno 14 Alumno 21 Alumno 30 Alumno 5 Alumno 17 Alumno 24 Alumno 29 Alumno 11 Alumno 28 Alumno 8 Alumno 1 Alumno 18 Alumno 12 Alumno 23 Alumno 27 Alumno 3 Alumno 9 Alumno 26 Alumno 2 Alumno 15 Alumno 20 Alumno 25 Alumno 6 Alumno 10 Alumno 22 Alumno 7 Alumno 13 Alumno 16 Estatura 1.2 1.21 1.21 1.21 1.21 1.22 1.22 1.22 1.22 1.23 1.23 1.24 1.25 1.25 1.26 1.26 1.26 1.27 1.27 1.27 1.28 1.28 1.28 1.28 1.29 1.29 1.29 1.3 1.3 1.3
AGRUPAR LOS DATOS POR FRECUENCIAS Variable (Valor) 1.2 1.21 1.22 1.23 1.24 1.25 1.26 1.27 1.28 1.29 1.3
LOS DATOS Alumno Alumno 1 Alumno 2 Alumno 3 Alumno 4 Alumno 5 Alumno 6 Alumno 7 Alumno 8 Alumno 9 Alumno 10 Alumno 11 Alumno 12 Alumno 13 Alumno 14 Estatura 1.15 1.16 1.17 1.18 1.19 1.2 1.21 1.22 1.24 1.25 1.26 1.26 1.27 1.28
Si los valores que toma la variable son muy diversos y cada uno de ellos se repite muy pocas veces, entonces conviene agruparlos por intervalos, ya que de otra manera obtendramos una tabla de frecuencia muy extensa que aportara muy poco valor a efectos de sntesis.
Variable (Valor) 1,15 a 1,19 1,20 a 1.25 1,26 a 1.29 1,30 a 1,34 1.35 a 1,39 > 1.40
Alumno 15 Alumno 16 Alumno 17 Alumno 18 Alumno 19 Alumno 20 Alumno 21 Alumno 22 Alumno 23 Alumno 24 Alumno 25 Alumno 26 Alumno 27 Alumno 28 Alumno 29 Alumno 30 Alumno 31 Alumno 32
1.29 1.3 1.31 1.32 1.33 1.34 1.35 1.36 1.37 1.38 1.39 1.4 1.41 1.42 1.43 1.44 1.44 1.45
El nmero de agrupaciones por intervalos o tramos en los que se consolida la informacin es una decisin que debe tomar el analista: la regla es que mientras ms tramos se utilicen menos informacin se pierde, pero puede que menos representativa e informativa sea la tabla.
AGRUPAR LOS DATOS POR FRECUENCIAS Frecuencias absolutas Simple 1 4 4 2 1 2 3 3 4 3 3 Acumulada 1 5 9 11 12 14 17 20 24 27 30 Frecuencias relativas Simple 3% 13% 13% 7% 3% 7% 10% 10% 13% 10% 10% Acumulada 3% 17% 30% 37% 40% 47% 57% 67% 80% 90% 100%
ntesis.
Alumno Alumno 1 Alumno 2 Alumno 3 Alumno 4 Alumno 5 Alumno 6 Alumno 7 Alumno 8 Alumno 9 Alumno 10 Alumno 11 Alumno 12 Alumno 13 Alumno 14 Alumno 15 Alumno 16 Alumno 17 Alumno 18 Alumno 19
Estatura 1.2 1.2 1.2 1.3 1.3 1.4 1.4 1.4 1.5 1.5 1.6 1.6 1.6 1.7 1.7 1.8 1.8 1.9 2
Media: es el valor medio ponderado de la serie de datos. Se pueden calcular diversos tipos de media, siendo las ms utilizadas: a) Media aritmtica: se calcula multiplicando cada valor por el nmero de veces que se repite. La suma de todos estos productos se divide por el total de datos de la muestra
b) Media geomtrica: se eleva cada valor al nmero de veces que se ha repetido. Se multiplican todo estos resultados y al producto fiinal se le calcula la raz "n" (siendo "n" el total de datos de la muestra).
B Frecuencia 3 2 3 2 3 2 2 1 1 19
Calcular Medias Aritmetica Geometrica n B Sum(A*B/n) RAIZ (A ) 3.6 2.6 4.2 3 4.8 3.4 3.6 1.9 2 1.53 1.728 1.69 2.744 2.25 4.096 2.89 3.24 1.9 2 1.51
Mediana: es el valor de la serie de datos que se sita justamente en el centro de la muestra (un 50% de valores son inferiores y otro 50% son superiores). No presentan el problema de estar influido por los valores extremos, pero en cambio no utiliza en su clculo toda la informacin de la serie de datos (no pondera cada valor por el nmero de veces que se ha repetido).
La mediana es 1,5
Moda: es el valor que ms se repite en la muestra.
Las medidas de posicin no centrales permiten conocer otros puntos caractersticos de la distribucin que no son los valores centrales. Entre otros indicadores, se suelen utilizar una serie de valores que dividen la muestra en tramos iguales: Cuartiles: son 3 valores que distribuyen la serie de datos, ordenada de forma creciente o decreciente, en cuatro tramos iguales, en los que cada uno de ellos concentra el 25% de los resultados.
Deciles: son 9 valores que distribuyen la serie de datos, ordenada de forma creciente o decreciente, en diez tramos iguales, en los que cada uno de ellos concentra el 10% de los resultados.
Percentiles: son 99 valores que distribuyen la serie de datos, ordenada de forma creciente o decreciente, en cien tramos iguales, en los que cada uno de ellos concentra el 1% de los resultados. Percentil 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 Percentil 1 Percentil 2 Percentil 3 Percentil 4 Percentil 5 Percentil 6 Percentil 7 Percentil 8 Percentil 9 Percentil 10 Percentil 11 Percentil 12 Percentil 13 Percentil 14 Percentil 15 Percentil 16 Percentil 17 Percentil 18 Percentil 19 Percentil 20 Percentil 21 Percentil 22 Percentil 23 Percentil 24 Percentil 25 Percentil 26 Percentil 27 Percentil 28 Percentil 29 Percentil 30 Percentil 31 Decil 3 Cuartil 1 Decil 2 Decil 1
32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80
Percentil 32 Percentil 33 Percentil 34 Percentil 35 Percentil 36 Percentil 37 Percentil 38 Percentil 39 Percentil 40 Percentil 41 Percentil 42 Percentil 43 Percentil 44 Percentil 45 Percentil 46 Percentil 47 Percentil 48 Percentil 49 Percentil 50 Percentil 51 Percentil 52 Percentil 53 Percentil 54 Percentil 55 Percentil 56 Percentil 57 Percentil 58 Percentil 59 Percentil 60 Percentil 61 Percentil 62 Percentil 63 Percentil 64 Percentil 65 Percentil 66 Percentil 67 Percentil 68 Percentil 69 Percentil 70 Percentil 71 Percentil 72 Percentil 73 Percentil 74 Percentil 75 Percentil 76 Percentil 77 Percentil 78 Percentil 79 Percentil 80 Cuartil 3 Decil 7 Decil 6 Cuartil 2 Decil 5 Decil 4
81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100
Percentil 81 Percentil 82 Percentil 83 Percentil 84 Percentil 85 Percentil 86 Percentil 87 Percentil 88 Percentil 89 Percentil 90 Percentil 91 Percentil 92 Percentil 93 Percentil 94 Percentil 95 Percentil 96 Percentil 97 Percentil 98 Percentil 99
Decil 8
Decil 9
Las medidas de forma permiten conocer que forma tiene la curva que representa la serie de datos de la muestra. En concreto, siguientes caractersticas de la curva:
a) Concentracin: mide si los valores de la variable estn ms o menos uniformemente repartidos a lo largo de la muestra.
b) Asimetra: mide si la curva tiene una forma simtrica, es decir, si respecto al centro de la misma (centro de simetra) los se quedan a derecha e izquierda son similares.
c) Curtosis: mide si los valores de la distribucin estn ms o menos concentrados alrededor de los valores medios de la muestr a) Concentracin
Para medir el nivel de concentracin de una distribucn de frecuencia se pueden utilizar distintos indicadores, entre ellos el Indice
IG =
S pi (i toma valores entre 1 y n-1) En donde pi mide el pocentaje de individuos de la muestra que presentan un valor igual o inferior al de xi.
pi =
n1 + n2 + n3 + ... + ni ---------------------------n
x 100
qi =
(X1*n1) + (X2*n2) + ... + (Xi*ni) ------------------------------------ x 100 ----------------(X1*n1) + (X2*n2) + ... + (Xn*nn)
IG = 0 : concentracin mnima. La muestra est unifomemente repartida a lo largo de todo su rango. IG = 1 : concentracin mxima. Un slo valor de la muestra acumula el 100% de los resultados.
Ejemplo: vamos a calcular el Indice Gini de una serie de datos con los sueldos de los empleados de una empresa (millones peset
4.5 6 8 10 15 20
12 8 5 3 1 1
22 30 35 38 39 40
Xi 3.5 4.5 6 8 10 15 25
ni
10 12 8 5 3 1 1
S ni 10 22 30 35 38 39 40
pi
25 55 75 87.5 95 97.5 100 435
S pi (entre 1 y n-1) =
Xi * ni 35 54 48 40 30 15 25 x
qi
13.6 36.0 55.5 71.7 83.8 89.9 100.0
Frecuencias relativas Simple Acumulada 25.00% 25.00% 25.00% 50.00% 20.00% 70.00% 12.50% 82.50% 7.50% 90.00% 0.00% 90.00% 10.00% 100.00%
Xi 3.5 4.5 6 8 10 15 25
ni
10 10 8 5 3 0 4
S ni 10 20 28 33 36 36 40 S pi (entre 1 y n-1) =
pi
25.0 50.0 70.0 82.5 90.0 90.0 100.0 407.5
Xi * ni 35 45 48 40 30 0 100 x
S Xi * ni 35
80 128 168 198 198 298
qi
11.7 26.8 43.0 56.4 66.4 66.4 100.0
507.5
b) Asimetra
Hemos comentado que el concepto de asimetra se refiere a si la curva que forman los valores de la serie presenta la misma fo izquierda y derecha de un valor central (media aritemtica)
Para medir el nivel de asimetra se utiliza el llamado Coeficiente de Asimetra de Fisher, que viene definido:
g1 = 0 (distribucin simtrica; existe la misma concentracin de valores a la derecha y a la izquierda de la media) g1 > 0 (distribucin asimtrica positiva; existe mayor concentracin de valores a la derecha de la media que a su izquierda) g1 < 0 (distribucin asimtrica negativa; existe mayor concentracin de valores a la izquierda de la media que a su derecha)
Ejemplo: Vamos a calcular el Coefiente de Asimetra de Fisher de la serie de datos referidos a la estatura de un grupo de alumno Variable (Valor) x 1.2 1.21 1.22 1.23 1.24 1.25 1.26 1.27 1.28 1.29 1.3 x Frecuencias absolutas Frecuencias relativas Simple Acumulada Simple Acumulada x x x 1 1 3.30% 3.30% 4 5 13.30% 16.60% 4 9 13.30% 30.00% 2 11 6.60% 36.60% 1 12 3.30% 40.00% 2 14 6.60% 46.60% 3 17 10.00% 56.60% 3 20 10.00% 66.60% 4 24 13.30% 80.00% 3 27 10.00% 90.00% 3 30 10.00% 100.00%
c) Curtosis
El Coeficiente de Curtosis analiza el grado de concentracin que presentan los valores alrededor de la zona central de la distribu Se definen 3 tipos de distribuciones segn su grado de curtosis:
Distribucin mesocrtica: presenta un grado de concentracin medio alrededor de los valores centrales de la variable (el mismo Distribucin leptocrtica: presenta un elevado grado de concentracin alrededor de los valores centrales de la variable.
Distribucin platicrtica: presenta un reducido grado de concentracin alrededor de los valores centrales de la variable.
Recordemos que la media de esta muestra es 1,253 S((xi xm)^4)*ni x x 0.00004967 Luego: g2 = (1/30) * 0,00004967 ((1/30) * (0,03046667))^2 -3 -1.39
Por lo tanto, el Coeficiente de Curtosis de esta muestra es -1,39, lo que quiere decir que se trata de una distribucin platicrtica, es decir, con una reducida concentracin alrededor de los valores centrales de la distribucin.
o inferior al de xi.
odo su rango.
sultados.
pi - qi
11.4 19.0 19.5 15.8 11.2 7.6 84.6
IG
0.194385965
pi - qi
13.3 23.2 27.0 26.1 23.6 23.6 136.69
IG
0.335435583
y a la izquierda de la media)
s valores centrales de la variable (el mismo que presenta una distribucin normal).
Rango: mide la amplitud de los valores de la muestra y se calcula por diferencia entre el valor ms elevado y el valor ms bajo.
Varianza: Mide la distancia existente entre los valores de la serie y la media. Se calcula como sumatorio de las difrenci cuadrado entre cada valor y la media, multiplicadas por el nmero de veces que se ha repetido cada valor. El sumatorio obteni divide por el tamao de la muestra. La varianza siempre ser mayor que cero. Mientras ms se aproxima a cero, ms concentr estn los valores de la serie alrededor de la media. Por el contrario, mientras mayor sea la varianza, ms dispersos estn.
Desviacin tpica: Se calcula como raz cuadrada de la varianza. Coeficiente de varizacin de Pearson: se calcula como cociente entre la desviacin tpica y la media. POBLACION N 1 Promedio Xn - Promedio 1.531578947 -0.331578947 1.531578947 -0.331578947 1.531578947 -0.331578947 1.531578947 -0.231578947 1.531578947 -0.231578947 1.531578947 -0.131578947 1.531578947 -0.131578947 1.531578947 -0.131578947 1.531578947 -0.031578947 1.531578947 -0.031578947 1.531578947 0.068421053 1.531578947 0.068421053 1.531578947 0.068421053 1.531578947 0.168421053 1.531578947 0.168421053 1.531578947 0.268421053 1.531578947 0.268421053 1.531578947 0.368421053 1.531578947 0.468421053 -1.9984E-15
Xn 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 SUMA RANGO N Valores PROMEDIO CURTOSIS ASIMETRIA 1.2 1.2 1.2 1.3 1.3 1.4 1.4 1.4 1.5 1.5 1.6 1.6 1.6 1.7 1.7 1.8 1.8 1.9 2 29.1 0.8 19 1.531578947 -0.858713016 0.264129257
(X-Promedio)2 0.109944598 0.109944598 0.109944598 0.053628809 0.053628809 0.017313019 0.017313019 0.017313019 0.00099723 0.00099723 0.00468144 0.00468144 0.00468144 0.028365651 0.028365651 0.072049861 0.072049861 0.135734072 0.219418283 1.061052632
1.3 1.3 1.4 1.4 1.4 1.5 1.5 1.6 1.6 1.6 1.7 1.7 1.8 1.8 1.9 1.9 1.9 1.9 1.9 2 36.7 0.8 23 1.595652174 -1.341790811
1.595652174 1.595652174 1.595652174 1.595652174 1.595652174 1.595652174 1.595652174 1.595652174 1.595652174 1.595652174 1.595652174 1.595652174 1.595652174 1.595652174 1.595652174 1.595652174 1.595652174 1.595652174 1.595652174 1.595652174
-0.295652174 -0.295652174 -0.195652174 -0.195652174 -0.195652174 -0.095652174 -0.095652174 0.004347826 0.004347826 0.004347826 0.104347826 0.104347826 0.204347826 0.204347826 0.304347826 0.304347826 0.304347826 0.304347826 0.304347826 0.404347826 2.44249E-15
0.087410208 0.087410208 0.038279773 0.038279773 0.038279773 0.009149338 0.009149338 1.89036E-05 1.89036E-05 1.89036E-05 0.010888469 0.010888469 0.041758034 0.041758034 0.092627599 0.092627599 0.092627599 0.092627599 0.092627599 0.163497164 1.509565217
0.071437767
ula como sumatorio de las difrencias al tido cada valor. El sumatorio obtenido se s se aproxima a cero, ms concentrados varianza, ms dispersos estn.
y la media.
1.03007409 67.3%
1.23 77.0%
Distribuciones bidimensionales
Las distribuciones bidimensionales son aquellas en las que se estudian al mismo tiempo dos variables de cada elemento d poblacin: por ejemplo: peso y altura de un grupo de estudiantes; superficie y precio de las viviendas de una ciudad; potenc velocidad de una gama de coches deportivos. Estatura / Peso 1,21 cm 1,22 cm 1,23 cm 1,24 cm 1,25 cm 1,26 cm 1,27 cm 1,28 cm 1,29 cm 1,30 cm
31 kg 0 0 0 0 1 0 2 0 3 0
32 kg 0 1 0 2 1 0 1 1 0 0
33 kg 1 1 0 1 1 0 0 1 1 0
34 kg 2 0 0 0 0 0 2 0 1 2
35 kg 0 1 0 0 0 0 1 1 1 1
Distribuciones marginales
Al analizar una distribucin bidimensional, uno puede centrar su estudio en el comportamiento de una de las variables, independencia de como se comporta la otra. Estaramos as en el anlisis de una distribucin marginal. De cada distribucin bidimensional se pueden deducir dos distribuciones marginales: una correspondiente a la variable x, y correspondiente a la variable y.
Variable (Estatura)
xx xx
1.21 1.22 1.23 1.24 1.25 1.26 1.27 1.28 1.29 1.3
3 3 0 3 3 0 6 3 6 3
3 6 6 9 12 12 18 21 27 30
10.00% 10.00% 0.00% 10.00% 10.00% 0.00% 20.00% 10.00% 20.00% 10.00%
10.00% 20.00% 20.00% 30.00% 40.00% 40.00% 60.00% 70.00% 90.00% 100.00%
b) Distribucin marginal de la variable Y (peso) Obtenemos la siguiente tabla de frecuencia: Variable (Peso)
xx xx
31 32 33 34 35
6 6 6 7 5
6 12 18 25 30
Por ejemplo, si se analiza la estatura y el peso de los alumnos de una clase es muy posible que exista relacin entre ambas varia ms alto sea el alumno, mayor ser su peso.
El coeficiente de correlacin lineal mide el grado de intensidad de esta posible relacin entre las variables. Este coeficiente se la relacin que puede existir entre las varables es lineal (es decir, si representaramos en un gfico los pares de valores de las do nube de puntos se aproximara a una recta).
No obstante, puede que exista una relacin que no sea lineal, sino exponencial, parablica, etc. En estos casos, el coeficiente d lineal medira mal la intensidad de la relacin las variables, por lo que convendra utilizar otro tipo de coeficiente ms apropiado.
Para ver, por tanto, si se puede utilizar el coeficiente de correlacin lineal, lo mejor es representar los pares de valores en un gr forma describen.
Es decir:
Numerador: se denomina covarianza y se calcula de la siguiente manera: en cada par de valores (x,y) se multiplica la "x" menos la "y" menos su media. Se suma el resultado obtenido de todos los pares de valores y este resultado se divide por el tamao de la Denominador se calcula el produto de las varianzas de "x" y de "y", y a este produto se le calcula la raz cuadrada. Los valores que puede tomar el coeficiente de correlacin "r" son: -1 < r < 1
Si "r" > 0, la correlacin lineal es positiva (si sube el valor de una variable sube el de la otra). La correlacin es tanto ms fuerte c aproxime a 1. Por ejemplo: altura y peso: los alumnos ms altos suelen pesar ms.
Si "r" < 0, la correlacin lineal es negativa (si sube el valor de una variable disminuye el de la otra). La correlacin negativa es tan cuanto ms se aproxime a -1. Por ejemplo: peso y velocidad: los alumnos ms gordos suelen correr menos.
Si "r" = 0, no existe correlacin lineal entre las variables. Aunque podra existir otro tipo de correlacin (parablica, exponencial,
De todos modos, aunque el valor de "r" fuera prximo a 1 o -1, tampoco esto quiere decir obligatoriamente que existe una relac efecto entre las dos variables, ya que este resultado podra haberse debido al puro azar.
Ejemplo: vamos a calcular el coeficiente de correlacin de la siguiente serie de datos de altura y peso de los alumnos de una clase
Alumno Alumno 1 Alumno 2 Alumno 3 Alumno 4 Alumno 5 Alumno 6 Alumno 7 Alumno 8 Alumno 9 Alumno 10
Estatura 1.25 1.28 1.27 1.21 1.22 1.29 1.3 1.24 1.27 1.29
Peso 32 33 34 30 32 35 34 32 32 35
Alumno Alumno 11 Alumno 12 Alumno 13 Alumno 14 Alumno 15 Alumno 16 Alumno 17 Alumno 18 Alumno 19 Alumno 20
Estatura 1.25 1.28 1.27 1.21 1.22 1.29 1.3 1.24 1.27 1.29
Peso 33 35 34 30 33 34 35 32 33 33
Alumno Alumno 21 Alumno 22 Alumno 23 Alumno 24 Alumno 25 Alumno 26 Alumno 27 Alumno 28 Alumno 29 Alumno 30
Aplicamos la frmula:
r=
Luego,
r=
0.719
Por lo tanto, la correlacin existente entre estas dos variables es elevada (0,7) y de signo postivo. Representamos en un grfico los pares de valores de una distribucin bidimensional: la variable "x" en el eje horizontal o eje de abcisa, y la variable "y" en el eje vertical, o eje de ordenada. Vemos que la nube de puntos sigue una tendencia lineal:
y = a + bx
Donde "y" sera la variable dependiente, es decir, aquella que viene definida a partir de la otra variable "x" (variable independiente). Para definir la recta hay que determinar los valores de los parmetros "a" y "b": El parmetro "a" es el valor que toma la variable dependiente "y", cuando la variable independiente "x" vale 0, y es el punto donde la recta cruza el eje vertical. El parmetro "b" determina la pendiente de la recta, su grado de inclinacin.
La regresin lineal nos permite calcular el valor de estos dos parmetros, definiendo la recta que mejor se ajusta a esta nube de puntos. El parmetro "b" viene determinado por la siguiente frmula:
Es la covarianza de las dos variables, dividida por la varianza de la variable "x". El parmetro "a" viene determinado por:
a = ym - (b * xm)
Es la media de la variable "y", menos la media de la variable "x" multiplicada por el parmetro "b" que hemos calculado. Ejemplo: vamos a calcular la recta de regresin de la siguiente serie de datos de altura y peso de los alumnos de una clase. Vamos a considerar que la altura es la variable independiente "x" y que el peso es la variable dependiente "y" (podamos hacerlo tambin al contrario): Alumno Estatura Peso Alumno Estatura Peso Alumno x x x x x x x Alumno 1 1.25 32 Alumno 11 1.25 33 Alumno 21 Alumno 2 1.28 33 Alumno 12 1.28 35 Alumno 22 Alumno 3 1.27 34 Alumno 13 1.27 34 Alumno 23 Alumno 4 1.21 30 Alumno 14 1.21 30 Alumno 24 Alumno 5 1.22 32 Alumno 15 1.22 33 Alumno 25 Alumno 6 1.29 35 Alumno 16 1.29 34 Alumno 26 Alumno 7 1.3 34 Alumno 17 1.3 35 Alumno 27 Alumno 8 1.24 32 Alumno 18 1.24 32 Alumno 28 Alumno 9 1.27 32 Alumno 19 1.27 33 Alumno 29 Alumno 10 1.29 35 Alumno 20 1.29 33 Alumno 30 El parmetro "b" viene determinado por: (1/30) * 1,034 b= (1/30) * 0,00856 Y el parmetro "a" por:
40.265
Esta recta define un valor de la variable dependiente (peso), para cada valor de la variable independiente (estatura):
Estatura 1.2 1.21 1.22 1.23 1.24 1.25 1.26 1.27 1.28 1.29 1.3 Peso 30.6 31 31.4 31.8 32.2 32.6 33 33.4 33.8 34.2 34.6
relacin entre las variables. Este coeficiente se aplica cuando amos en un gfico los pares de valores de las dos variables la
parablica, etc. En estos casos, el coeficiente de correlacin utilizar otro tipo de coeficiente ms apropiado.
da par de valores (x,y) se multiplica la "x" menos su media, por res y este resultado se divide por el tamao de la muestra.
Estatura 1.25 1.28 1.27 1.21 1.22 1.29 1.3 1.24 1.27 1.29
Peso 33 34 34 31 32 34 34 31 35 34
de signo postivo.
nal: la variable "x" en el eje horizontal o eje de de puntos sigue una tendencia lineal:
nos permite determinar si, efectivamente, existe vez que se concluye que s existe relacin, la que mejor se ajusta a esta nube de puntos.
altura y peso de los alumnos de una clase. s la variable dependiente "y" (podamos hacerlo Estatura x 1.25 1.28 1.27 1.21 1.22 1.29 1.3 1.24 1.27 1.29 Peso x 33 34 34 31 32 34 34 31 35 34
1.25 1.28 1.27 1.21 1.22 1.29 1.3 1.24 1.27 1.29 1.25 1.28 1.27 1.21 1.22 1.29 1.3 1.24 1.27 1.29 1.25 1.28 1.27 1.21 1.22 1.29 1.3 1.24 1.27 1.29
32 33 34 30 32 35 34 32 32 35 33 35 34 30 33 34 35 32 33 33 33 34 34 31 32 34 34 31 35 34
Probabilidad: Introduccin
La probabilidad mide la frecuencia con la que aparece un resultado determinado cuando se realiza un experimento.
Ejemplo: tiramos un dado al aire y queremos saber cual es la probabilidad de que salga un 2, o que salga un nmero par, o qu El experimento tiene que ser aleatorio, es decir, que pueden presentarse diversos resultados, dentro de un conjunto posible Ejemplos: lanzamos una moneda al aire: el resultado puede ser cara o cruz, pero no sabemos de antemano cual de ellos va a En la Lotera de Navidad, el "Gordo" (en Espaa se llama "Gordo" al primer premio) puede ser cualquier nmero entre el 1 y el Hay experimentos que no son aleatorios y por lo tanto no se les puede aplicar las reglas de la probabilidad.
Ejemplo: en lugar de tirar la moneda al aire, directamente selccionamos la cara. Aqu no podemos hablar de probabilidades, si Antes de calcular las probabilidades de un experimento aleaotorio hay que definir una serie de conceptos: Suceso elemental: hace referencia a cada una de las posibles soluciones que se pueden presentar.
Ejemplo: al lanzar una moneda al aire, los sucesos elementales son la cara y la cruz. Al lanzar un dado, los sucesos elemental Suceso compuesto: es un subconjunto de sucesos elementales.
Ejemplo: lanzamos un dado y queremos que salga un nmero par. El suceso "numero par" es un suceso compuesto, integrado
O, por ejemplo, jugamos a la ruleta y queremos que salga "menor o igual que 18". Este es un suceso compuesto formado por 1
Al conjunto de todos los posibles sucesos elementales lo denominamos espacio muestral. Cada experimento aleatorio tiene d Ejemplo: si tiramos una moneda al are una sola vez, el espacio muestral ser cara o cruz.
Si el experimento consiste en lanzar una moneda al aire dos veces, entonces el espacio muestral estara formado por (cara-car
e realiza un experimento.
dos, dentro de un conjunto posible de soluciones, y esto an realizando el experimento en las mismas condiciones. Por lo tanto, a priori no
er cualquier nmero entre el 1 y el 100.000, pero no sabemos a priori cual va a ser (si lo supiramos no estaramos aqu escribiendo esta le
de la probabilidad.
demos hablar de probabilidades, sino que ha sido un resultado determinado por uno mismo.
de conceptos:
n suceso compuesto formado por 18 sucesos elementales (todos los nmeros que van del 1 al 18).
Cada experimento aleatorio tiene definido su espacio muestral (es decir, un conjunto con todas las soluciones posibles).
uciones posibles).
7 8 9
634 487
1121
269 1251
1520
95 % I.C.
Lmite inferior Lmite superior
Prevalencia de la enfermedad Pacientes correctamente diagnosticados Sensibilidad Especificidad Valor predictivo positivo Valor predictivo negativo Cociente de probabilidades positivo Cociente de probabilidades negativo
40.55%
Los conceptos de sensibilidad y especificidad permiten, por lo tanto, valorar la validez de una prueba diagnstica. Sin embargo, c
en la prctica clnica. Tanto la sensibilidad como la especificidad proporcionan informacin acerca de la probabilidad de obt le realiza alguna prueba, el mdico carece de informacin a priori acerca de su verdadero diagnstico, y ms bien la pregunta se
concreto (positivo o negativo) en funcin de la verdadera condicin del enfermo con respecto a la enfermedad. Sin embargo, cuand
contrario: ante un resultado positivo (negativo) en la prueba, cul es la probabilidad de que el paciente est realmente enfermo informacin
resulta obvio que hasta el momento slo hemos abordado el problema en una direccin. Por medio de los valores predictivos co
Prueba
Positiva Negativa
UEBA DIAGNSTICA F
7 8 9
alidez de una prueba diagnstica. Sin embargo, carecen de utilidad informacin acerca de la probabilidad de obtener un resultado
Enfermedad Presente Ausente a b c b Enfermedad Presente Ausente Verdadero Falso Positivo Positivo Falso Negativo Verdadero Negativo
1 2 2 2 2 3 3 3 3 4 4 4 4 5 (0.61) 3 3 1.07 -
1 1 1 1 1 2 2 1 2 2 1 2 2 1 3 3 2 3 3 2 3 3 2 4 3 3 4 4 3 4 4 3 5 4 4 5 5 4 5 5 5 5 (0.85) (0.74) (1.12) 3 2 3.5 3 2.35714286 3.42857143 1.25 1.29 1.29 0.83 (0.17)
1 2 2 3 3 3 3 3 3 3 3 4 4 5 1.33 3 3 0.93 -
1 2 2 3 3 3 4 4 5
(0.29) 3 3 1.15 -
1.25 1.28 1.27 1.21 1.22 1.29 1.3 1.24 1.27 1.29 1.25 1.28 1.27 1.21 1.22 1.29 1.3 1.24 1.27 1.29 1.25 1.28 1.27 1.21 1.22 1.29 1.3 1.24 1.27 1.29
32 33 34 30 32 35 34 32 32 35 33 35 34 30 33 34 35 32 33 33 33 34 34 31 32 34 34 31 35 34
-1.1 -0.1 0.9 -3.1 -1.1 1.9 0.9 -1.1 -1.1 1.9 -0.1 1.9 0.9 -3.1 -0.1 0.9 1.9 -1.1 -0.1 -0.1 -0.1 0.9 0.9 -2.1 -1.1 0.9 0.9 -2.1 1.9 0.9
1.21 0.01 0.81 9.61 1.21 3.61 0.81 1.21 1.21 3.61 0.01 3.61 0.81 9.61 0.01 0.81 3.61 1.21 0.01 0.01 0.01 0.81 0.81 4.41 1.21 0.81 0.81 4.41 3.61 0.81 60.7 2.02333333
xi
yi
1 3 2 4 4 4 6 4 6 7 9 10 60 5 5.92
xi yi
xi
yi
1 9 4 16 16 16 36 16 36 49 81 100 380
3 4 4 5 6 6 7 7 8 10 10 72 6 (Xi*Yi/n)-(p1*p2)
9 8 16 20 24 36 28 42 56 90 100 431
2.44948974 0.935507141
2.5819889
TOTALES PROMEDIO N=
COVARIANZA r
Alumno
Estatura
Peso
Xi
Alumno 1 Alumno 2 Alumno 3 Alumno 4 Alumno 5 Alumno 6 Alumno 7 Alumno 8 Alumno 9 Alumno 10 Alumno 11 Alumno 12 Alumno 13 Alumno 14 Alumno 15 Alumno 16 Alumno 17 Alumno 18 Alumno 19 Alumno 20 Alumno 21 Alumno 22 Alumno 23 Alumno 24 Alumno 25 Alumno 26 Alumno 27 Alumno 28 Alumno 29 Alumno 30 TOTALES PROMEDIO N= COVARIANZA r 1.25 1.28 1.27 1.21 1.22 1.29 1.3 1.24 1.27 1.29 1.25 1.28 1.27 1.21 1.22 1.29 1.3 1.24 1.27 1.29 1.25 1.28 1.27 1.21 1.22 1.29 1.3 1.24 1.27 1.29
Yi
32 33 34 30 32 35 34 32 32 35 33 35 34 30 33 34 35 32 33 33 33 34 34 31 32 34 34 31 35 34
37.86 1.262
30
993 33.1
xi yi 40 42.24 43.18 36.3 39.04 45.15 44.2 39.68 40.64 45.15 41.25 44.8 43.18 36.3 40.26 43.86 45.5 39.68 41.91 42.57 41.25 43.52 43.18 37.51 39.04 43.86 44.2 38.44 44.45 43.86 1254.2
x i2 1.5625 1.6384 1.6129 1.4641 1.4884 1.6641 1.69 1.5376 1.6129 1.6641 1.5625 1.6384 1.6129 1.4641 1.4884 1.6641 1.69 1.5376 1.6129 1.6641 1.5625 1.6384 1.6129 1.4641 1.4884 1.6641 1.69 1.5376 1.6129 1.6641 47.805
yi2 1024 1089 1156 900 1024 1225 1156 1024 1024 1225 1089 1225 1156 900 1089 1156 1225 1024 1089 1089 1089 1156 1156 961 1024 1156 1156 961 1225 1156 32929
0.03446667 0.90498386
1.54632015
40.6013957 0