Sie sind auf Seite 1von 19

BIOESTADSTICA I

1. DEFINICIONES
1.1 ESTADSTICA. Es una disciplina, que hace parte de la matemtica aplicada, que provee mtodos y procedimientos para colectar, clasificar, resumir y analizar informacin (datos) proveniente de una poblacin. 1.2 BIOESTADSTICA. Es la disciplina que se encarga de generar y aplicar mtodos estadsticos a informacin o datos provenientes de las reas biolgicas. 1.3 VARIABLE. Es una caracterstica que interesa evaluar ya sea en un individuo o en un objeto, y que, como su nombre lo dice, vara o cambia de un individuo a otro. Si todos los individuos observados son homogneos para la caracterstica en cuestin, ya no se habla de una variable, sino de una constante. Otra definicin ms corta: variable es lo que est siendo observado o medido. Las variables pueden ser clasificadas de diferentes maneras: 1.3.1 Cualitativas y Cuantitativas. Las variables cualitativas o atributos no se pueden
medir numricamente (por ejemplo: nacionalidad, color de la piel, sexo). Las variables cuantitativas tienen valor numrico (edad, precio de un producto, ingresos anuales).

Ejemplos: Cuantitativas Peso Dimetro Altura Nmero de plantas Cualitativas Variedad o especie Raza Color Tipo de suelo

1.3.2 Discretas y continuas. Esta es otra forma de clasificar las variables. Una variable es discreta si entre dos valores contiguos no existe ningn otro valor posible, es decir, hay saltos entre los valores que toma la variable; mientras que en una variable continua, entre cualquier para de valores observables siempre hay infinitos valores posibles de ser observados. A veces se toma como regla de clasificacin que las variables discretas no pueden tomar valores que involucren cifras decimales, pero esto no siempre se cumple, veamos un ejemplo: Si en un examen definimos una variable como la relacin de respuestas correctas respecto al total de preguntas formuladas, los valores posibles siempre sern fraccionarios: 1/5, 2/5, ...etctera y a pesar de esto, la variable sera discreta.

2
Otras definiciones: Una variable es discreta si slo puede tomar valores en un conjunto finito; es continua, si puede tomar cualquier valor de un intervalo determinado. Debido a las unidades en que algunas variables son expresadas, stas pueden parecer discretas, por ejemplo, el tiempo expresado en segundos, el peso expresado en gramos. En estos casos, las limitaciones estn dadas por el instrumento de medida. Sin embargo, conceptualmente tales variables siguen siendo continuas, pues sin importar que contemos con el instrumento para su medicin o no, entre 4 g y 5 g hay infinitos pesos. Discretas Nmero de huevos Sexo Nmero de plantas Continuas Peso Altura Tiempo

1.3.3 Escalas de medicin. Esta forma de clasificar las variables hace referencia a la cantidad de informacin que contenga cada una de ellas y a la forma en que se mida. 1.3.3.1 Nominal. Es la escala de medicin ms dbil, los valores de la variable simplemente indican diferentes categoras y no existe un orden entre ellas. Ejemplo: Color, sexo, especie, raza, nombre, materia. Una forma de evaluar si una variable es nominal, es identificar si al representarla grficamente se pierde informacin al colocar en diferentes posiciones cada una de las categoras. Si las categoras pueden presentarse indiferentemente en cualquier posicin, se trata de una variable medida en escala nominal. 1.3.3.2 Ordinal. En este tipo de escala se halla un poco ms de informacin que en la anterior. Existe un orden o jerarqua entre los objetos del grupo, de tal forma que se sabe cul es el primero, el segundo,... con relacin a una caracterstica particular. No puede afirmarse, sin embargo, que la diferencia o distancia entre las categoras sea la misma. Ejemplo: Nivel de produccin (Alto, medio o bajo), orden de llegada en una carrera (primero, segundo, tercero), evaluacin nutricional, calificacin (excelente, bueno, regular, malo).

1.3.3.3 Intervlica. En esta escala existen categoras ordenadas y las distancias o intervalos entre stas son iguales, por eso se puede afirmar que la diferencia entre 5 y 6 es la misma que entre 10 y 11, es decir, una unidad. Una caracterstica de esta escala es que el cero no es verdadero, es arbitrario, pues no indica ausencia de la caracterstica medida, por lo tanto, aunque se pueden realizar comparaciones de diferencia (restas), las comparaciones de razn (divisiones) no son posibles. Ejemplos: Cociente intelectual y, la ms famosa de todas, la temperatura, donde el valor de 0 C no indica ausencia de temperatura; una ilustracin de porque las razones no son posibles se tiene al comparar las temperaturas 20 C y 40 C ; aunque numricamente 40 es el doble de 20, en el caso de la temperatura no se puede afirmar que a 40 C es el doble de calor que a 20 C.

1.3.3.4 Razn o Proporcin. Es la escala que tiene ms informacin. Adems de existir un orden entre los niveles de la escala, estos tienen igual distancia entre s y el cero s es real (indica ausencia). Por lo tanto, las comparaciones de razn (divisiones) s son posibles. Ejemplos: Peso, altura, nmero de hojas de una planta, etctera.

1.4 POBLACIN. Es cualquier conjunto de individuos o elementos que tienen una o ms caractersticas comunes. Las caractersticas comunes no son slo fsicas, pueden ser espaciales o temporales. Ejemplos: estudiantes matriculados en el primer semestre del 2004 (caracterstica temporal) ; estudiantes del ncleo de minas (caracterstica espacial). La estadstica matemtica define una poblacin como el conjunto de todos los valores que puede tomar una variable, en este caso se hablara de poblacin de pesos, etctera, lo que pasa es que desde el punto de vista del investigador, se define como el conjunto de individuos poseedores de la caracterstica. 1.5 MUESTRA. Es cualquier subconjunto de elementos seleccionado de una poblacin, lo ideal es que sea un subconjunto representativo de toda la poblacin, o sea que refleje las caractersticas esenciales de la misma, de manera que se puedan realizar generalizaciones sobre la poblacin. Las razones para trabajar con muestras son: ahorro de tiempo, ahorro de dinero, facilidades operativas y conservacin de la poblacin (si la variable que se quiere medir implica destruccin de la unidad experimental, como en anlisis bromatolgicos, de composicin, etctera). 1.6 PARMETRO. Es una medida que caracteriza a una poblacin, por lo cual se necesitara tener acceso a todos los elementos de la poblacin para su clculo. Se representa por medio de letras griegas. 1.7 ESTADSTICO. Es cualquier medida de resumen calculada a partir de los datos de la muestra. Sirve como estimador del respectivo parmetro poblacional. Se representa por medio de letras latinas. 1.8 ESTADSTICA DESCRIPTIVA. Es la rama de la estadstica que se dedica a la presentacin, organizacin y resumen de los datos, usando tablas, grficos y medidas de resumen que son aqullas que representan las caractersticas esenciales de los datos en trminos fciles de interpretar. 1.9 ESTADSTICA INFERENCIAL. Esta es la parte de la estadstica que permite generalizar los resultados obtenidos a partir de los datos de una muestra, a un nmero ms grande de individuos. En otras palabras, hacer inferencia estadstica es sacar conclusiones vlidas acerca de una poblacin de elementos o medidas, con base en informacin contenida en una muestra de dicha poblacin. Se hace a travs de dos actividades relacionadas: estimacin y prueba de hiptesis.

Tarea: Plantear 10 variables que tengan que ver con su carrera y clasificarlas con las tres formas vistas.

2. ESTADSTICA DESCRIPTIVA. Como se mencion anteriormente, la estadstica descriptiva se basa en el uso de tres herramientas bsicas: medidas de resumen, tablas y grficos. 2.1 MEDIDAS DE RESUMEN Las medidas de resumen, como su nombre lo dice, sirven para resumir la informacin contenida en un grupo de datos y se dividen en: medidas de tendencia central, medidas de dispersin, medidas de forma y medidas de posicin.

2.1.1 Medidas de Tendencia Central. Una medida de tendencia central es aquel valor hacia el cual converge la mayora de los datos, viene a ser una especie de representante del conjunto de datos, existen varias medidas de tendencia central. 2.1.1.1 Media. Es la ms famosa de las medidas de tendencia central y se define como el promedio aritmtico de todos los datos. Podemos definir la media muestral (estadstico) y la media poblacional (parmetro).

___

X =

x
i =1

; As, es un estadstico.

x
i =1

; As, es el parmetro. {3, 5, 6, 8, 9} {3, 5, 6, 8, 20}

Tarea: Calcule la media para el siguiente conjunto de datos: Repita con el siguiente conjunto de datos: Compare los dos valores obtenidos y concluya.

2.1.1.2 Mediana: Es el valor central de un conjunto de datos ordenados, se dice tambin que es aquel valor que divide el conjunto de datos exactamente por la mitad. Para el siguiente conjunto de datos: {2, 4, 5, 6, 8} Y para el siguiente conjunto de datos? 2, 4, 5, 6, 20 la mediana es 5 la mediana es 5

Qu se puede concluir a partir de estos resultados?

5
Si se tiene un conjunto de datos par : {2, 4, 5, 6} qu hacemos? La solucin es calcular la media de los dos valores centrales. Existen dos frmulas que facilitan el clculo de la mediana cuando se tienen muchos datos, pero para ver las frmulas, primero debemos definir que es un Estadstico de Orden. 2.1.1.3 Estadstico de Orden. Se define el estadstico de orden i-simo como el valor que toma la observacin i-sima, despus de ordenar todos los datos, as: X(1) es el estadstico de orden 1 y correspondera al menor valor de todos. X(2) es el estadstico de orden 2 y correspondera al segundo menor valor. . . . X(n) es el estadstico de orden n y correspondera al mayor valor. Al calcular la mediana de un conjunto de datos siempre se estar en una de dos situaciones: el conjunto de datos es impar o el conjunto de datos es par. Si el conjunto es impar, Me = (n+1)/2

X(
n 2

n +1

X(

n +1

) ; es decir, el estadstico de orden

Si el conjunto es par, Me =

X(

) + X ((n 2 )+1)
2

X(

) + X ((n 2 )+1)
2

; es decir, la media

aritmtica de los dos estadsticos de orden que aparecen en el numerador. Nota: n es el nmero de datos evaluados. 2.1.1.4 Moda. El significado estadstico de la palabra moda es similar al que le damos en nuestra sociedad, qu es moda? Lo que ms se usa, entonces la moda es simplemente el valor que ms se repite, ejemplo: en el siguiente conjunto de datos la moda sera 5: {2, 5, 5, 5, 6, 7, 8} En el conjunto de datos: : {3, 5, 6, 3, 4, 3, 5, 8, 5}, cul es la moda? Se puede apreciar que hay dos modas: 3 y 5. (el conjunto es bimodal) Un ltimo conjunto de datos: {2, 4, 6, 8, 9, 3, 5}, cul es la moda? Aqu vemos que no hay moda, a partir de estos tres ejemplos se puede observar que la moda puede no existir, ser nica o pueden existir mltiples modas (datos multimodales). Cuando exista, siempre corresponder con algunos de los valores observados en el conjunto de datos. 2.1.1.5 Media ponderada. Es una media donde todas las observaciones no tienen el mismo peso o importancia, un ejemplo clsico es la nota definitiva de una asignatura, supongamos el caso de un estudiante en un curso cualquiera con las siguientes notas:

Evaluacin Parcial 1 Parcial 2 Parcial 3 Taller

Porcentaje (Pi) 30% 20% 30% 20%

Nota (Xi) 4.2 2.1 3.2 3.7

Para calcular la nota definitiva no podramos simplemente calcular la media aritmtica de las cuatro notas, pues le estaramos dando el mismo peso a cada una de las notas, por lo tanto calculamos la media ponderada, que permite darle pesos diferentes a los valores observados.

__

P *X
i =1 i

P
i =1

= 3.38
i

2.1.1.6 Recorrido Medio. Esta medida de tendencia central se utiliza muy poco, una aplicacin prctica se da cuando se quiere calcular la temperatura media de un da cualquiera, simplemente consiste en calcular la media aritmtica de los valores mayor y menor. Tarea: Analizar para cada una de las escalas de medicin cules medidas de tendencia central es posible aplicar y cules no. Antes de continuar con la siguiente medida de resumen, veamos lo siguiente: se tienen dos explotaciones A y B de cualquier producto agrcola: Explotacin A B Produccin Promedio 4 t/ha 4 t/ha

A simple vista podramos decir que los conjuntos de datos que dieron origen a estas dos medias son iguales, pero si ahora vemos los conjuntos originales, la situacin es muy diferente: Explotacin A B Produccin Promedio Datos 4 t/ha 4, 4, 4 4 t/ha 0, 4, 8

Estos dos conjuntos de datos ponen en evidencia que la medida de tendencia central por s sola no es suficiente para describir un conjunto de datos, de ah la importancia de utilizar otra medida de resumen que me refleje la situacin del ejercicio anterior.

7
2.1.2 Medidas de Dispersin. Las medidas de dispersin indican qu tan cerca o qu tan lejos estn los datos de la medida de tendencia central, en otras palabras, indican que tan homogneos o heterogneos son los datos. 2.1.2.1 Varianza. Es la ms conocida de las medidas de dispersin y su anlisis es la base de todos los mtodos de estadstica inferencial. Podemos definir la varianza muestral (estadstico) y la varianza poblacional (parmetro).
___ X x i S 2 = i =1 n 1 n 2

; As, es un estadstico.

xi i =1 = N
N

; As, es el parmetro.

Existe una frmula operacional que hace mucho ms fcil el clculo de la varianza, que surge de desarrollar y luego simplificar el numerador de la expresin anterior:

n xi n 2 xi i =1 n S 2 = i =1 n 1

Supongamos valores de produccin de mango en t/ha: 3, 5, 6, 8, 9 Donde la varianza es: 5.7 (t/ha)2, (verificar el clculo) ahora..... qu es una (t/ha)2 ? pues este es el problema de la varianza, est dada en unidades al cuadrado, lo cual hace que no tenga una interpretacin fcil, entonces.... qu hacemos? Pues saquemos raz cuadrada! 2.1.2.2 Desviacin estndar. Simplemente es la raz cuadrada de la varianza y por lo tanto est dada en las unidades de medida originales y por eso es ms utilizada. Podemos definir la desviacin estndar muestral (estadstico) y la desviacin estndar poblacional (parmetro). S = Raz cuadrada de: S2; As, es un estadstico. = Raz cuadrada de: 2; As, es el parmetro. En el ejemplo anterior la desviacin estndar sera: S = 2.387 t/ha, valor que est dado en las unidades de medida originales y por lo tanto es fcil de entender. Ejercicio: Se tienen los siguientes conjuntos de datos, en cul de ellos hay mayor dispersin? A 10 t/ha 2.5 t/ha B 4 t/ha 2 t/ha

Media DE

8
Se podra pensar que el conjunto A tiene una mayor dispersin que el B, pero debe recordarse la definicin de medida de dispersin: es un valor que me indica qu tan lejos o cerca se encuentran los datos respecto a la medida de tendencia central, de tal manera que si se desea saber cul de los dos conjuntos tiene una mayor dispersin, el anlisis no puede basarse exclusivamente en la D. E., debe tener en cuenta tambin la media. Para hacer esta comparacin se podra hacer uso de la siguiente medida de dispersin. 2.1.2.3 Coeficiente de Variacin (CV). Esta es una medida de dispersin muy utilizada porque es adimensional (no tiene unidades de medida) y por lo tanto es muy til para comparar la dispersin de dos conjuntos de datos, ya sea que stos tengan o no, la misma unidad de medida; expresa la desviacin estndar como un porcentaje de la media. CV =

S
_____

*100

X
2.1.2.4 Desviacin Mediana. Es una medida de dispersin donde la medida de tendencia central de referencia es la Mediana y se calcula as:

x Me
D. Mediana =
i =1 i

Bsicamente es para variables ordinales; en general, cuando se calcule la mediana como medida de tendencia central, lo correcto entonces ser calcular la desviacin mediana. 2.1.2.5 Recorrido o Rango. Es una medida poco utilizada porque provee de muy poca informacin, se calcula como la diferencia entre los dos valores extremos del conjunto de datos, por lo tanto simplemente indica la distancia que hay entre el valor menor y el valor mayor. R: (Valor mayor Valor menor) (X(n) X(1)). Tarea: Analizar para cada una de las escalas de medicin cules medidas de dispersin es correcto aplicar y cules no Ejercicio: Qu se puede decir de la produccin de mango en estas dos fincas? A 9.475 4.26807 B 9.475 4.26807

Media: S

Aparentemente son dos conjuntos de datos iguales, pero si vemos los datos originales vamos a encontrar lo siguiente: A: B:0.85, 5, 6.3, 6.9, 7.4, 9.2, 10, 6.05, 8.95, 9.75, 12.9, 18.1

11.55, 12.05, 12.65, 13.95

9
Con estos dos conjuntos se hace evidente que una medida de tendencia central junto con una medida de dispersin, tampoco son suficientes para describir de manera completa un conjunto de datos, hace falta algo ms, veamos la siguiente medida de resumen. 2.1.3 Medidas de Forma. Una medida de forma simplemente refleja cual es la forma de los datos al hacer un grfico de dispersin con ellos. 2.1.3.1 Coeficiente de Asimetra (a). Indica si un conjunto de datos es simtrico o no respecto a la media, se calcula de la siguiente manera:
__ 3 n x x i i =1 n a = 3 (n 1)(n 2 ) S

Donde S es la desviacin estndar. Bsicamente se puede hablar de tres situaciones (no son las nicas): Distribucin Simtrica: a = 0:

Cuando hay simetra perfecta, la media, la mediana y la moda toman el mismo valor. Sesgo a la derecha: a > 0:

Cuando hay sesgo a la derecha, la moda < la mediana < la media. Sesgo a la izquierda: a < 0:

10
Cuando hay sesgo a la izquierda, la media < la mediana < la moda. Evaluemos los dos conjuntos de datos anteriores: aA = [ 8 / 7*6 ]*[ (5-9.475)3 + (6.3-9.475)3 +...... +(18.1-9.475)3 / 4.2683] aA = 1.3089 = Asimetra positiva o sesgo a la derecha. aB = [8 / 7*6 ]*[(0.85-9.475)3+ (6.05-9.475)3 +....+(13.95-9.475)3 /4.2683] aB = - 1.3089 = Asimetra negativa o sesgo a la izquierda. Tarea: Verificar los anteriores resultados. Ejercicio: Qu se puede decir de la produccin de mango en estas dos fincas? A 7 3.6228 0 B 7 3.6228 0

Media: S a

Aparentemente son dos conjuntos de datos iguales, pero si vemos los datos originales vamos a encontrar lo siguiente:

A: 0.5, B: 1.5,

4, 3.5,

6, 6.5, 7, 7.5, 8, 4, 6, 7,

10, 8,

13.5 10, 10.5, 12.5

Con estos dos conjuntos se hace evidente que una medida de tendencia central junto con una medida de dispersin y la medida de asimetra, tampoco son suficientes para describir de manera completa un conjunto de datos, hace falta algo ms. 2.1.3.2 Coeficiente de Curtosis o Curtosis (K). Evala como es la concentracin de los datos alrededor de la media y de las colas.
__ 4 n x x 2 i i =1 n(n + 1) 3(n 1) K= 4 (n 2 )(n 3) (n 1)(n 2 )(n 3) S

Situaciones posibles: Distribucin Mesocrtica: K = 0.

11
Distribucin Leptocrtica: K > 0

Distribucin Platicrtica: K < 0

Evaluemos los dos conjuntos de datos anteriores:

KA: 1.235 : Leptocrtica KB: -1.004: Platicrtica Tarea : Verificar los dos valores de curtosis anteriores. 2.1.4 Medidas de Posicin. Son medidas que permiten estimar en qu punto de la distribucin de los datos se encuentra un determinado valor. 2.1.4.1 Cuantiles. Son la expresin ms general de medidas de posicin y comprenden a todas las otras; el valor que tome el cuantil X es el valor que deja por debajo de s al X % de los datos. Para el calculo de los cuantiles vamos a recurrir nuevamente a los estadsticos de orden. Primero se debe calcular el valor n*X (Siendo n el nmero de datos y X el cuantil deseado), a partir del valor hallado se hace lo siguiente: si (nx/100) no es entero, entonces el Cuantil X = X ( [| nx/100 |] + 1 ) ;. Recordar, [| |] quiere decir menor entero contenido en, lo que traduce: redondee por debajo. Si (nx/100) es entero, entonces el Cuantil X = {X (nx/100) + X[(nx/100) + 1] }/ 2;. Importante:

12

Cuantil 0 Cuantil 100

= X (1) = El valor Mnimo = X (n) = El valor Mximo

2.1.4.2 Cuartiles. Son valores que dividen el conjunto de datos en cuatro partes. Q1: Primer cuartil: Es el valor por debajo del cual se encuentra el 25% de los datos. Q2: Segundo cuartil: Es el valor por debajo del cual se encuentra el 50% de los datos. Q3: Tercer cuartil: Es el valor por debajo del cual se encuentra el 75% de los datos.

2.1.4.3 Deciles. Son valores que dividen el conjunto de datos en diez partes. D1: Decil uno: Es el valor por debajo del cual est el 10% de los datos. D2: Decil dos: Es el valor por debajo del cual est el 20% de los datos.

2.1.4.4 Percentiles. Son los valores que dividen la informacin en centsimas, o sea en 100 partes. Son los mismos cuantiles. P1: Percentil uno: Es el valor por debajo del cual est el 1% de los datos. P2: Percentil dos: Es el valor por debajo del cual est el 2% de los datos. Tarea: Hallar equivalencias entre las diferentes medidas de posicin, ejemplo: Mediana = Q2 = D5 = P50 Tarea: Calcular todas las anteriores medidas de resumen para describir dos conjuntos de datos que ustedes mismos pueden inventar. 2.2 TABLAS. 2.2.1 Tablas de frecuencias (Tablas de distribucin de frecuencias). La distribucin de frecuencia es la representacin estructurada, en forma de tabla, de toda la informacin que se ha recogido sobre la variable estudiada.
Veamos un ejemplo: Medimos la altura de los nios de una clase y obtenemos los siguientes resultados (cm):

13
Estudiante Estudiante 1 Estudiante 2 Estudiante 3 Estudiante 4 Estudiante 5 Estudiante 6 Estudiante 7 Estudiante 8 Estudiante 9 Estudiante 10 Estatura 1,25 1,28 1,27 1,21 1,22 1,29 1,30 1,24 1,27 1,29 Estudiante Estudiante 11 Estudiante 12 Estudiante 13 Estudiante 14 Estudiante 15 Estudiante 16 Estudiante 17 Estudiante 18 Estudiante 19 Estudiante 20 Estatura 1,23 1,26 1,30 1,21 1,28 1,30 1,22 1,25 1,20 1,28 Estudiante Estudiante 21 Estudiante 22 Estudiante 23 Estudiante 24 Estudiante 25 Estudiante 26 Estudiante 27 Estudiante 28 Estudiante 29 Estudiante 30 Estatura 1,21 1,29 1,26 1,22 1,28 1,27 1,26 1,23 1,22 1,21

Si presentamos esta informacin estructurada obtendramos la siguiente tabla de frecuencias: Variable (Valor) 1,20 1,21 1,22 1,23 1,24 1,25 1,26 1,27 1,28 1,29 1,30 Frecuencias absolutas Simple Acumulada 1 4 4 2 1 2 3 3 4 3 3 1 5 9 11 12 14 17 20 24 27 30 Frecuencias relativas Simple Acumulada 3,3% 13,3% 13,3% 6,6% 3,3% 6,6% 10,0% 10,0% 13,3% 10,0% 10,0% 3,3% 16,6% 30,0% 36,6% 40,0% 46,6% 56,6% 66,6% 80,0% 90,0% 100,0%

Si los valores que toma la variable son muy diversos y cada uno de ellos se repite muy pocas veces, entonces conviene agruparlos por intervalos, ya que de otra manera obtendramos una tabla de frecuencia muy extensa de muy poco valor para fines de sntesis.

2.2.1.1 Distribuciones de frecuencia agrupada. Supongamos que medimos la estatura de los habitantes de un edificio y obtenemos los siguientes resultados (cm):
Habitante Habitante 1 Habitante 2 Habitante 3 Habitante 4 Habitante 5 Habitante 6 Habitante 7 Habitante 8 Estatura 1,15 1,48 1,57 1,71 1,92 1,39 1,40 1,64 Habitante Habitante 11 Habitante 12 Habitante 13 Habitante 14 Habitante 15 Habitante 16 Habitante 17 Habitante 18 Estatura 1,53 1,16 1,60 1,81 1,98 1,20 1,42 1,45 Habitante Habitante 21 Habitante 22 Habitante 23 Habitante 24 Habitante 25 Habitante 26 Habitante 27 Habitante 28 Estatura 1,21 1,59 1,86 1,52 1,48 1,37 1,16 1,73

14
Habitante 9 Habitante 10 1,77 1,49 Habitante 19 Habitante 20 1,20 1,98 Habitante 29 Habitante 30 1,62 1,01

Si presentramos esta informacin en una tabla de frecuencia obtendramos una tabla de 30 lneas (una para cada valor), cada uno de ellos con una frecuencia absoluta de 1 y con una frecuencia relativa del 3,3%. Esta tabla nos aportara escasa informacin En lugar de ello, preferimos agrupar los datos por intervalos, con lo que la informacin queda ms resumida (se pierde, por tanto, algo de informacin), pero es ms manejable e ilustrativa: Tabla de distribucin de frecuencias para la variable aleatoria estatura de los estudiantes. Estatura Cm 1,01 - 1,10 1,11 - 1,20 1,21 - 1,30 1,31 - 1,40 1,41 - 1,50 1,51 - 1,60 1,61 - 1,70 1,71 - 1,80 1,81 - 1,90 1,91 - 2,00 Frecuencias absolutas Simple Acumulada 1 3 3 2 6 4 3 3 2 3 1 4 7 9 15 19 22 25 27 30 Frecuencias relativas Simple Acumulada 3,3% 10,0% 10,0% 6,6% 20,0% 13,3% 10,0% 10,0% 6,6% 10,0% 3,3% 13,3% 23,3% 30,0% 50,0% 63,3% 73,3% 83,3% 90,0% 100,0%

El nmero de intervalos en los que se agrupa la informacin es una decisin que debe tomar el analista: la regla es que mientras ms intervalos se utilicen menos informacin se pierde, pero puede que menos representativa e informativa sea la tabla. Se encuentran varias propuestas para esto; una es la formula de Sturges:

K = 1 + 3.32 * log(n) , pero tambin se usan (Scott) K = 2n o K =


3

n[rango] 2 * (Q3 Q1 )
3

(Freedman, and Diaconis,1981). Se recomienda que sean menos de 20 y ms de cuatro intervalos. El procedimiento para crear una tabulacin de frecuencias tiene las siguientes operaciones: Determine el nmero de intervalos a construir (K). Calcule el rango (r = mximo - mnimo). Calcule el ancho inicial del intervalo: Ai =

r K

Establezca una amplitud de clase (ancho del intervalo) aumentando Ai al menos en un 2% ( A (1.02) * A i ). Esta no es una regla que se tenga que cumplir al pie de la letra, el asunto es que se pueda ampliar razonablemente el rango.

15
Determine el rango ampliado: ra = A * K Calcule 2d = ra r Reste d al valor mnimo de la muestra (mnimo reducido).

El primer intervalo se construye o va desde el mnimo reducido (lmite inferior) a la suma del mnimo reducido y la amplitud de clase (A). El segundo intervalo tiene como lmite inferior el lmite superior del primer intervalo; el lmite superior se construye con sumar la amplitud de clase al lmite inferior. De esta forma se repite el proceso hasta completarse todos los intervalos. La tabla se completa al contabilizar, para cada intervalo, las respectivas frecuencias absolutas y el resto de los componentes de la tabla (columnas).
En una tabla de frecuencias, los percentiles (y cualquier cuantil) se calculan usando la siguiente expresin:

i*n fk 100 Pi = L i + *C fj
Pi : Li: fk: fj: C: Es el i-simo percentil. Lmite inferior de la clase o intervalo de inters, esto es, la clase que supera o iguala la proporcin buscada por el percentil. Es la suma de las frecuencias anteriores a la clase de inters. La frecuencia absoluta de la clase de inters. Amplitud de clase o longitud del intervalo

Tarea: calcule a la tabla de frecuencias anterior la mediana, el percentil diez, el cuartil uno y el percentil 95. 2.2.2 Tablas de contingencia. En muchas ocasiones para el investigador ser de inters recolectar, de manera simultnea, en una muestra ms de una cualidad o variable. Por ejemplo, se midi en una empacadora de carnes la cantidad (concentracin) de preservativos que se requieren para que las protenas no inicien su proceso de desnaturalizacin. Para esto se evaluaron los efectos de tres tipos (marcas comerciales) de preservantes en cuatro dosis, sobre la carne de burro, de caballo, de cerdo y de res. Como se puede apreciar, estos resultados sern mejor evaluados si se presentan resumidos en una tabla de doble entrada como la que se muestra a continuacin. Tabla de contingencia. Das para el inicio de la desnaturalizacin de la carne de caballo Concentracin (mg/k) 5 12 18 20 Marca Rocinante 19 25 27 17 Imperial 17 28 30 24 Resplandor 12 20 22 25 Ntese que ser necesaria la construccin de una tabla similar para cada tipo de carne o construir una tabla ms elaborada que muestre toda la informacin.

16

2.3 GRFICOS. Los grficos son el principal instrumento de anlisis exploratorio de las caractersticas de una variable y se construyen de varios tipos, segn el propsito y/o el nivel deseado para el anlisis y segn el tipo de variable que se grafique. 2.3.1 Diagrama de dispersin. La representacin en un grfico los pares de valores de dos variables suministra informacin a cerca de posibles relaciones entre las ellas, con una simple inspeccin a la nube de puntos.

Ejemplo: Se tiene la siguiente informacin acerca de nmero de nemtodos en una muestra de suelo y el contenido de materia orgnica en la misma muestra
Materia Nemtodos Orgnica 7 4.2 6.7 12 9.8 11 15 12.5 13 23 15.7 24 4 5.8 4 Dibuje el diagrama de dispersin entre las dos variables. Nematodos Materia Orgnica 4 11 12.5 15.9 6.8

2.3.2 Diagrama de barras. Se usa para variables de tipo categrico. Se realiza graficando las frecuencias absolutas o las frecuencias relativas de la variable (eje Y) contra los valores observados (eje X). Se distingue del histograma por la separacin de las barras, que no existe en el histograma. 2.3.3 Diagrama de sectores. Las frecuencias relativas de las categoras que se encuentran en la variable son graficadas usando el crculo como representacin de la totalidad de la muestra, cada categora se le asigna un sector (segmento de arco) que es proporcional a esta frecuencia. De esta forma, una categora que tenga una frecuencia relativa de 50% le corresponde el arco descrito por un ngulo de 180

17

Qu porcentaje de las ventas corresponde a los helados de manzana (apple)? 2.3.4 Diagrama de cajas.

Se construyen usando la mediana y los cuartiles. La caja tiene un par de lneas que se prolongan a 1,5 veces el rango intercuartlico (1.5*{Q3 Q1}). La caja la constituyen tres lneas, la primera est a la altura del cuartil uno (Q1), la segunda es la mediana y la tercera el cuartil tres (Q3).

Diagrama de cajas y bigotes para la variable aleatoria X. 2.3.5 Histograma de frecuencias

Se construye graficando las frecuencias absolutas o las frecuencias relativas de la variable (eje Y) contra las categoras o clases en las que se dividi la misma (eje X). Se distingue del diagrama de barras por que la separacin de las barras es cero.

18

Los pasos para construir el histograma son: 1. Defina los intervalos o clases de igual longitud. 2. Cuente el nmero de observaciones que caen en cada clase o intervalo. Esto es llamado la frecuencia. 3. Calcule la frecuencia relativa, hi =

observacio nes _ en _ el _ int ervalo nmero _ de _ datos

4. Grafique los rectngulos cuyas alturas son proporcionales a las frecuencias relativas. Realizar histogramas de esta manera tiene las siguientes ventajas Es til para apreciar la forma de la distribucin de los datos, si se escoge adecuadamente el nmero de clases y su amplitud. Se puede presentar como un grfico definitivo en un reporte. Se puede utilizar para comparar dos o ms muestras o poblaciones. Se puede refinar para crear grficos ms especializados, por ejemplo la pirmide poblacional.

Desventajas Las observaciones individuales se pierden. La seleccin del nmero de clases y su amplitud que adecuadamente representan la distribucin puede ser complicado. Un histograma con muy pocas clases agrupa demasiadas observaciones y uno con muchas deja muy pocas en cada clase. Ninguno de los dos extremos es adecuado.

Debido a que nuestros ojos responden al rea de las barras, es importante mantener la anchura de las barras iguales. Si estamos enfrentados a un problema donde los intervalos tienen diferente amplitud, por ejemplo cuando obtenemos datos agrupados desde la fuente, la siguiente frmula se usa Altura del rectngulo = Frecuencia Relativa / Amplitud del Intervalo

19

2.3.6 Ojiva. Se realiza graficando las frecuencias acumuladas de la variable en estudio (eje Y) contra los valores de la variable (punto medio del intervalo de clase {xi} en el eje X). Tarea: usando las frecuencias acumuladas de la tabla de distribucin de frecuencias de los estudiantes grafique la ojiva correspondiente.

Das könnte Ihnen auch gefallen