Sie sind auf Seite 1von 8

[Index FAC] [Index CCVC]

Bioingeniera e Informtica M dica/Bioengineering- Medical Informatics

Curso: Bioestad stica bsica para m dicos asistenciales


Clase N 2: Estadstica Descriptiva
Ra l E. Ortego, Carlos R. Secotaro

Index curso - Clase anterior - Clase siguiente

Cuantificar para comparar


En conversaciones cotidianas se comparan variables cualitativas utilizando adverbios de cantidad y
adjetivos calificativos. Las seoras comentan que tal afamado diseador de ropas es contradictorio porque
en verano elije colores "clidos" y entre ellos se inclina "ms" por el rojo. Los caballeros, dialogando sobre
automviles, opinan sobre la "mayor o menor confiabilidad" de ciertas marcas reconocidas.
Ha sido reconocido que los pacientes diabticos tienen ms riesgo de arteriopatas. Ciertas
recomendaciones procuran que ese riesgo en pacientes diabticos sea menor.
El lenguaje coloquial deja librado a la imaginacin, a las vivencias previas, en ocasiones a las expectativas
de los interlocutores, la magnitud, el impacto, de tales apreciaciones. Cu nto, y en ocasiones Qu, es
"ms", "mayor", "mejor", etc?.
La Estadstica Descriptiva , acorde a su esencia, debe expresarse matemticamente.
Para describir a las variables cualitativas con nmeros, la primera accin es contar.
Finalmente, si es apropiado, se puede inferir comparando relaciones de muestras.

Frecuencia: mediciones y relaciones


1. Frecuencia Absoluta"f": Cantidad de veces que se repite determinado valor de la variable
(cuantitativas) o atributo (cualitativa).
2. Frecuencia Relativa "fr = f/n": Es el cociente entre la "f" y el n mero total de datos "n".
3. Frecuencia Absoluta Acumulada"fa": Es la suma de las "f" hasta un valor de la variable. Por
ejemplo: si decimos que 40 estudiantes han "sacado" 4 o menos de 4 como nota, en realidad hemos
sumado la cantidad de "0", de "1", de "2", de "3" y de "4". La expresin correcta (porque no "sumamos"
estudiantes) hubiese sido: hay 40 notas con 4 o menos de 4.
4. Frecuencia Relativa Acumulada"fra": Es la suma de las "f" hasta un valor de la variable. En el
ejemplo anterior, si los alumnos (notas) son 80, afirmaramos que el 50% saco 4 o menos de 4.
5. Distribucin de Frecuencia: Es una "Tabla" donde se presentan, en columnas, los valores de la
variable y su correspondientes frecuencias. Por ejemplo, si "tiramos" un dado 50 veces podramos obtener
algo as:

4to. Congreso Virtual de Cardiologa - 4th. Virtual Congress of Cardiology

Prevalencia e incidencia
A una clnica le han ofrecido la posibilidad de atender por sistema de "cpita" a una poblacin de jubilados.
Se trata de 9.900 personas de ambos sexos y con una edad promedio de 60 aos. El sanatorio que los
atiende actualmente realiz un relevamiento de todos ellos investigando Diabetes; encontraron 1980
personas que cumplan con los criterios diagnstico de Diabetes. El sanatorio referido ha solicitado un
incremento en el monto de "cpita" por paciente en razn de que la diabetes aumenta los costos de
atencin. Argumentan que la prevalencia de Diabetes en ese grupo es "m s" alta que en la poblacin
general que se toma como referencia para establecer el monto de la cpita.
El diabetlogo de la clnica es convocado para asesorar al respecto.
La Estadstica Descriptiva utiliza la palabra Prevalencia para referirse a la proporcin de una
totalidad, los jubilados en este caso, que cumple los criterios particulares que interesan ( variable
cualitativa), en nuestro ejemplo, de Diabetes.
Siguiendo los pasos necesarios para transformar variables cualitativas en nmeros, se cont el total de
personas (9.900) y se cont para conocer la frecuencia absoluta (1980) de diabticos.
La relacin de esos nmeros informa que del total de esos jubilados son Diabticos 1980/9.900 (0,2) o
en trminos porcentuales para hacer proyecciones, que la Prevalencia es del 20%.
Ntese que Prevalencia es una manera de referirse a una Frecuencia Relativa .
El Diabetlogo informa que en la poblacin general la Diabetes se presenta con una Prevalencia del 5%.
Ms an, el diabetlogo informa que con la edad promedio de esa poblacin de jubilados, se debe esperar
que la aparicin anual de nuevos casos de Diabetes, en el nuevo idioma, que la Incidencia de
Diabetes, sea superior a la tasa de mortalidad y por lo tanto, con el transcurso del tiempo, la prevalencia
aumentar.
La relacin de una prevalencia con alguna unidad de tiempo, anual en el ejemplo, es lo que la
Estadstica Descriptiva denomina Incidencia.
Prevalencia e Incidencia son maneras matemticas de presentar mediciones y relaciones
(Frecuencias). Son datos obtenidos con variables cualitativas y que la Estadstica Descriptiva
ofrece para hacer proyecciones y/o inferencias.

Riesgo y Odds
Si la variable cualitativa tiene connotacin peligrosa o desagradable en algn sentido, su frecuencia
relativa en los estudios puede incluir esa idea si se la expresa utilizando el trmino Riesgo, es una
alternativa en reemplazo de Prevalencia.
El servicio de ginecologa del hospital regional ha realizado un estudio en el que observ una frecuencia
relativa de 30% de Recin Nacidos de Bajo Peso (RNBP) en embarazos de mujeres menores de 18 aos,
mientras que en mayores de 18 aos fue del 5%.

4to. Congreso Virtual de Cardiologa - 4th. Virtual Congress of Cardiology

La comunicacin de esos datos podra hacerse diciendo que la Prevalencia de RNBP en embarazos de
menores de 18 aos es del 30%, lo cual es mayor que la Prevalencia del grupo control que es del 5%.
En el programa de prevencin de embarazos no deseados el servicio opt por distribuir una circular que
advierte que el Riesgo de RNBP en embarazos de adolescentes es del 30%, siendo el Riesgo habitual del
5%.
La misma idea de frecuencia relativa puede ser expresada matemticamente con una diferencia, sutil con
poblaciones grandes, relevante con poblaciones pequeas o en proceso de cambio. Se trata de la relacin
"Odds".
La Prevalencia es la relacin entre el nmero obtenido de la variable y el total. En ese total estn
includos los "variable positivo" y los "variable negativo". En el ejemplo de los jubilados se relacion los
1980 diabticos con los 9900 jubilados. En esos 9900 jubilados estaban includos los 1980 diabticos.
La relacin Odds resulta de dividir el nmero de "variable positivo" con el nmero de "variable Negativo".
En el ejemplo la Odds Ratio es 1980 /7920 (Diabetes+/Diabetes -).
Esta palabra inglesa tiene muchas acepciones: "impar" (odd shoe), "extra" (odd player in a game),
"chances" ( odds are against us), etc.
La relacin Odds, en ingls Odds Ratio (OR) , proponemos emplearla como Riesgo Agregado o Riesgo
Extra o Probabilidad Adicional ya que relaciona "los que S con los que NO", a "los que les pas con
los que no les pas".
OR simultneamente informa el Riesgo de que SI con la Probabilidad de que NO.
Si se analiza la evolucin durante 10 aos de observacin de una afeccin con un determinado tratamiento
y el evento a contabilizar es la muerte, puede expresarse la frecuencia relativa de la muerte (la
mortalidad) con el criterio que vimos para Riesgo .
En ese caso, el denominador ser siempre el total de pacientes observados, son los que se van muriendo,
van pasando del denominador al numerador pero no se los descuenta del denominador. Es como si los
muertos siguiesen "votando", como si continuasen en el grupo, vigentes para nuevos eventos.
Vemoslo con nmeros: muestra original de 1000 pacientes. El primer ao mueren 25 pacientes:
mortalidad 25/1000 = 0.025 = 2.5%, a los 5 aos han muerto 350 pacientes luego: mortalidad 350 /
1000 = 0.35 = 35%.
Si la relacin se hiciese con OR, se informara el primer ao 25 / 975 = 0.0256 = 2.56%; pero a los 5
aos se informara 350 / 650 = 0.538 =53.8%
Ninguna de las dos relaciones es "mentirosa", pero: Mortalidad 35% o 53.8% a 5 aos?
Han muerto el 35% de los que iniciaron; los vivos saben que la relacin muertos / vivos actualmente es
casi 54%.
OR informa con m s precisin la situaci n al momento del anlisis.
OR es una manera de mantener actualizada la informacin.

Nmeros y localizacin
Para expresar las direcciones de nuestras viviendas hemos elegido hacerlo con nmeros que establecen
nuestra localizacin relacionndola con una posicin conocida.
Referido al planeta deberemos citar Latitud y Longitud de un punto ubicado en nuestra vivienda.
Lo comn es fijar un punto cero en la localidad, al cual se lo denomina punto o Lugar o Centro de
Referencia. Ntese que el Centro de Referencia, o Km 0 en el lenguaje ciudadano, habitualmente no se
ubica en la vivienda de nadie, por cierto que siendo el punto una localizacin virtual, l mismo no es una
vivienda real.
Cualquier ubicacin en una localidad est referida a ese Centro y se urbaniza con las calles
perpendiculares cada 100 metros hacia los cuatro puntos cardinales. Si se dice que alguien reside en Calle
12 Oeste 1464 Norte, queda claro que vive en un lugar al cual pertenece el punto donde se cruzan dos
lneas perpendiculares imaginarias que distan del Centro de Referencia: la primera 1200 m al Oeste y la
otra 1464 m al Norte.
En Estad stica Descriptiva las funciones (Parmetros y Estadgrafos) son utilizados como
Referencia de localizacin de los valores de las variables. Como veremos poco m s adelante es muy til

4to. Congreso Virtual de Cardiologa - 4th. Virtual Congress of Cardiology

saber la localizacin de un valor con respecto a otro utilizado como referencia. En lenguaje coloquial, es
importante saber que tan lejos o cerca del centro de referencia est un determinado valor y cmo se
agrupa el conjunto.
En el lenguaje estadstico se denominan a estos nmeros referenciales, calculados con las mediciones
realizadas, Medidas de Referencia.

Medidas de referencia
Se utilizan dos tipos de medidas, las que identifican el Centro de Referencia de la Poblacin o de la
Muestra y las que expresan la distribucin (Dispersin en la jerga Estadstica) de los valores de esa
poblacin o de esa Muestra alrededor del centro.
En el nuevo idioma que estamos aprendiendo se habla entonces de Medidas de Tendencia Central y de
Medidas de Dispersin, respectivamente.
En la traduccin a nuestro lenguaje cotidiano, proponemos entenderlo como las referencias para localizar
los valores individuales o reales de la variable en estudio.

Medidas de tendencia central


1. Media o Promedio: Se calcula dividiendo el valor resultante de sumar todos los valores obtenidos
(Sumatoria) de la Variable (v) por el nmero de valores obtenidos (n).

2. Mediana: Es un valor de la variable que separa al conjunto en igual nmero de valores mayores y
menores que l mismo. Como se refiere a localizacin sera ms apropiado decir igual nmero de valores a
un lado y a otro, o por encima y por debajo. Por ejemplo, si los valores obtenidos fueron: -2, 0, +2,
+4, +6, la mediana de esa serie es +2. Se la puede definir slo con la jerga estadstica, veamos dnde
estamos con el idioma: "la mediana es el valor de la variable cuya frecuencia acumulada es mayor
que la mitad de la frecuencia del valor total". Todava no lo manejamos? Quiz sea oportuno repasar
el item Frecuencia: Mediciones y Relaciones.
En series grandes y/o "pares" de valores existe una frmula para calcular la mediana que utiliza la
Distribucin de frecuencias y el rango entre cada par de valores inmediatos. A ese rango se lo
denomina: Intervalo de clase.
3. Modo: Es el valor de la variable ms frecuente. Por ejemplo, si los valores obtenidos fueron:
2,2,2,3,5,7, el modo es 2.
En series grandes y/o "empatadas" el modo se calcula tambin con frmulas que utilizan la Distribucin
de frecuencias y el Intervalo de clase.

Medidas de dispersin
1. Rango: Es una manera de sealar los lmites de las localizaciones posibles. Se expresa con dos
valores, el valor m s alto y el valor ms bajo obtenidos de la variable. Por ejemplo: los valores obtenidos
fueron: 2,3,3,4,5,6, el rango es 2 y 6 .
2. Cuantilo: Es un valor de la variable que separa al conjunto dejando ubicados una parte, un

4to. Congreso Virtual de Cardiologa - 4th. Virtual Congress of Cardiology

porcentaje o una proporcin por encima y otra por debajo de ese valor. Por ejemplo, el Percentilo 25
es el valor de la variable que deja por debajo al 25% de los valores obtenidos y por encima al 75% de
esos valores.
3. Desvo: El promedio o media o medio, se construye sumando los valores reales y dividiendo esa
sumatoria por el nmero de valores reales que se sumaron.
Por ejemplo: los valores obtenidos son 2, 2, 3, 3, 4, 4, 7, 7, 8, 10; la media es 5.
En este caso el valor promedio no es uno de los valores reales obtenidos.
No importa, aprendimos que al promedio lo necesitamos como una referencia para ubicar a los valores
reales y relacionarlos al respecto entre ellos mismos.
Esa es la idea del concepto Desvo en este nuevo idioma, expresa la localizacin de un valor real con
respecto al centro de referencia.
El Desvo se calcula restando el valor al promedio. En el ejemplo de marras los desvos de los valores
reales obtenidos son: -3, -3, -2, -2, -1, -1, +2, +2, +3 , +5.
En el leguaje coloquial diramos que hay valores que estn m s cerca y otros ms lejos del promedio; con
otras palabras, el desvo nos dice la ubicacin relativa del valor respecto al promedio y por ende, tambin
de los valores entre s.
Para que tenga sentido, entonces, el desvo se expresa conjuntamente con el promedio de
referencia; para legos, es la "direccin" de un valor de la variable.
Varianza y desvo standard o medio
Si la intencin es inferir como se distribuye la poblacin, la totalidad, sealar cada desvo es engorroso y
poco prctico, por lo tanto, para esa finalidad, si la distribucin de los valores de la variable es ms o
menos simtrica tiene sentido calcular el Desvo Medio (Promedio de los Desv os) o Desvo Standard
( DS ) de los valores de la variable.
Se calcula mediante la siguiente frmula:

La frmula expresa que la sumatoria ( ? ) de los desvos al cuadrado (x )2 debe dividirse por el nmero
de valores obtenidos (n) ; eso ya lo conocemos, es calcular el promedio de los desvos, lo novedoso es
elevar los desvos al cuadrado para luego extraer la raz cuadrada ( v ) al promedio obtenido. Suele
usarse ( n1) en lugar de n, y en eses caso se habla de "grados de libertad".
Para el lenguaje de nuestras conversaciones cotidianas es un galimatas.
Los valores reales obtenidos de la variable son nmeros mayores y menores que el promedio. Eso significa
que habr desvos positivos y negativos, como ya vimos en los ejemplos previos. Hicimos la analoga
de que el desvo es la "direccin" del valor. Imagine qu sentido podra tener dar su direccin o su telfono
con nmeros negativos.
Trabajar con "direcciones negativas" es todo un tema, ms an porque en realidad los desvos son
localizaciones reales, positivas en la jerga comn, y no valores negativos en el sentido de tales
nmeros reales.
Lo que interesa, ms que una localizacin precisa de los valores, es inferir la dispersin promedio, la
ubicacin promedio, comn, Standard, o si se prefiere, cmo se agrupan.
Recordemos algunas cosas simples de matemtica, nos ensearon que nmeros reales que se elevan al
cuadrado dan como resultado un nmero real con signo positivo.
Por ejemplo: (-2) 2 = +4 (+2) 2 = +4 4 ya que la positividad est implcita por omisin.
Elevar al cuadrado la sumatoria de los desvos, antes de dividirlo por el nmero de datos, da como
resultado que la direccin promedio de los desvos es positiva.
El Desvo promedio Positivo, en tanto cuadrtico, se denomina Varianza.
En las comparaciones de muestras, podremos estudiar no solamente las diferencias en las medidas de

4to. Congreso Virtual de Cardiologa - 4th. Virtual Congress of Cardiology

tendencia central, promedios, medianas o modos; tenemos la posibilidad de comparar las dispersiones, en
otros trminos, de analizar la varianza de muestras. Se abre la posibilidad de apreciar que muestras
que parecen similares, que parecen representar a la misma poblacin por la similitud de sus medidas
de tendencia central, en realidad al analizar la varianza exhiben una dispersin tan distinta que
podran representar a poblaciones diferentes. El conjunto se agrupa de manera diferente.
La varianza es muy cmoda para trabajar matemticamente, pero convengamos que como expresin de
dispersin, de ubicaciones, de "direcciones", alrededor de una medida de tendencia central, al tener
un solo signo se autolimita como idea de ubicacin.
Recordbamos que un nmero elevado al cuadrado da un resultado positivo, el procedimiento inverso,
extraer la raz cuadrada de un nmero, da un resultado que admite (tiene) los dos signos conocidos.

Si la varianza es la expresin cuadrtica de la dispersin promedio, parece m s inteligible referirse,


generalizando, a la ubicacin de los valores de la variable por medio de su Raz Cuadrada, ya que al
tener los dos signos expresaremos mejor la idea que queremos transmitir, esto es, que "los valores de la
variable estn localizados ms o menos tanto alrededor de ".
A la Raz cuadrada de la Varianza se la denomina Desvo Medio o Standard y se lo simboliza como DS.
Por supuesto, para que tenga sentido el DS debe expresarse conjuntamente con la medida de
tendencia central de referencia; para legos, es la ubicacin promedio (la dispersin) de los valores
de la variable alrededor del "Km 0".
Comparemos dos muestras, una caracterizada por
50 y DS 1, otra por
50 DS 15. El DS expresa
como se dispersan los valores en general. Si volvemos a nuestra analoga de ver al desvo como las
"direcciones" de los valores, la primer muestra ( 50 1), nos sugiere que los valores estn ubicados muy
prximos, si fuesen viviendas pensaramos en un vecindario urbano, la segunda muestra ( 50 15)
describira una zona rural.
Los datos de la Estadstica Descriptiva son utilizados por la Estadstica Inferencial.
El problema es resolver si las dos muestras del ejemplo representan a una misma poblacin. Piense la
conclusin si compara solo los
(50 y 50) , sin hacer ningn clculo no parece la misma conclusin si
compara
DS ( 50 1 y 50 15) o si se concentra en analizar las varianzas (1 y 225). 1 y 225
resultan de DS2 ya que DS = v v y por lo tanto v = DS 2.
Queda claro que para inferir comparando muestras, son importantes los valores, pero tambin las
funciones, todas ellas, especialmente las que expresan la manera en que se "localizan", se distribuyen,
se dispersan los valores de la variable.
En biologa es frecuente comparar muestras contra s mismas; por ejemplo, antes y despus de un
determinado tratamiento. Si se comparan slo los promedios puede pasar algo semejante a lo del ejemplo
previo, no apreciar diferencias, a pesar de que el tratamiento realmente cambi las condiciones basales.
En otros trminos, que la muestra post tratamiento no representa a la misma poblacin que la muestra
pre tratamiento, pero eso, a veces, slo se percibe con claridad analizando la varianza de las muestras.

Distribucin y localizaciones conflictivas


Algunos valores reales de la variable pueden tener una localizacin tan distante de la medida de tendencia
central que surjan dudas sobre su pertenencia a la poblacin. La Estadstica Descriptiva contempla estas
situaciones analizando los posibles modos de distribucin de los valores de la variable: Distribucin
Simtrica o Asimtrica.

Distribucin simtrica y marginalidad

4to. Congreso Virtual de Cardiologa - 4th. Virtual Congress of Cardiology

Se la reconoce por la coincidencia del valor de media, mediana y modo.


A un valor que impresiona fuera de contexto, que es difcil aceptarlo como perteneciente a la poblacin
muestreada, se lo denomina Marginal.
Su equipo de trabajo explor los valores de colesterol sanguneo en 100 varones de 30 a 50 aos
asintomticos y sin antecedentes personales ni familiares de factores de riesgo para aterosclerosis con
examen fsico normal.
El 68% de los valores se encontraron en el rango 170 a 190 mg%; el 95% en el rango 160 a 200 mg% y
el 99% en el rango 150 a 210 mg%.
Un valor hallado, y corroborado que no se trataba de un error tcnico, fue 450 mg%.La duda es
considerarlo un valor normal casual y por lo tanto incluirlo para los clculos o, una rara enfermedad
gentica con hipercolesterolemia sin impacto clnico temprano.
Se trata claramente de un valor marginal. Su equipo decide comunicar su hallazgo y aclarar que no
se lo incluy en los clculos hasta no completar estudios genticos.

Distribucin asimtrica
Se las reconoce por la falta de coincidencia entre media y mediana.
Los valores de la variable tienden a agruparse (modo) hacia alguno de los extremos.
El reconocimiento de la distribucin es muy importante para el tratamiento estadstico.
Aplicar frmulas propias de una distribucin simtrica a valores dispersos de manera asimtrica provoca
errores con trascendencia en la proyeccin y en las inferencias.
En dispersiones asimtricas se debe optar entre media y mediana como medida de Tendencia
Central; hay que decidir y elegir la que se crea ms til como referencia para caracterizar la
distribucin de los valores de la variable.
La media esta muy influenciada por los valores extremos, por marginales.
Por ejemplo: los valores obtenidos son 2, 4, 6, 8, 40; la media es 15; la mediana es 6.
El tratamiento matemtico para proyectar e inferir conclusiones de las muestras a la poblacin vara
segn el tipo y la distribuci n de los valores obtenidos.

Index curso - Clase anterior - Clase siguiente

Publicacin: Septiembre 2005


Tope

Preguntas, aportes y comentarios ser n respondidos por el relator


o por expertos en el tema a travs de la lista de Bioingeniera e Informtica Mdica
Llene los campos del formulario y oprima el botn "Enviar"

Preguntas, aportes o
comentarios:

Nombre y apellido:
Pas: Argentina
Direccin de E-Mail:

4to. Congreso Virtual de Cardiologa - 4th. Virtual Congress of Cardiology

Enviar

Borrar

Dr. Diego Esandi


Co -Presidente
Comit Cientfico

Dra. Silvia Nanfara


Co -Presidente
Comit Cientfico

Prof. Dr. Armando Pacher


Presidente
Comit Tcnico/Organizador

Correo electrnico

Correo electrnico

Correo electrnico

1994-2005

CETIFAC - Bioingenier a UNER

Webmaster Actualizacin: 13-sep-05

4to. Congreso Virtual de Cardiologa - 4th. Virtual Congress of Cardiology

Das könnte Ihnen auch gefallen