Sie sind auf Seite 1von 279

UNIVERSIDAD POLITECNICA

ESTATAL DEL CARCHI

Estadstica Descriptiva
Facultad de Ciencias Administrativas
Escuela de Administracin Pblica
ESTADSTICA DESCRIPTIVA

Objetivo:
Informar sobre los propsitos generales de la Estadstica y de la
Investigacin destacando su importancia en la generacin de
conocimiento y tecnologa.

La Estadstica estudia cmo debe emplearse la informacin y cmo


dar una gua de accin en situaciones prcticas que entraan
incertidumbre.
En una ocasin le preguntaron a un famoso director de orquesta cul era
para l, el mejor instrumento de la orquesta. Y contest que, para l, el
mejor instrumento de la orquesta era la orquesta.

La Estadstica es una orquesta formada por la suma de muchos


instrumentos, de muchas tcnicas que pretenden ayudarnos a entender
mejor la realidad. De estas tcnicas se obtiene mayor provecho si se
unifican, si se comprenden los fundamentos, si se llega a las ideas que
hay detrs de todas ellas como conjunto. La Estadstica es mejor
instrumento, se aplica con ms eficacia, cuando todas sus tcnicas se
ponen en juego ante un problema real concreto, cuando es una orquesta
que suena como un nico instrumento.

La Estadstica es un lenguaje que ayuda a analizar mejor la realidad que


nos rodea. Es un lenguaje que ayuda a pensar, que ayuda a mirar, a
relacionar, a comparar, ayuda a ver ms all de donde llega nuestra
mirada. Es un lenguaje integrador, que nos permite ver la unidad dentro
de la diversidad. . (Llopis Prez, 2014)
PARA QU SIRVE LA
ESTADSTICA?
La Ciencia se ocupa en general de fenmenos observables

La Ciencia se desarrolla observando hechos, formulando leyes


que los explican y realizando experimentos para validar o
rechazar dichas leyes

Los modelos que crea la ciencia son de tipo determinista o


aleatorio (estocstico)

La Estadstica se utiliza como tecnologa al servicio de las


ciencias donde la variabilidad y la incertidumbre forman parte
de su naturaleza

La Bioestadstica [...] ensea y ayuda a investigar en todas las


reas de las Ciencias de la Vida donde la variabilidad no es la
excepcin sino la regla
DEFINICIONES BASICAS DE ESTADISTICA
ESTADISTICA
DESCRIPTIVA POBLACIONES INFERENCIAL
(Deductiva) (Inductiva)
Es la fase de descripcin,No de personas UPEC Esta fase busca obtener
organizacin, sntesis y anlisis de la Total conclusiones slidas y ms
informacin de inters pero sin llegar profundas que una simple
a conclusiones fuertes o profundas MUESTRA descripcin de la informacin,
sobre la misma; es ms, una fase de No de personas 1er ao. basados en el trabajo con muestras
recoleccin y organizacin de y su posterior generalizacin de
informacin para su examen resultados para la toma de
cuidadoso. decisiones y conclusiones slidas.
CUALITATI
VAS
VARIABLES
CONTINUAS
CUANTITATIVAS
DISCRETAS
Definicin

La Estadstica es la Ciencia de la

a
Sistematizacin, recogida, ordenacin y
ipt iv presentacin de los datos referentes a un
e s cr fenmeno que presenta variabilidad o
D incertidumbre para su estudio metdico, con
objeto de
ad
i lid
b
o ba deducir las leyes que rigen esos fenmenos,
Pr

i a
nc
re
nfe
I
y poder de esa forma hacer previsiones sobre
los mismos, tomar decisiones u obtener
conclusiones.
Parmetros y estadsticos

Parmetro: Es una cantidad nmerica calculada sobre una


poblacin

La altura media de los individuos de un pas

La idea es resumir toda la informacin que hay en la poblacin en


unos pocos nmeros (parmetros).

Estadstico: dem (cambiar poblacin por muestra)

La altura media de los que estamos en este aula.


Somos una muestra (representativa?) de la poblacin.

Si un estadstico se usa para aproximar un parmetro tambin se le


suele llamar estimador.

Normalmente nos interesa conocer un parmetro, pero por la dificultad que


conlleva estudiar a *TODA* la poblacin, calculamos un estimador sobre una
muestra y confiamos en que sean prximos. Ms adelante veremos como
elegir muestras para que el error sea confiablemente pequeo. 7
1.- MTODO CIENTFICO.

El objetivo de la ciencia es lograr una descripcin, explicacin y prediccin de los procesos o


fenmenos naturales.

La descripcin es la etapa inicial del estudio. La explicacin consiste en encontrar las leyes
naturales que rigen el fenmeno. Finalmente, la prediccin se logra mediante el uso adecuado
de las leyes naturales; en este ltimo proceso las leyes naturales juegan un papel fundamental.

Aunque con variaciones importantes, los cientficos siguen de modo aproximado una
metodologa comn. El llamado mtodo cientfico es el camino ms adecuado para la bsqueda
de leyes naturales. Es necesario entender bien el mtodo cientfico para conocer las
caractersticas de su producto: "Las leyes naturales o conocimiento objetivo de la realidad".

El mtodo cientfico consta de cuatro etapas fundamentales, que ocurren sucesivamente en un


proceso espiral, donde las continuas apariciones de una misma etapa difieren cualitativa y/o
cuantitativamente. Suarez, Gabriel 2012)
Etapa 1. Coleccin de hechos por observacin o
experimentacin.
Etapa 2. Formulacin de hiptesis o teoras que expliquen los
hechos en trminos de relaciones de causa a efecto.
Etapa 3. A partir de la hiptesis, por deduccin, se determinan
nuevos resultados surgen bajo ciertas condiciones. Si la
hiptesis es cierta, estas deducciones constituyen un nuevo
conocimiento. Si la hiptesis no es cierta, se esperan otros
hechos que son factibles de ocurrir de acuerdo a las mismas
condiciones.
Etapa 4. Verificacin de las deducciones mediante nueva
observacin o experimentacin.
Pasos en un estudio estadstico
Plantear hiptesis sobre una poblacin
Los fumadores tienen ms bajas laborales que los no fumadores
En qu sentido? Mayor nmero? Tiempo medio?

Decidir qu datos recoger (diseo de experimentos)


Qu individuos pertenecern al estudio (muestras)
Fumadores y no fumadores en edad laboral.
Criterios de exclusin Cmo se eligen? Descartamos los que padecen
enfermedades crnicas?
Qu datos recoger de los mismos (variables)
Nmero de bajas
Tiempo de duracin de cada baja
Sexo? Sector laboral? Otros factores?

Recoger los datos (muestreo)


Estratificado? Sistemticamente?

Describir (resumir) los datos obtenidos


tiempo medio de baja en fumadores y no (estadsticos)
% de bajas por fumadores y sexo (frecuencias), grficos,...

Realizar una inferencia sobre la poblacin


Los fumadores estn de baja al menos 10 das/ao ms de media que los no
fumadores.

Cuantificar la confianza en la inferencia


Nivel de confianza del 95%
Mtodo cientfico y estadstica
Poblacin y muestra
Poblacin (population) es el conjunto sobre el que
estamos interesados en obtener conclusiones (hacer
inferencia).
Normalmente es demasiado grande para poder
abarcarlo.

Muestra (sample) es un subconjunto suyo al que


tenemos acceso y sobre el que realmente hacemos
las observaciones (mediciones)
Debera ser representativo
Esta formado por miembros seleccionados de la
poblacin (individuos, unidades experimentales).
PRESENCIA DE UNA MARCA A NIVEL MUNDIAL
PESO REPORTADO POR LA POBLACIN INFANTIL DE TULCN
TOS MUSICALES EN LA COMUNIDAD JUVENIL DE LA UPEC
La Medicin

En el sentido mas corriente y elemental, el concepto de medir es utilizado para


significar la asignacin de valores numricos o dimensiones a un objeto u
objetos mediante la utilizacin de determinados procedimientos. En trminos
ms estrictamente metodolgicos, la medicin consiste sustancialmente en una
observacin cuantitativa, atribuyendo un nmero a determinadas caractersticas
o rasgos del hecho o fenmeno observado. Esto no presenta mayores
inconvenientes si se trata de medir aspectos materiales y morfolgicos de los
objetos de estudio; la dificultad aparece cuando se desean expresar
numricamente aspectos mas evanescentes e intangibles.

VALIDEZ, FIABILIDAD, PRESICION.


Variables

En
Una variable es una caracterstica observable que cambia entre
los individuos de la poblacin
los diferentes individuos de una poblacin. La informacin que
ecuatoriana, de uno a otro es
disponemos de cada individuo es resumida en variables.
variable:

El grupo sanguneo
{A, B, AB, O} Var. Cualitativa
Su nivel de felicidad
declarado
{Deprimido, Ni fu ni fa, Muy Feliz} Var.
Ordinal
El nmero de hijos
{0,1,2,3,...} Var. Numrica discreta
La altura
{162 ; 174; ...} Var. Numrica
continua
17
Tipos de variables
Cualitativas
Si sus valores (modalidades) no se pueden asociar naturalmente
a un nmero (no se pueden hacer operaciones algebraicas con
ellos)

Nominales: Si sus valores no se pueden ordenar


Sexo, Grupo Sanguneo, Religin, Nacionalidad, Fumar (S/No)

Ordinales: Si sus valores se pueden ordenar


Mejora a un tratamiento, Grado de satisfaccin, Intensidad del dolor

Cuantitativas o Numricas
Si sus valores son numricos (tiene sentido hacer operaciones
algebraicas con ellos)

Discretas: Si toma valores enteros


Nmero de hijos, Nmero de cigarrillos, Num. de cumpleaos

Tema 1: Introducin Continuas: Si entre dos valores, son


18 posibles infinitos valores Bioestadstica. U. Mlaga.
intermedios.
Es buena idea codificar las variables como
nmeros para poder procesarlas con
facilidad en un ordenador.
Es conveniente asignar etiquetas a los
valores de las variables para recordar qu
significan los cdigos numricos.
Sexo (Cualit: Cdigos arbitrarios)
1 = Hombre
2 = Mujer
Raza (Cualit: Cdigos arbitrarios)
1 = Blanca
2 = Negra,...
Felicidad Ordinal: Respetar un orden al
codificar.
1 = Muy feliz
2 = Bastante feliz
3 = No demasiado feliz
Se pueden asignar cdigos a respuestas
especiales como
0 = No sabe
99 = No contesta...
Estas situaciones debern ser tenidas en
cuentas en el anlisis. Datos perdidos
(missing data)
Aunque se codifiquen como nmeros, debemos
recordar siempre el verdadero tipo de las variables y
su significado cuando vayamos a usar programas de
clculo estadstico.
Los posibles valores de una variable suelen denominarse modalidades.

Las modalidades pueden agruparse en clases (intervalos)


Edades:
Menos de 20 aos, de 20 a 50 aos, ms de 50 aos
Hijos:
Menos de 3 hijos, De 3 a 5, 6 o ms hijos

Las modalidades/clases deben forman un sistema exhaustivo y excluyente


Exhaustivo: No podemos olvidar ningn posible valor de la variable
Mal: Cul es su color del pelo: (Rubio, Moreno)?
Bien: Cul es su grupo sanguneo?
Excluyente: Nadie puede presentar dos valores
simultneos de la variable
Estudio sobre el ocio
Mal: De los siguientes, qu le gusta: (deporte, cine)
Bien: Le gusta el deporte: (S, No)
Bien: Le gusta el cine: (S, No)
ESCALAS DE MEDICIN DE LA VARIABILIDAD

La medicin de la variacin constituye el acto de registrar


la informacin (toma de datos) de cada variable, en los
individuos que conforman una muestra o poblacin,
empleando escalas.

A cada escala de medicin le corresponde un cierto


conjunto de operaciones admisibles.
Las escalas de medicin pueden
ser:

Nominal,
Ordinal,
De intervalo constante sin
cero real; y,
De intervalo constante con
cero real.
ESCALA NOMINAL

La medicin de variables discontinuas en escala nominal se da


en un nivel elemental por clasificacin cualitativa, sin relacin
entre s.
Las medidas en escala nominal simplemente nombran o
etiquetan los caracteres cualitativos.
Las letras, solo tienen el propsito de etiquetar un
listado de cultivos o variedades, respectivamente.

Las principales caractersticas de la escala nominal se


representan en los siguientes elementos:

Relaciones definidas: Equivalencia


Tcnicas estadsticas: No paramtricas
Operaciones admisibles: Moda, distribucin de
frecuencias y coeficiente de
contingencia
Ejercicio: Clasificar las variedades de caf cultivadas en el Ecuador,
segn el color de los frutos
ESCALA ORDINAL

La medicin en escala ordinal de individuos u


objetos considera la relacin entre categoras,
estableciendo un orden o rango.
Ejemplo: Escala para clasificar las variedades de caf por su
grado de resistencia a la roya
La escala ordinal se caracteriza
por los siguientes elementos:
Relaciones definidas:Equivalencia de
mayor a menor
Tcnicas estadsticas: No paramtricas
Operaciones admisibles: Moda,
Frecuencias,
mediana,
percentiles,
Correlaciones rs de
Sperman; R y W de
Kendall.
Ejercicio: Clasificacin de las variedades de
caf cultivadas en el Ecuador en
relacin a los diferentes grados de
resistencia a la roya.
ESCALA DE INTERVALO CONSTANTE SIN CERO REAL

La escala de intervalo constante sin cero real


tiene los elementos de la escala ordinal y,
adems, permite conocer la distancia entre
dos nmeros consecutivos de la medicin, a
partir de un cero arbitrario.

Ejemplos de escalas de intervalo constante sin


cero real:

Medicin de la temperatura (grados


centgrados o grados Fahrenheit:
F0 = 9/5 C0 + 32).
Medicin del tiempo en horas (cero horas
= 24HOO).
Medicin de la latitud geogrfica (la lnea
equinoccial es latitud 0).
Esta escala de medicin tiene las
siguientes caractersticas:
Relaciones definidas: Equivalencia de mayor a menor,
proporcin conocida de intervalo en la
escala de medicin.
Tcnicas estadsticas: Paramtricas y no paramtricas
Operaciones admisibles: Media, correlacin r de
Pearson, correlaciones mltiples,
desviacin estndar y todas las
pruebas no paramtricas.
La DE
ESCALA escala de CONSTANTE
INTERVALO intervalo constante
CON con
CERO REAL-RAZN cero
O PROPORCIN
real tiene en su origen un punto 0; los
datos son obtenidos mediante
mediciones empleando instrumentos
(p.e.: cinta mtrica, balanza), de esta
manera se conoce la distancia entre dos
nmeros consecutivos de la medicin y se
consideran como
Ejemplos: * Altura de verdaderos nmeros.
planta (m)
* Peso del fruto /planta (g).
La escala de
Relaciones intervalo
definidas: constante con
Equivalencia cero real
de mayor a
se caracteriza por menor,
los siguientes elementos:
proporcin conocida
de intervalo en la escala de
medicin, valores reales de
la escala.
Tcnicas estadsticas: Paramtricas y no
paramtricas
Operaciones admisibles: Media, correlacin r
de Pearson, correlaciones,
mltiples, media geomtrica,
desviacin estndar,
coeficiente de variacin y
todas las pruebas no
paramtricas.
TIPOS DE DATOS

Los datos obtenidos mediante el uso de las escalas de


medicin, pueden ser:

Cuantitativos; o,
Cualitativos

DATOS CUANTITATIVOS

Son aquellos que resultan de hacer mediciones o conteos.


Se clasifican en dos subtipos:

Datos Discretos. Son los que resultan de hacer


conteos y por lo general son nmeros enteros.
Datos Continuos. Son los que resultan de hacer
mediciones y pueden asumir cualquier valor de la
recta real.
DATOS CUALITATIVOS O CATEGRICOS

Son aquellos que expresan atributos o categoras. Para


facilitar el anlisis estadstico de este tipo de datos
frecuentemente se codifican a nmeros. Esta codificacin da
lugar a dos subtipos de datos categricos:

Datos Nominales. Son aquellos datos


categricos que pueden ser codificados
numricamente pero donde hay una relacin
arbitraria entre los nmeros asignados y el valor
de la variable.
Datos Ordinales. Son aquellos que al ser
codificados numricamente deben guardar una
correspondencia entre los nmeros asignados y
el verdadero valor de la variable.
datos tiene como objetivo final descubrir las
caractersticas y propiedades de aquello que gener los
datos.

Por ejemplo, se tiene una poblacin de plantas frutales y


se les mide la altura. El conjunto de datos de altura
constituye una poblacin o universo estadstico. El
anlisis de estos datos de altura sirve para caracterizar
la poblacin de plantas frutales.

Si un tcnico controla un proceso agroindustrial y recoge


una serie de mediciones que luego las analiza, no es
porque est interesado en jugar con los nmeros, sino
porque a travs de los datos numricos puede evaluar el
comportamiento del proceso, que es lo que realmente le
interesa.
RECOLECCIN DE DATOS
FORMAS DE RECOLECCIN DE DATOS

Datos existentes
Fuentes primarias (encuesta,
censo)
Fuentes secundarias (literatura)

Datos no existentes
Entrevista (personal, telefnica,
por correo)
Observacin directa
Ensayos
Caractersticas de un
instrumento de medicin
Validez:

Se refiere al grado de precisin en que un


instrumento mide lo que se desea medir.

Confiabilidad:

Se refiere al grado en que su aplicacin repetida,


al mismo sujeto u objeto, produce el mismo
resultado.
Los factores que afectan la confiabilidad y la validez son:
la improvisacin, instrumentos no validados, lenguaje
del instrumento y condiciones de ambiente
Documentacin
Tcnica de
recoleccin de
datos mas bsica
y mas inexacta.
Corresponden a los
estudios retrospectivos
donde es la nica forma
disponible de recopilar
la informacin

Los estudios basados en la documentacin no cuenta


con instrumentos de medicin, nicamente con ficha
de recoleccin de datos donde debemos copiar o
trasladar la informacin
La observacin es cientfica
cuando :
Sistemtica
Controlada
Cuenta mecanismos para
evitar errores y confusiones.

Observaci
n
Observacin no participante:
Es cuando se perturba la accin o situacin que se esta investigando.

Observacin participante:
Implica conciencia en el
evaluado.
Entrevista
La evaluacin que se realiza al
individuo no debe pasar inadvertido
El instrumento es el evaluador la
reaccin la provoca directamente el
evaluador

Estructurada: si No estructurada:
cuenta con una Cuando buscan explorar
gua caractersticas del
evaluado
Encuesta
Busca conocer la respuesta
de un grupo; Puede
corresponder a una muestra
o una poblacin

Asincrnico o Auto Sincrnico o


administrativo: Si Heteroadministrativo:
el individuo cuando hay el
completa los encuestador .
reactivos.
Psicometr
a Desarrollada por los
investigadores de las ciencias
del comportamiento
No requiere que el investigador
pertenezca a la lnea de
investigacin; primero por que
los instrumentos son
autoadministrables
Por ultimo por que el evaluado
se puede autocalificar.
Utilizada para medir algunas
variables
Observacin
cientfica Tcnica de
recoleccin de datos
mas utilizada
Elementos del proceso de observacin:

Sujeto u observador
El ente observado
Los medios de observacin
Las circunstancias de la observacin

Clasifica:
1.SEGN LA RELACIN DEL OBSERVADOR Y EL
ENTE OBSERVADO.
PARTICIPANTES:
NO PARTICIPANTES:
El investigador se
incluye en el grupo , Es la observacin del
hecho observado con contexto del grupo
la finalidad de social sin intervenir
conseguir informacin en el fenmeno
desde adentro observado.
El investigador no
perturba la accin o
Natural : si el observador pertenece al grupo situacin del hecho
Artificial: si la integracin del observador es a observado.
propsito Aqu se encuentran
todas las magnitudes
de las variables
objetivas : talla el
peso
2. Segn los medios de
observacin
ASISTEMATICA
SISTEMATICA
No es segmentada ya que se
Por ser selectiva necesita la realiza sin la ayuda de
ayuda de elementos bsicos elementos tcnicos.
tales como: registros , escalas Tcnica simple o libre
de apreciacin etc. No permite la medicin por
que es subjetiva.
Permite una verdadera
medicin.
3. Segn las circunstancias de la
observacin.
Campo

No controlada
Observacin
descriptiva
Se la realiza en
el lugar de los
hechos
Laboratorio

Controlada
El ente observado
no se encuentra en su
estado natural
requiere de procesos
para controlar su
ambiente
Mediciones de mayor
estabilidad
Entrevista de investigacin

Una tcnica de investigacin


cualitativa
Entrevista no
estructurada

Entrevista a profundidad
Es netamente cualitativa, busca explorar y descubrir
caractersticas en el evaluado, no sigue reglas.
No clasifica no tiene inters de tabular datos, pero orienta
posibles hiptesis.

Entrevista enfocada
Se concentra en uno o varios puntos.
El entrevistador conoce directa e indirectamente esta situacin
Cuenta con una lista de temas abarca a fin de no omitir aspectos
importantes.
Modificando el investigador la forma y orden dependiendo de las
circunstancias.
Formula hiptesis
Obtiene una conclusin
Entrevista estructurada
Se encuentra con una gua de
encuesta
El objeto de estudio ya se
encuentra caracterizado y
consiste en proporcionar un
numero fijo de preguntas.
El investigador debe formular
preguntas que ampli la
informacin proporcionada
Es una tcnica y no un arte
Permite uniformizar las
respuestas, es
semicuantitativa.
Permite hace comparaciones.
Pone a prueba la hiptesis.
Qu es un muestreo?
Es la tcnica pararecoger una muestra
a partir de una poblacin o un subgrupo
de esta el, objetivo es estimar
parmetros por ejemplo, medidas,
prevalecas etc. Permite inferir sobre la
poblacin basndose en la informacin
de la muestra.
La muestra se deriva
de:
Formulacin Determinacin Los posibles
Definicin Definicin del universo y de
de problema de de riesgos de la
la poblacin a
objetivos variables partir de los investigacin
objetivos

Muestra
TIPO DE MUESTREO
Se clasifican en :

Muestreo probabilstico.
Muestreo no-
probabilstico.
MUESTREO
PROBABILSTICOS.

Los mtodos de muestreo probabilsticos son


aquellos que se basan en el principio de
equiprobabilidad.

Muestreo aleatorio simple


Muestreo estratificado
Muestreo sistemtico
Muestreo polietpico o por
conglomerados
MUESTREO
SIMPLE
Es un procedimiento de seleccin por el cual todos los
elementos de las muestras aleatorias de igual tamao,
tomadas de una poblacin dada, tienen la misma
probabilidad de ser tomadas.

El procedimiento empleado es el siguiente:


1) Se asigna un nmero a cada individuo de la poblacin y
2) A travs de algn medio mecnico (bolas dentro de una bolsa,
tablas de nmeros aleatorios, nmeros aleatorios generados
con una calculadora u ordenador, etc.) se eligen tantos sujetos
como sea necesario para completar el tamao de muestra
requerido.
MUESTREO
SISTEMTICO.
Supongamosque tenemos una lista denmeros de elementos
ejemplo de un grupo de estudiantes queremos una muestra de
tamao N es este caso los ordenamos en funcin de los apellidos
y despus se elige aleatoriamente un elemento. Formula N/n=k
y luego se eligen de manera sistemtica en que este klugares
despus del primer elemento y as sucesivamente
MUESTREO
ESTRATIFICADO .
Consiste en dividir la poblacin total en clases
homogneas (estratos). Cada estrato funciona
independientemente, pudiendo aplicarse dentro de ellos
el muestreo aleatorio simple para elegir los elementos
concretos que formarn parte de la muestra.
MUESTREO
CONGLOMERADOS.
Mtodo de muestreo en el que la poblacin se divide en
conglomerados/ grupos, en el que se selecciona solamente un
subconjunto de cada conglomerado en lugar del conglomerado
completo. Este mtodo utiliza a menudo las zonas de
enumeracin como unidad primaria de muestreo
MUESTREO NO-
PROBABILSTICO
El muestreo probabilstico resulta excesivamente
costoso y se acude a mtodos no probabilsticos,
aun siendo conscientes de que no sirven para
realizar generalizaciones, pues no se tiene certeza
de que la muestra extrada sea representativa, ya
que no todos los sujetos de la poblacin tienen la
misma probabilidad de se elegidos.

Se clasifican en :
por Cuotas
opintico o intencional
casual o incidental
de Bola de Nieve
Cuando Aplicar Muestreo No Probabilstico
Cuando se pretende estudiar una poblacin
rara o marginal

Cuando no hay un marco disponible para


propsitos de muestreo

Cuando se considera que no requiere cifras


exactas sobre la representatividad
estadstica de los resultados
MUESTREO POR CUOTAS
Es el mtodo ms utilizado actualmente,
especialmente en los sondeos y encuestas
utilizados por los medios de comunicacin. Se
trata de construir una muestra idntica a la
poblacin a estudiar en trminos de
propiedades.
MUESTREO OPINTICO O
Este INTENCIONAL
tipo de muestreo se caracteriza por un esfuerzo
deliberado de obtener muestras representativas
mediante la inclusin en la muestra de grupos
supuestamente tpicos. Es muy frecuente su utilizacin
en sondeos preelectorales de zonas que en anteriores
votaciones han marcado tendencias de voto.
MUESTREO CASUAL O
INCIDENTAL
Se trata de un proceso en el que el investigador selecciona
directa e intencionadamente los individuos de la poblacin. El
caso ms frecuente de este procedimiento el utilizar como
muestra los individuos a los que se tienen fcil acceso.
MUESTREO POR BOLA
DE NIEVE
Se localiza a algunos individuos, los cuales conducen a otros, y estos a
otros, y as hasta conseguir una muestra suficiente. Este tipo se emplea
muy frecuentemente cuando se hacen estudios con poblaciones
marginales, delincuentes, sectas, determinados tipos de enfermos, etc.
TAMAO DE MUESTRA:

El tamao de una muestra es el nmero de individuos que contiene.


Una frmula muy extendida que orienta sobre el clculo del tamao de la muestra para datos globales es la
siguiente:

N: es el tamao de la poblacin o universo (nmero total de posibles encuestados).

k: es una constante que depende del nivel de confianza que asignemos. El nivel de confianza indica la
probabilidad de que los resultados de nuestra investigacin sean ciertos: un 95,5 % de confianza es lo mismo
que decir que nos podemos equivocar con una probabilidad del 4,5%. Los valores de k se obtienen de la tabla
de la distribucin normal estndar N (0,1).
Los valores de k ms utilizados y sus niveles de confianza son:
Valor de k 1,15 1,28 1,44 1,65 1,96 2,24 2,58

Nivel de confianza 75% 80% 85% 90% 95% 97,5% 99%

(Por tanto si pretendemos obtener un nivel de confianza del 95% necesitamos poner en la frmula k=1,96)
n=

e: es el error muestral deseado, en tanto por uno. El error muestral es la diferencia que
puede haber entre el resultado que obtenemos preguntando a una muestra de la
poblacin y el que obtendramos si preguntramos al total de ella.

p: proporcin de individuos que poseen en la poblacin la caracterstica de estudio. Este


dato es generalmente desconocido y se suele suponer que p=q=0.5 que es la opcin
ms segura.

q: proporcin de individuos que no poseen esa caracterstica, es decir, es 1-p.

n: tamao de la muestra (nmero de encuestas que vamos a hacer).

Altos niveles de confianza y bajo margen de error no significan que la encuesta sea de
mayor confianza o est ms libre de error necesariamente; antes es preciso minimizar la
principal fuente de error que tiene lugar en la recogida de datos.
Ejemplo 1: si los resultados de una encuesta dicen que 100 personas
compraran un producto y tenemos un error muestral del 5%
comprarn entre 95 y 105 personas.

Ejemplo 2: si hacemos una encuesta de satisfaccin a los empleados


con un error muestral del 3% y el 60% de los encuestados se
muestran satisfechos significa que entre el 57% y el 63% (60% +/- 3%)
del total de los empleados de la empresa lo estarn.

Ejemplo 3: si los resultados de una encuesta electoral indicaran que un


partido iba a obtener el 55% de los votos y el error estimado fuera del
3%, se estima que el porcentaje real de votos estar en el intervalo 52-
58% (55% +/- 3%).
TABULACION DE LA
INFORMACION
bjetivo:

onocer las aplicaciones del anlisis de frecuencias,


descripcin de una variable cuantitativa, estadstica
escriptiva bidimensional y el anlisis multivariado.
La estadstica descriptiva tiene el propsito
de describir los rasgos o caracteres
fenotpicos de las poblaciones; as como, las
caractersticas de los objetos que son
medibles mediante diferentes escalas, en
determinadas condiciones de tiempo y
espacio.

Como parte de la estadstica descriptiva se


mencionan: el anlisis de frecuencias, las
ANLISIS DE FRECUENCIAS

El anlisis de frecuencias es una tcnica NO


PARAMTRICA que permite interpretar los
fenmenos. Este anlisis puede ser en uno o
dos sentidos. El investigador deber planear
cuidadosamente la recoleccin de datos para
asegurar la calidad de la informacin
resultante.
Para el anlisis de frecuencias se debe iniciar
DISTRIBUCIN DE FRECUENCIAS DE UNA
VARIABLE
Se entiende por frecuencia el nmero de veces que
una caracterstica o un valor aparece en un conjunto de
observaciones y por distribucin de frecuencia el
mtodo estadstico para describir el comportamiento de
un conjunto de datos; stos se ubican en categoras o
clases y se indica la frecuencia correspondiente en cada
una de ellas.
Para agrupar los datos en categoras es conveniente
seguir una serie de reglas que se resumen a
continuacin. Sin embargo, es importante indicar que en
la actualidad existe software especializado para
desarrollar estos procedimientos estadsticos en forma
rpida, eficaz y confiable.
FRECUENCIA ABSOLUTA Y FRECUENCIA ABSOLUTA
ACUMULADA

VARIABLE DATOS No de Individuos

REPETICIONES

CUANTITATIVA FRECUENCIA

CUALITATIVA
PRENDAS DE VESTIR n N

CORBATA 10 10

n= 20 CASUAL 5 15

INFORMALMENT
E 5 20

ABSOLUTA n
FRECUENCI
A
ABSOLUTA
ACUMULADA N
CONTEO DE DATOS
N= 20
Se reportan los datos Xi ni Ni
correspondientes a la edad de
20 estudiantes, en el curso de 16 1 1
Estadstica 17 3 4
19 17 18 20 17 18 7 11
20 21 18 18 19 19 4 15
18 20 19 18 18
19 18 16 17 20 20 4 19
21 1 20
Se presentan los gneros musicales N= 15
preferidos por 15 habitantes de una
misma cuadra Xi ni Ni
Rock 5 5
Rock Jazz Clsica Latina Latina Jazz 3 8
Jazz Clsica Clsica Rock Rock Clsica 4 12
Clsica Latina Rock Jazz Rock Latina 3 15
FRECUENCIA RELATIVA Y FRECUENCIA RELATIVA
ACUMULADA
FRECUENCIA

ABSOLUTA RELATIVA
fi= ni/N
(ni) (%) (fi)

ABSOLUTA RELATIVA
ACUMULADA ACUMULADA
(Ni) (Fi)=100%
Fi=Ni/N
(%)
CONSTRUCCION DE UNA TABLA DE
FRECUENCIAS
Se presentan los gneros musicales N= 15
preferidos por 15 habitantes de una
misma cuadra Xi ni Ni

Rock Jazz Clsica Latina Latina Rock 5 5

Jazz 3 8
Jazz Clsica Clsica Rock Rock
Clsica 4 12
Clsica Latina Rock Jazz Rock
Latina 3 15

Xi ni Ni fi Fi
Rock 5 5 33% 33%
Jazz 3 8 20% 53%
Clsica 4 12 27% 80%
Latina 3 15 20% 100%
CONSTRUCCION DE UNA TABLA DE
FRECUENCIAS
Xi ni Ni fi Fi
Se reportan los datos correspondientes a la 16 1 1 5% 5%
edad de 20 estudiantes, en el curso de 17 3 4 15% 20%
Estadstica
18 7 11 35% 55%
19 17 18 20 17 19 4 15 20% 75%
20 21 18 18 19 20 4 19 20% 95%
18 20 19 18 18
19 18 16 17 20 21 1 20 5% 100%

CATEGORIAS DE
Xi DATOS
DATOS AGRUPADOS
SERIES DE DATOS
Construccin
Categoras Mltiples tabla de
cercanas repeticiones frecuencias con
dificultad


DATOS AGRUPADOS

CLASE
LONGITU
ni
D
20 Marcas de clase
18
16

14
12

puntaje 10
8
6
4
2
MEDIA 0
1 2 3 4 5 6
NA
clases
DATOS AGRUPADOS

DETERMINACIN INTERVALOS DE CLASE

k: numero de clases
n: tamao muestral

Criterio del
evaluador

Se presenta las calificaciones para un grupo de 25
estudiantes ,en un curso de geografa.

0.5 4.1 1.5 4.5 3.4


1.0 3.5 2.2 3.6 1,5
2.6 3.3 3.8 3.5 0.7
2.9 2.8 3.9 2.6 3.3
3.2 3.6 4.0 1.2 3.1

Las calificaciones se encuentran en escala de 0,0 a 5,0


Datos
agrupados
Ejercicio de datos agrupados

Se presentan las calificaciones para un


grupo de 25 Estudiantes ,en un curso de xi ni NI fi F
geografa. [0,1] 3 3 12% 12%
0.5 4.1 1.5 4.5 3.4
1.0 3.5 2.2 3.6 1,5 (1,2] 3 6 12% 24%
2.6 3.3 3.8 3.5 0.7 (2,3] 5 11 20% 44%
2.9 2.8 3.9 2.6 3.3
3.2 3.6 4.0 1.2 3.1 (3,4] 12 23 48% 92%
(4,5] 2 25 8% 100%
Las calificaciones se encuentran en
escala de 0,0 a 5,0
Ejercicio de datos agrupados mtodo Sturges y Raz n

SE REPORTA LA ESTATURA DE 16
JOVENES PERTENECIENTES A UN CLUB
DE NATACION.

1. 50 1.731.701.52
1,651.731.621.66
1.621.711.581.71
1.801.561.791.65
Ejercicio de datos agrupados mtodo Sturges y Raz n


SE REPORTA LA ESTATURA DE 16
JOVENES PERTENECIENTES A UN
CLUB DE NATACION.

1. 50 1.731.701.52
1,651.731.621.66
1.621.711.581.71
1.801.561.791.65
ercicio de datos agrupados mtodo Sturges y Raz n

xi ni NI fi FI
SE REPORTA LA ESTATURA DE 16 [1.50,1.56] 3 3 18.75 18.75
JOVENES PERTENECIENTES A UN
CLUB DE NATACION. [1.50,1.575] 3 3 18.75 18.75
[1.56,1.62] 3 6 18.75 37.5
1. 50 1.731.701.52
[1.575,1.65] 5 8 31.25 50
1,651.731.621.66
1.621.711.581.71 [1.62,1.68] 4 10 25 62.5
1.801.561.791.65 [1.65,1.725] 5 13 31.25 81.25
[1.68,1.74] 4 14 25 87.5
[1.725,1.80] 3 16 18.75 100
[1.74,1.80] 2 16 12.5 100
Ejercicio de datos agrupados mtodo Sturges y Raz n

Xi ni Ni fi Fi
[1.50-1.56] 3 3 18.75% 18.75%

[1.50 -1.755] 3 3 18.75% 18.75%

[1.56 -1.62] 3 6 18.75% 37.5%

[1.575-1.65] 5 8 31.25% 50%

[1.62 -1.68] 4 10 25% 62.5%

[1.65 -1.725] 5 13 31.25% 81.25%

[1.68 -1.74] 4 14 25% 87.5%

[1.725 -1.80] 3 16 18.75% 100%

[1.74 -1.80] 2 16 12.5% 100%


Ejercicio: Realizar un anlisis de frecuencias de los siguientes
datos de produccin de caf cereza:
Datos de campo Datos Ordenados
Planta Produccin caf Planta Produccin caf cereza
N observacin (gramos) N observacin gramos
1 650 22 50
2 250 21 70
3 330 19 115
4 400 20 136
5 450 2 250
6 580 23 250
7 640 30 280
8 650 28 300
9 730 3 330
10 750 16 350
11 650 24 350
12 760 4 400
13 450 17 400
14 450 15 430
15 430 5 450
16 350 13 450
17 400 14 450
18 450 18 450
19 115 29 460
20 136 25 480
21 70 26 500
22 50 27 550
23 250 6 580
24 350 7 640
25 480 1 650
26 500 8 650
27 550 11 650
28 300 9 730
29 460 10 750
30 280 12 760
Anlisis de frecuencias
TABLAS DE FRECUENCIAS POR CLASES.



Definir el lmite inferior (Li) y el lmite superior (Ls) de cada
intervalo. El lmite inferior de la primera clase es el dato de menor
valor, el resto de los lmites de clase se obtienen mediante la suma
sucesiva de la amplitud a partir del primer valor.
Debe tenerse en cuenta que el dato mayor no es necesariamente el
lmite superior de la ltima clase, pero debe estar incluido dentro de
sta.
El lmite superior es el mismo valor del lmite inferior de cada una de
las clases siguientes, pero se recomienda que ninguna observacin
particular coincida con los valores de los lmites y para esto pueden
usarse varias estrategias que se indican ms adelante.
Asignar las frecuencias de cada categora. Para ello se deben
tener en cuenta las siguientes definiciones:
La frecuencia absoluta es el nmero de veces que aparece un
determinado valor, perteneciente a una poblacin o muestra
analizada, entre los lmites de cada clase.
La frecuencia relativa es el porcentaje de cada frecuencia absoluta
con respecto al total de datos de la poblacin o muestra analizada.
La frecuencia absoluta acumulada es la suma de todas las
frecuencias absolutas anteriores al lmite superior de una clase dada.
La frecuencia absoluta acumulada correspondiente a la ltima
categora coincide con el nmero total de observaciones.
La frecuencia relativa acumulada es la suma de todas las
frecuencias relativas anteriores al lmite superior de una clase dada.
Ejemplo 2.1.1: Solarte y Garca (2001) recolectaron varias muestras
aleatorias constituidas por 50 cuyes (Cavia porcellus) machos, en la
granja Botana, con el fin de analizar la variable peso al destete. Al
pesar cada individuo se encontraron los siguientes resultados,
expresados en gramos:
218, 258, 188, 177, 205, 225, 230, 231, 230, 143, 205, 189, 305,
285, 277, 288, 186, 258, 308, 310, 148, 258, 258, 139, 209, 285,
304, 289, 218, 289, 257, 129, 309, 258, 278, 289, 297, 303, 285,
308, 287, 258, 258, 209, 187, 209, 157, 208, 258, 128.
Con los anteriores datos correspondientes a una de las muestras, se
construy una tabla de distribucin de frecuencias cuyo
procedimiento se detalla a continuacin.
Peso al destete de cuyes machos (cavia porcellus) en la granja Botana de la Universidad
de Nario, Pasto, Colombia, 1995

Intervalos
Frecuencia Frecuencia
de clase Frecuencia Frecuencia
absoluta relativa
Clase Peso al absoluta relativa (%)
acumulada acumulada
destete (g)
1 128-159 6 12 6 12
2 159-190 5 10 11 22
3 190-221 8 16 19 38
4 221-252 4 8 23 46
5 252-283 11 22 34 68
6 283-314 16 32 50 100
Total 50 100
Para disear tablas de este tipo, adems de las
consideraciones de procedimiento descritas anteriormente,
deben tenerse en cuenta los siguientes aspectos:
El titulo de la tabla debe ser claro y completo de tal manera
que responda a las preguntas Qu es?, Dnde? Y
Cundo? (Carvajal, et al, 1993).
En la primera columna se indica la categora, en la segunda
la variable con su unidad de medida y el intervalo
correspondiente, en el resto de columnas las respectivas
frecuencias.
GRFICOS ESTADSTICOS
60

50

40

Frecuencia absoluta 30

20

10

0
128-159 160-191 192-223 224-255 256-287 288-319

Intervalos de Clase

Figura : Peso al destete de cuyes machos (cavia porcellus) en la granja Botana de la Universidad de
Nario, Pasto, 1995, representado en un histograma
Representacin grfica de datos estadsticos

En los anlisis estadsticos, es frecuente utilizar


representaciones visuales complementarias de las
tablas que resumen los datos de estudio. Con estas
representaciones, adaptadas en cada caso a la
finalidad informativa que se persigue, se transmiten
los resultados de los anlisis de forma rpida,
directa y comprensible para un conjunto amplio de
personas.
Tipos de representaciones grficas

Cuando se muestran los datos estadsticos a travs de


representaciones grficas, se ha de adaptar el contenido
a la informacin visual que se pretende transmitir. Para
ello, se barajan mltiples formas de representacin:
Diagramas de barras e histogramas
Losdiagramas de barrasse usan para representar
grficamente series estadsticas de valores en un
sistema de ejes cartesianos, de manera que en las
abscisas se indica el valor de la variable estadstica y
en las ordenadas se seala su frecuencia absoluta.
Estos grficos se usan en representacin de
caracteres cualitativos y cuantitativos discretos. En
variables cuantitativas continuas, se emplea una
variante de los mismos llamadahistograma.
Diagrama de Histogram
barras. a.
grama de Sectores o Circular

Consiste en asociar a cada


valor de la variable un sector
circular proporcional a su
frecuencia relativa. Son
adecuados para variables
cuantitativas sin orden.
Polgonos de frecuencias
Para construir polgonos de frecuencias, se trazan las
frecuencias absolutas o relativas de los valores de la variable
en un sistema de ejes cartesianos y se unen los puntos
resultantes mediante trazos rectos. Con ello se obtiene una
forma de lnea poligonal abierta.

Los polgonos de frecuencias se utilizan preferentemente en


la presentacin de caracteres cuantitativos, y tienen especial
inters cuando se indican frecuencias acumulativas. Se usan
en la expresin de fenmenos que varan con el tiempo,
como la densidad de poblacin, el precio o la temperatura.
Grficos de sectores
En los diagramas de sectores, tambin llamados
circulares o de tarta, se muestra el valor de la
frecuencia de la variable sealada como un sector
circular dentro de un crculo completo. Por ello,
resultan tiles particularmente para mostrar
comparaciones entre datos, sobre todo en forma
de frecuencias relativas de las variables
expresadas en forma de porcentaje.
Pictogramas y cartogramas
Para aligerar la presentacin de datos estadsticos,
con frecuencia se recurre a imgenes pictricas
representativas del valor de las variables. Dos
formas comunes de expresin grfica de los datos
son:
Los pictogramas
Los cartogramas
Pirmide de poblacin

Otra forma corriente de presentacin visual de


datos estadsticos es la llamada pirmide de
poblacin.
Las pirmides de poblacin se utilizan en la
expresin de informaciones demogrficas,
econmicas o sociales, y en ellas se clasifican
comnmente los datos de la poblacin del grupo
de muestra considerado en diferentes escalas de
edad y diferenciada por sexo.
Diagrama de caja

Los cinco nmeros que resumen una distribucin de datos son


representados grficamente por un diagrama de caja.

S = Observacin mnima
Q1 = Primer cuartil
Q2 = Mediana
Q3 = Tercer cuartil
L = Observacin mxima
Los lados inferior y superior de la
caja van del primer al tercer cuartil.
Por tanto, la altura de la caja es la
amplitud del 50% de los datos
centrales.
El segmento del interior de la caja
indica la mediana. Los extremos de
los segmentos perpendiculares a los
lados superior e inferior indican,
respectivamente, los valores
mximo y mnimo de la distribucin
de datos.
Polgono de frecuencias.
60

50

40

Frecuencia absoluta 30

20

10

0
128-159 160-191 192-223 224-255 256-287 288-319

Intervalos de Clase

Figura 2.2.2 Peso al destete de cuyes machos (cavia porcellus) en la granja Botana de la
Universidad de Nario, Pasto, 1995, representado en un polgono de frecuencia
DIAGRAMA CIRCULAR.

4% 8%
35% 13%

16%
24%

128-159 160-191 192-223 224-255 256-287 288-319

Figura 2.2.4 Peso al destete de cuyes machos (cavia porcellus) en la granja


Botana de la Universidad de Nario, Pasto, 1995, representado en
un diagrama circular.
Ojiva:
Graficacin lineal de la frecuencia relativa acumulada
Mtodo STEM & LEAF
Es un mtodo de representacin de un histograma de
distribucin dibujando los datos.

Ejercicio: S & L de la produccin de caf cereza (gramos /


planta)
Cuartiles

El anlisis de los cuartiles es una tcnica de anlisis de


la distribucin de datos. Para ello se procede de la
siguiente manera:
Ordenar las observaciones en orden creciente y
localizar la mediana.
El primer cuartil Q1 es la mediana de las
observaciones situadas a la izquierda de la
mediana de la distribucin.
El tercer cuartil Q3 es la mediana de las
observaciones situadas a la derecha de la
mediana de la distribucin
Los cuartiles son medidas de tendencia no central de una
distribucin.

Los datos ordenados se dividen en 4 cuartos iguales:

290 450 610

Gramos caf
cereza/planta
El segundo cuartil de una distribucin es su mediana.

El Rango Intercuartil es la diferencia entre el tercer y el


primer cuartil (Q3-Q1).
610 290 = 320 gramos caf
cereza/planta
Percentiles

Los percentiles son otro conjunto de medidas


de tendencia no central de una distribucin.
Dividen los datos ordenados en 100 partes
iguales.
Percentil 25 = 290 gramos caf cereza/planta
Percentil 50 = 450 gramos caf cereza/planta
Percentil 75 = 610 gramos caf cereza/planta
Tablas de frecuencia
Exponen la informacin recogida en la muestra, de forma
que no se pierda nada de informacin (o poca).
Frecuencias absolutas: Contabilizan el nmero de individuos de
cada modalidad
Frecuencias relativas (porcentajes): Idem, pero dividido por el total
Frecuencias acumuladas: Slo tienen sentido para variables
ordinales y numricas
Muy tiles para calcular cuantiles (ver ms adelante)
Qu porcentaje de individuos tiene menos de 3 hijos? Sol: 83,8
Entre
Sexo 4 y 6 hijos? Soluc 1: 8,4%+3,6%+1,6%= 13,6%.
del encuestado Soluc
Nmero de hijos 2: 97,3% -
83,8% = 13,5% Porcentaje Porcentaje Porcentaje
Frecuencia Porcentaje vlido Frecuencia Porcentaje vlido acumulado
Vlidos Hombre 636 41,9 41,9 Vlidos 0 419 27,6 27,8 27,8
Mujer 881 58,1 58,1 1 255 16,8 16,9 44,7
Total 1517 100,0 100,0 2 375 24,7 24,9 69,5
3 215 14,2 14,2 83,8
Nivel de felicidad 4 127 8,4 8,4 92,2
5 54 3,6 3,6 95,8
Porcentaje Porcentaje
6 24 1,6 1,6 97,3
Frecuencia Porcentaje vlido acumulado
Vlidos Muy feliz 467 30,8 31,1 31,1 7 23 1,5 1,5 98,9
Bastante feliz 872 57,5 58,0 89,0 Ocho o ms 17 1,1 1,1 100,0
No demasiado feliz 165 10,9 11,0 100,0 Total 1509 99,5 100,0
Total 1504 99,1 100,0 Perdidos No contesta 8 ,5
Perdidos No contesta 13 ,9 Total 1517 100,0
Total 1517 100,0
Datos desordenados y ordenados en tablas
Variable: Gnero Gnero Frec. Frec. relat.
porcentaje
Modalidades:
H = Hombre Hombre 4 4/10=0,4=40%
M = Mujer
Mujer 6 6/10=0,6=60%

10=tama
o muestral
Muestra:

MHHMMHMMMH

equivale a
HHHH MMMMMM

Tema 1: Introducin 133 Bioestadstica. U. Mlaga.


Presentacin ordenada de datos

Gnero Frec.
Hombre 4

Mujer 6

Las tablas de frecuencias y las representaciones


grficas son dos maneras equivalentes de
presentar la informacin. Las dos exponen
ordenadamente la informacin recogida en una
muestra.
Ejemplo
Cuntos individuos tienen Nmero de hijos
menos de 2 hijos?
Porcent. Porcent.
frec. indiv. sin hijos
Frec. (vlido) acum.
+
0 419 27,8 27,8
frec. indiv. con 1 hijo
= 419 + 255 1 255 16,9 44,7
= 674 individuos 2 375 24,9 69,5 50%
3 215 14,2 83,8
Qu porcentaje de 4 127 8,4 92,2
individuos tiene 6 hijos o 5 54 3,6 95,8
menos?
6 24 1,6 97,3
97,3%
7 23 1,5 98,9
Ocho+ 17 1,1 100,0
Qu cantidad de hijos es Total 1509 100,0
tal que al menos el 50% de
la poblacin tiene una
cantidad inferior o igual?
2 hijos

Bioestadstica. U. Mlaga. Tema 1: Introducin 135


Grficos para v. cualitativas
Diagramas de barras
Alturas proporcionales a las frecuencias (abs.
o rel.)
Se pueden aplicar tambin a variables
discretas

Diagramas de sectores (tartas, polares)


No usarlo con variables ordinales.
El rea de cada sector es proporcional a su
frecuencia (abs. o rel.)

Pictogramas
Fciles de entender.
El rea de cada modalidad debe ser
proporcional a la frecuencia. De los dos, cul
es incorrecto?.
Grficos diferenciales para variables numricas
419
400 375

Son diferentes en funcin de que


300

255

215

las variables sean discretas o 200

127

continuas. Valen con frec. 100

54

absolutas o relativas.
24 23 17

0 1 2 3 4 5 6 7 Ocho o ms

Diagramas barras para v. Nmero de hijos

discretas
Se deja un hueco entre barras para
250

indicar los valores que no son posibles 200

150

Histogramas para v. continuas 100

El rea que hay bajo el histograma 50

entre dos puntos cualesquiera indica la


20 40 60 80

cantidad (porcentaje o frecuencia) de Edad del encuestado

individuos en el intervalo. 137


Bioestadstica. U. Mlaga. Tema 1: Introducin
s integrales
Cada uno de los anteriores diagramas tiene su correspondiente diagrama integral.
Se realizan a partir de las frecuencias acumuladas. Indican, para cada valor de la
variable, la cantidad (frecuencia) de individuos que poseen un valor inferior o igual
al mismo.

Bioestadstica. U. Mlaga. Tema 1: Introducin 138


La distribucin de frecuencias de
DISTRIBUCIN DE FRECUENCIAS DE DOS
dos VARIABLES
variables, tambin
denominada en dos sentidos,
significa que se analizan dos
variables de manera simultnea.
Por ejemplo, analizar la
produccin de frutos y la altura de
las plantas; la produccin de
frutos y el rea foliar, la
produccin de frutos y el dimetro
del tallo.
Ejercicio: Considerando los datos de produccin por planta (gramos de caf
cereza) y del porcentaje de grano vano, realizar un anlisis de
frecuencias en dos sentidos.

Produccin Porcentaje de Produccin


Planta caf cereza grano vano Planta caf cereza Porcentaje de
N observacin gramos N observacin grano vano
gramos
1 650 8 22 50 4
2 250 10 21 70 3
3 330 4 19 115 5
4 400 8 20 136 6
5 450 4 2 250 10
6 580 11 23 250 12
7 640 6 30 280 5
8 650 4 28 300 6
9 730 11 3 330 4
10 750 10 16 350 8
11 650 9 24 350 9
12 760 8 4 400 8
13 450 9 17 400 6
14 450 10 15 430 5
15 430 5 5 450 4
16 350 8 13 450 9
17 400 6 14 450 10
18 450 15 18 450 15
19 115 5 29 460 8
20 136 6 25 480 8
21 70 3 26 500 7
22 50 4 27 550 14
23 250 12 6 580 11
24 350 9 7 640 6
25 480 8 1 650 8
26 500 7 8 650 4
27 550 14 11 650 9
28 300 6 9 730 11
29 460 8 10 750 10
30 280 5 12 760 8
Anlisis de
frecuencias
de dos
variables
Clculo de estadsticos
Un brevsimo resumen sobre estadsticos

Posicin
Dividen un conjunto ordenado de datos en grupos
con la misma cantidad de individuos.
Cuantiles, percentiles, cuartiles, deciles, ...
Centralizacin
Indican valores con respecto a los que los datos
parecen agruparse.
Media, mediana y moda
Dispersin
Indican la mayor o menor concentracin de los
datos con respecto a las medidas de
centralizacin.
Desviacin tpica, coeficiente de variacin, rango,
varianza
Forma
Asimetra
Apuntamiento o curtosis
DESCRIPCIN DE UNA VARIABLE CUANTITATIVA

Una variable cuantitativa puede


describirse mediante diferentes
medidas que se clasifican en:

Medidas de tendencia central


Medidas de dispersin
MEDIDAS DE TENDENCIA CENTRAL

Las medidas de tendencia central son:

Media (simple, aritmtica, geomtrica,


ponderada)
Mediana
Moda
Media
simple

Ejercicio: En un registro de datos se tiene los


siguientes valores de peso: 54, 55, 55,
55, 56, 56, 57, 57, 58,58, 58, 59, 60,
60, 60, 60, 60, 62, 63, 64, 65, 65, 66,
67, 69, 70, 70, 71, 75, 77, 80.

Xi Mxima = 80
Xi Mnima = 54
Media simple = (80 +
54)/2 = 67
Media aritmtica

Ejercicio: Con los datos indicados para la media simple, calcular la


media aritmtica:

x = 1942/31 = 62.6
Clculo de la media a partir de datos
agrupados
A partir de datos agrupados en clases, se puede calcular la
frmula siguiente:
media con la
Media = M.F/n

Media = 1949.5/31 =62.89


Media geomtrica

Ejercicio: Un clon de cacao produce un


promedio de 10 mazorcas/ao y otro
clon de cacao produce un promedio
de 60 mazorcas/ao. Si estos dos
clones se cruzan Cul es la media
de produccin esperada en la
primera descendencia?
Media ponderada
La media ponderada es un estadstico que se usa cuando hay
diferentes frecuencias de datos. La frmula para el clculo de
este tipo de media es la siguiente:
Mediana

La Mediana (Md) es el valor central de


un grupo ordenado de datos.

Ejercicio: Determinar la mediana en la serie de


datos expuestos para el clculo de las
medias simple y aritmtica.

El valor central en la serie de datos referida es


el 60.

Md = 60
Moda

La Moda (Mod) es el valor mas frecuente en una


serie ordenada de datos.

Ejercicio: En la serie de datos referidos para el clculo de


la media simple y aritmtica, estimar la moda

En la serie de datos mencionada, el valor mas


frecuente corresponde al nmero 60.

Mod = 60
MEDIDAS DE DISPERSIN

DISPERSI TENDENCIA
N

Diferencias de
comportamiento
Amplitud : rango
Desviacin : media
varianza
estndar
MEDIDAS DE DISPERSIN

Las medidas de dispersin


son:

Rango o amplitud
Varianza
Desviacin estndar
Error estndar
Intervalo de confianza
Variabilidad relativa
Coeficiente de variacin de
la muestra.
Rango o Amplitud
El rango o amplitud (Rn) es la diferencia de
valores extremos de una serie de datos. Es
una medida que permite definir cuanto se
alejan los puntos extremos con respecto a la
media de una muestra.
Rn = Xi Mxima Xi Mnima

Ejercicio: En la serie de datos expuesta para el


clculo de la media simple y media
aritmtica, calcular el rango:
Rn = 80 54 = 26
MEDIDAS DE DISPERSIN

Rango (R): amplitud de la serie de datos ordenada

X2 X4 X6 XH XF

XI X3 X5 X7 XM


MEDIDAS DE DISPERSIN

DESVIACIN
MEDIA (DM)
MEDIA ARITMTICA

MEDIDAS DE DISPERSIN

VARIANZA.- media aritmtica de los cuadrados de la diferencias

DESVIACIN ESTNDAR.- raz cuadrada de la varianza


DESVIACI
ON

ESTANDAR
Varianza
La varianza es una medida de dispersin que permite
conocer la variabilidad de un carcter o rasgo de objetos
de una muestra o poblacin, expresada en unidades
cuadrticas.

El estadstico correspondiente es la media de los


cuadrados.
Ejercicio: Considerando los siguientes datos, calcular la varianza

Datos Produccin gramos/planta (X) X2


1 20 400
2 25 625
3 26 676
4 28 784
5 30 900
6 30 900
7 31 961
8 33 1.089
9 34 1.156
Suma 257 7.491
Media 28.56
Reemplazando los datos en la frmula de la varianza,
se tiene:
MEDIDAS DE DISPERSIN

Se reporta la cantidad de Xi ni Ni fi FI
libros ledos en un mes, por
un grupo de 21 personas 0 3 3 14,29 % 14,29 %

0 3 0 1 0 1 1 9 12 42,86 % 57,15 %

1 1 2 1 1 2 5 17 23, 81% 80,96 %

4 2 3 3 2
3 4 21 19,04% 100,00
2 1 1 2 1 %


RANGO(R)

R=3-0
R=3
DESVIACIN MEDIA (DM)

DESVIACIN ESTNDAR (S)


COEFICIENTE DE
VARIACIN
COEFICIENTE: valor numrico a/b , b0

COEFIENTE
DE

VARIACIN
COEFICIENTE DE
VARIACIN
Xi ni Ni fi FI

0 4 4 20 % 20 %
1 7 11 35 % 55 %
2 5 16 25 % 80 %
3 3 19 15 % 95 %
4 1 20 5% 100 %


Desviacin
La desviacin estndar se expresa en las
estndar
mismas unidades en que fueron medidas
las variables (kilos, libras, gramos, metros,
centmetros, etc.) y se define como la raz
cuadrada de la varianza. Matemticamente
es la distancia sobre el eje de abscisas
desde la media hasta el punto de inflexin
de una curva normal
Ejercicio: A partir de la varianza del
ejercicio anterior, calcular
la desviacin estndar.

La frmula para calcular la


desviacin estndar es la siguiente:
ElError
error estndar permite conocer el campo probable de
estndar
localizacin de la media de la poblacin . Cuando los
datos provienen de un censo, el error estndar de la
media es igual a cero. En un muestreo siempre existe un
margen de error en la estimacin de la media de la
muestra que es un estimador de la media de la
poblacin. El error estndar constituye la desviacin
estndar de las medias.
La frmula para el clculo del error estndar es la
siguiente:

Ejercicio: Calcular el error estndar empleando los


datos de la desviacin estndar (S = 4.36), y n
= 9, del ejercicio anterior
El intervalo dede
Intervalo confianza es un estadstico que se asocia con el nivel
de significacin fijado por el investigador. Por lo general se acepta un
confianza
95% de confianza; es decir, un mximo del 5% como probabilidad de
equivocarse, en una prueba de dos colas.

El intervalo de confianza permite estimar los lmites superior e inferior


de confianza, donde se encontrara la media de la poblacin, con la
seguridad prefijada (95%). Como la curva de distribucin normal est
asociada con el estadstico Z, cuando el nivel de significacin es del
5%, se tiene:

= 0.05
Z = 1.96 2.0

Definido el nivel de significacin estadstica en 5%, el clculo del


intervalo de confianza (IC) se reduce a la siguiente frmula: IC = 1.96
(EE) 2 EE
Ejercicio: Considerando los datos del ejercicio de la varianza, calcular los
lmites superior e inferior de confianza con una confianza del 95
por ciento.
6.2.2.6. Variabilidad
relativa
La variabilidad relativa es un estadstico que tambin permite
medir la variabilidad biolgica intrnseca y es muy empleada en
estudios entomolgicos y de dinmica de poblaciones (ecologa
cuantitativa)

Ejercicio: Con los datos del Error estndar y media del ejercicio
anterior, calcular la variabilidad relativa.
ASIMETRIA EN DISTRIBUCIN DE DATOS
ni

X
i
ASIMETRIA DE DISTRIBUCIN DE DATOS

No de Habilidades
Mo de cada Obrero
Distribuciones asimtricas
8
X Me
6 Mo<X<Me positiva
Axis Title 4
2

0
1 2 3 4 5
Axis Title

No de Habilidades de cada Obrero


8
Me x Mo
6
Me<X<Mo negativa
NUMERO DE HABILIDADES 4
2

0
1 2 3 4 5
OBREROS
Estadsticos de posicin
Se define el cuantil de orden como un valor de la variable por
debajo del cual se encuentra una frecuencia acumulada

Casos particulares son los percentiles, cuartiles, deciles,


quintiles,...

Tema 2: Estadsticos 183 Bioestadstica. U. Mlaga.


Estadsticos de posicin
Percentil de orden k = cuantil de orden k/100
La mediana es el percentil 50
El percentil de orden 15 deja por debajo al 15% de las
observaciones. Por encima queda el 85%

Cuartiles: Dividen a la muestra en 4 grupos con


frecuencias similares.
Primer cuartil = Percentil 25 = Cuantil 0,25
Segundo cuartil = Percentil 50 = Cuantil 0,5 = mediana
Tercer cuartil = Percentil 75 = cuantil 0,75

Tema 2: Estadsticos 184 Bioestadstica. U. Mlaga.


Ejemplos
El 5% de los recin nacidos tiene un peso demasiado
bajo. Qu peso se considera demasiado bajo?
Percentil 5 o cuantil 0,05
Percentil 5 del peso
25
20
frecuencia

15
10
5
0

1 2 3 4 5

Peso al nacer (Kg) de 100 nios


Bioestadstica. U. Mlaga. Tema 2: Estadsticos 185
Ejemplos
Qu peso es superado slo por el 25% de los individuos?
Percentil 75 o tercer cuartil

Percentil 75 del peso


30
25
20
frecuencia

15
10
5
0

50 55 60 65 70 75 80 85

Peso (Kg) de 100 deportistas


Bioestadstica. U. Mlaga. Tema 2: Estadsticos 186
Ejemplos

El colesterol se distribuye simtricamente en la poblacin.


Supongamos que se consideran patolgicos los valores
extremos. El 90% de los individuos son normales Entre
qu valores se encuentran los individuos normales?
Percentiles 5 y 95
20
15
frecuencia

10
5
0

180 200 220 240 260

Colesterol en 100 personas


Bioestadstica. U. Mlaga. Tema 2: Estadsticos 187
Ejemplos

Entre qu valores se encuentran la mitad de los


individuos ms normales de una poblacin?
Entre el cuartil 1 y 3
Percentiles 25 y 75
20
15
frecuencia

10
5
0

150 160 170 180 190

Altura (cm) en 100 varones


Bioestadstica. U. Mlaga. Tema 2: Estadsticos 188
Diagramas de Tukey Diagrama de cajas de Tukey: Resumen en 5 nmeros

0.08
Resumen con 5 nmeros:

0.06
Mnimo, cuartiles y

densidad

0.04
mximo.
Suelen dar una buena Mn. P25 P50 P75 Mx.

0.02
idea de la distribucin.

0.00
La zona central, caja, 40 45 50 55 60 65

contiene al 50% central Velocidad (Km/h) de 200 vehculos en ciudad

de las observaciones.
Su tamao se llama
rango intercuartlico Diagrama de cajas de Tukey: Resumen en 5 nmeros
(R.I.)

0.04
Es costumbre que los
bigotes, no lleguen hasta
0.03
los extremos, sino hasta densidad

las observaciones que se 0.02

separan de la caja en no Mn. P25 P50 P75 Mx.


0.01

ms de 1,5 R.I.
0.00

Ms all de esa distancia


se consideran anmalas, 80 90 100 110 120 130 140

y as se marcan. Velocidad (Km/h) de 200 vehculos en autova

Bioestadstica. U. Mlaga. Tema 2: Estadsticos 189


Ejemplo
Estadsticos

Nmero de aos de escolarizacin


N Vlidos 1508
Nmero de aos de escolarizacin Perdidos 0
Media 12,90
Porcentaje Mediana 12,00
Frecuencia Porcentaje acumulado Moda 12
3 5 ,3 ,3 Percentiles 10 9,00
20 11,00
4 5 ,3 ,7
25 12,00
5 6 ,4 1,1 30 12,00
6 12 ,8 1,9 40 12,00
7 25 1,7 3,5 50 12,00
60 13,00
8 68 4,5 8,0
70 14,00
9 56 3,7 11,7 75 15,00
10 73 4,8 16,6 80 16,00
11 85 5,6 22,2 20%? 90 16,00
12 461 30,6 52,8
13 130 8,6 61,4
14 175 11,6 73,0
15 73 4,8 77,9
16 194 12,9 90,7 90%?
17 43 2,9 93,6
18 45 3,0 96,6
19 22 1,5 98,0
20 30 2,0 100,0
Total 1508 100,0

Bioestadstica. U. Mlaga. Tema 2: Estadsticos 190


Estadsticos de centralizacin

Aaden unos cuantos casos particulares a las medidas de posicin. En


este caso son medidas que buscan posiciones (valores) con respecto
a los cuales los datos muestran tendencia a agruparse.

Media (mean) Es la media aritmtica (promedio) de los valores de


una variable. Suma de los valores dividido por el tamao muestral.
Media de 2,2,3,7 es (2+2+3+7)/4=3,5
Conveniente cuando los datos se concentran simtricamente con
respecto a ese valor. Muy sensible a valores extremos.
Centro de gravedad de los datos

Mediana (median) Es un valor que divide a las observaciones en dos


grupos con el mismo nmero de individuos (percentil 50). Si el
nmero de datos es par, se elige la media de los dos datos centrales.
Mediana de 1,2,4,5,6,6,8 es 5
Mediana de 1,2,4,5,6,6,8,9 es (5+6)/2=5,5
Es conveniente cuando los datos son asimtricos. No es sensible a
valores extremos.
Mediana de 1,2,4,5,6,6,800 es 5. La media es 117,7!

Moda (mode) Es el/los valor/es donde la distribucin de frecuencia


alcanza un mximo.
Bioestadstica. U. Mlaga. Tema 2: Estadsticos 191
Altura mediana

Bioestadstica. U. Mlaga. Tema 2: Estadsticos 192


Algunas frmulas

Datos sin agrupar: x1, x2, ..., xn


Media
x
x i i

n
Datos organizados en tabla
si est en intervalos usar como xi las marcas
de clase. Si no ignorar la columna de
intervalos.
x
i
xn i i

Media n
Variable fr. fr. ac.
L0 L 1 x1 n1 N1
L1 L 2 x2 n2 N2 Cuantil de orden
... i es el menor intervalo que tiene
frecuencia acumulada superior a n n
N i 1
Lk-1 Lk xk nk Nk
=0,5 es mediana C Li 1 ( Li Li 1 )
n
n i

Bioestadstica. U. Mlaga. Tema 2: Estadsticos 193


Ejemplo con variable en intervalos
Peso M. frec Fr.
Clase acum.
40 50 45 5 5
50 60 55 10 15
60 70 65 21 36
70 - 80 75 11 47
80 - 90 85 5 52
90 - 100 95 3 55
100 130 115 3 58

En el histograma se identifica unidad de rea con


individuo.

Para calcular la media es necesario elegir un punto


representante del intervalo: La marca de clase.

La media se desplaza hacia los valores extremos.


No coincide con la mediana. Es un punto donde el
histograma estara en equilibrio si tuviese masa.

Tema 2: Estadsticos 194 Bioestadstica. U. Mlaga.


Ejemplo (continuacin)
Peso M. Clase Fr. Fr. ac.
40 50 45 5 5
x
xn i i i

45 5 55 10 115 3
69,3
50 60 55 10 15 n 58
60 70 65 21 36
70 - 80 75 11 47 0,5 58 N i 1
Mediana C0,5 Li 1 ( Li Li 1 )
80 - 90 85 5 52 ni
90 - 100 95 3 55 0,5 58 15
100 130 115 3 58
60 (70 60) 66,6
21
58

0,75 58 N i 1 43,5 36
P75 C0, 75 Li 1 ( Li Li 1 ) 70 (80 70) 76,8
ni 11

Moda = marca de clase de (60,70] = 65


Cada libro ofrece una frmula diferente para la moda (difcil estar al
da.)
Bioestadstica. U. Mlaga. Tema 2: Estadsticos 195
Variabilidad o dispersin

Los estudiantes de Bioestadstica reciben diferentes calificaciones


en la asignatura (variabilidad). A qu puede deberse?

Diferencias individuales en el conocimiento de la materia.

Podra haber otras razones (fuentes de variabilidad)?

Por ejemplo supongamos que todos los alumnos poseen el mismo


nivel de conocimiento. Las notas seran las mismas en todos?
Seguramente No.

Dormir poco el da del examen, el croissant estaba envenenado...


Diferencias individuales en la habilidad para hacer un examen.

El examen no es una medida perfecta del conocimiento.


Variabilidad por error de medida.

En alguna pregunta difcil, se duda entre varias opciones, y al azar


se elige la mala Tema 2: Estadsticos
Bioestadstica. U. Mlaga. 196
Medidas de dispersin
Miden el grado de dispersin (variabilidad) de los datos,
independientemente de su causa.

0.05
Mn. P25 P50 P75 Mx.

Amplitud o Rango (range):

0.04
Diferencia entre observacines extremas.
2,1,4,3,8,4. El rango es 8-1=7

0.03
Es muy sensible a los valores extremos. 25% 25% 25% 25%

0.02
Rango intercuartlico

0.01
Rango intercuartlico (interquartile range): Rango
Es la distancia entre primer y tercer cuartil.

0.00
Rango intercuartlico = P75 - P25
150 160 170 180 190
Parecida al rango, pero eliminando las observaciones ms
extremas inferiores y superiores.

No es tan sensible a valores extremos.


Bioestadstica. U. Mlaga. Tema 2: Estadsticos 197
Varianza S2 (Variance): Mide el promedio de las desviaciones (al
cuadrado) de las observaciones con respecto a la media.
1
S ( xi x ) 2
2

n i
Es sensible a valores extremos (alejados de la media).

Sus unidades son el cuadrado de las de la variable. De interpretacin difcil


para un principiante.

La expresin es fea, pero de gran belleza natural (fsicamente). Contiene la


informacin geomtrica relevante en muchas situaciones donde la energa
interna de un sistema depende de la posicin de sus partculas.

Energa de rotacin (va el coeficiente de inercia): patinadores con brazos


extendidos (dispersos) o recogidos (poco dispersos)

Energa elstica: Muelles estirados con respecto a su posicin de equilibrio


(dispersos) frente a muelles en posicin cercana a su posicin de equilibrio (poco
Bioestadstica. U. Mlaga. dispersos) Tema 2: Estadsticos 198
Desviacin tpica (standard
deviation)
Es la raz cuadrada de la varianza S S 2
50
Tiene las misma dimensionalidad
(unidades) que la variable. 40
Versin esttica de la varianza.
30

Cierta distribucin que veremos


ms adelante (normal o 20
gaussiana) quedar
completamente determinada por 10
la media y la desviacin tpica. Desv. tp. = 568,43
Media = 2023
0 N = 407,00

A una distancia de una desv. tpica


de la media hay ms de la ms de la
mitad. Peso recin nacidos en partos gemelares

Bioestadstica. U. Mlaga. Tema 2: Estadsticos 199


Dispersin en distribuciones normales
0.05

0.05
0.04

0.04
0.03

0.03
0.02

0.02
0.01

0.01
xs x 2s
68.5 % 95 %
0.00

0.00
150 160 170 180 190 150 160 170 180 190

Centrado en la media y a una desv. tpica de


distancia hay aproximadamente el 68% de las
observaciones.
A dos desviaciones tpicas tenemos el 95% (aprox.)
Bioestadstica. U. Mlaga. Tema 2: Estadsticos 200
Datos casi normales. Eje x medido en desviaciones
tpicas
Encuentras relacin entre rango intercuartlico y desviacin
tpica?
Y entre los bigotes y dos desviaciones tpicas? Podras
caracterizar las observaciones anmalas?
0.3

0.3
densidad

densidad
0.2

0.2
xs
0.1

x 2s

0.1
x s x 2s
66 % 95 % 71 % 94 %
0.0

0.0
-3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3
0.4

0.3
0.3
densidad

densidad

0.2
0.2

0.1
x s x 2s
0.1

xs x 2s
68 % 94 % 70 % 94 %
0.0

0.0
-3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3

Bioestadstica. U. Mlaga. Tema 2: Estadsticos 201


Coeficiente de variacin

Es la razn entre la desviacin tpica y la media.


S
CV
Mide la desviacin tpica en forma de
qu tamao tiene con respecto a la media

Tambin se la denomina variabilidad relativa.


x
Es frecuente mostrarla en porcentajes
Si la media es 80 y la desviacin tpica 20 entonces CV=20/80=0,25=25%
(variabilidad relativa)

Es una cantidad adimensional. Interesante para comparar la


variabilidad de diferentes variables.
Si el peso tiene CV=30% y la altura tiene CV=10%, los individuos presentan
ms dispersin en peso que en altura.

No debe usarse cuando la variable presenta valores negativos o donde el


valor 0 sea una cantidad fijada arbitrariamente
Por ejemplo 0C 0F
Bioestadstica. U. Mlaga. Tema 2: Estadsticos 202
Asimetra o Sesgo

Una distribucin es simtrica si


la mitad izquierda de su
distribucin es la imagen
especular de su mitad derecha.

En las distribuciones simtricas


media y mediana coinciden. Si
slo hay una moda tambin
coincide

La asimetra es positiva o
negativa en funcin de a qu
lado se encuentra la cola de la
distribucin.

La media tiende a desplazarse


hacia las valores extremos
(colas).

Las discrepancias entre las


Bioestadstica. medidas
U. Mlaga. de centralizacin son
Tema 2: Estadsticos 203
indicacin de asimetra.
Estadsticos para detectar asimetra
Hay diferentes estadsticos que sirven para detectar
asimetra.
Basado en diferencia entre estadsticos de tendencia central.
Basado en la diferencia entre el 1 y 2 cuartiles y 2 y 3.
Basados en desviaciones con signo al cubo con respecto a la
media.
Los calculados con ordenador. Es pesado de hacer a mano.

En funcin del signo del estadstico diremos que la asimetra


es positiva o negativa.
Distribucin simtrica asimetra nula.

0.20
0.5
0.20

0.4

0.15
0.15

0.3

0.10
0.10

0.2

0.05
0.05

0.1

xs xs
xs
66 % 78 %
78 %
0.00

0.00
0.0

8 10 12 14 16 18 20 -2 -1 0 1 2 3 0 2 4 6 8 10 12 14
Bioestadstica. U. Mlaga. Tema 2: Estadsticos 204
x x x
Apuntamiento o curtosis

La curtosis nos indica el grado de apuntamiento (aplastamiento) de


una distribucin con respecto a la distribucin normal o gaussiana.
Es adimensional.

Platicrtica (aplanada): curtosis < 0


En el curso sern de especial
Mesocrtica (como la normal): curtosis = 0 inters las mesocrticas y
simtricas (parecidas a la normal).

Leptocrtica (apuntada): curtosis > 0

Aplanada Apuntada como la normal Apuntada


2.0

0.8
0.3
1.5

0.6
0.2
1.0

0.4
0.1
0.5

0.2
x s
xs x s
68 %
57 % 82 %
0.0

0.0
0.0

0.0 0.2 0.4 0.6 0.8 1.0 -3 -2 -1 0 1 2 3 -2 -1 0 1 2


Bioestadstica. U. Mlaga. Tema 2: Estadsticos 205
Ejercicio: descriptiva con SPSS

28%
Descriptivos para Nmero de hijos n=419
25%

Estadstico Error tp. n=375


Media 1,90 ,045 25%

Intervalo de Lmite
1,81 17%
confianza para la inferior
20%
media al 95% Lmite n=255 14%
superior 1,99 n=215
15%

Media recortada al 5% 8%

1,75 10%
n=127

4%
Mediana 2,00 n=54 2% 2% 1%
5%
Varianza 3,114 n=24 n=23 n=17
Desv. tp. 1,765
Mnimo 0
0 1 2 3 4 5 6 7 Ocho o ms
Mximo 8
Nmero de hijos
Rango 8
Amplitud intercuartil
3,00 Est sombreado lo que sabemos interpretar hasta
ahora. Verifica que comprendes todo. Qu unidades
tiene cada estadstico? Variabilidad relativa?
Asimetra 1,034 ,063
Curtosis 1,060 ,126 Calcula los estadsticos que puedas basndote slo
en el grfico de barras.
Bioestadstica. U. Mlaga. Tema 2: Estadsticos 206
ASIMETRIA EN DISTRIBUCIONES
DE DATOS

FORMA CURTOSIS
Asimetra: Coeficiente de Pearson
Coeficiente
asimtrico de
Pearson (Ap.)

Ap 0
Positiva
Ap 0
Negativo
ASIMETRIA COEFICIENTE DE PEARSON

Nmero de visitas a un museo


en un mes (encuesta a 20
personas)
Xi ni Ni fi Fi

0 4 4 20% 20%

1 6 10 30% 50%

2 3 13 15% 65%

3 4 17 20% 85%

4 2 19 10% 95%

5 1 20 5% 100%
ASIMETRA: COEFICIENTE DE BOWLEY

Distribucin de datos simtrica

Uniformidad central (Me)

Uniformidad no central (MPNc Q)



ASIMETRA: COEFICIENTE DE BOWLEY
Nmero de visitas a un museo en un mes (encuesta a 20 personas)
Xi ni Ni fi Fi
0 4 4 20% 20%
1 6 10 30% 50%
2 3 13 15% 65%
3 4 17 20% 85%
4 2 19 10% 95%
5 1 20 5% 100%
DATOS BIVARIADOS
DATOS BIVARIADOS

X X1 X2 X3 X4 X5
Tablas de datos pares ordenados
Y Y1 Y2 Y3 Y4 Y5
25

20

15

10

5 Diagrama de dispersin

0 CORRELACIN
0 1 2 3 4 5 6 7
COVARIADA
Covarianza relacin

lineal
X- Y


Datos Bivariados
Correlacin

Fuerza

Correlacin
Sentido

Forma
Calificaciones (sobre 100 puntos)
En simulacro y prueba de seleccin,
Para 12 aspirantes

Simulacro Prueba CALIFICACIONES


65 69 100

76 81 90

80 86 80

93 95 70

60
51 53 SIMULACRO
50
62 60 40
70 75 30

73 73 20

82 86 10

86 88 0
40 50 60 70 80 90 100

78 77 PRUEBA

60 63
X : 73 y : 75.5

Clasificaciones (sobre 100


puntos) en simulacro y X- X Y- Y (X - X) (Y-
pruebas de seleccin, para Y)
12 aspirantes. -8 -6.5 52
3 5.5 16.5
X y
7 10.5 73.5
65 69 20 19.5 390
76 81 -22 -22.5 495 1626
80 86 -11 -15.5 170.5
93 95 -3 -0.5 1.5
51 53
0 -2.5 0
62 60
9 10.5 94.5
70 75
73 73 13 12.5 162.5
82 86 5 1.5 7.5
86 88 -13 -12.5 162.5
78 77
60 63

ESTATURA y PESO DE 10 HOMBRES Y 10 X: Hombres 1.67m
MUJERES, EMPLEADOS DE UNA EMPRESA
Mujeres 1.58m

Hombres MUJERES
Y:Hombres
Peso(KG Peso(kg
Est.(m) ) Est(m) ) 73.18kg
1.61 72.21 1.53 50.07 Mujeres :
1.61 65.71 1.60 59.78 58.98kg

1.7 75.08 1.54 50.66
1.65 68.55 1.58 56.96
1.72 70.77 1.61 51.03
1.63 77.18 1.57 64.27
1.76 81.21 1.61 68.62
1.67 75.71 1.52 54.63
1.67 76.57 1.62 66.96 Directa
1.65 68.78 1.63 66.94
REGRESIN LINEAL


REGRESIN LINEAL
Regresin lineal por mnimos cuadrados
y= ax+b
REGRESIN LINEAL
Calificaciones (sobre 100 puntos) en simulacro y prueba de seleccin, para 12
aspirantes.
xi=876 (Xi) 2=767376
yi=906
(Xi)2=65528 y=ax+b
XiYi=67764

a= (12*67764)-(876*906)=1,029
(12*65528)-767376

b= (876*67764)-(906*65528)= 0,375
767376-(12*65528)
DEFINICIN DE PROBABILIDAD
Evento situacin , proceso.

Destino (voluntad
divina)
Ocurrencia
Azar

Manipulacin circunstancias
Incertidumbre
DEFINICIN DE
PROBABILIDAD
Probabilidad = (P)

6 caras x 2= 12
6 caras 2 DADOS
6 nmeros
6#x2

1 cara particular. 2 Caras partic.


1 cara =
6 caras 1/2 2 caras =
12 caras 1/2
DEFINICIN DE PROBABILIDAD
Probabilidad (P)

100
P (E)= Ocurrencia pesos 2
Cara eventos
Eventos dispo. Sello

Eventos
P =
1 = 0,5 P (s)= 1 = 0,5
2 2 (50%)
(50%)
DEFINICIN DE PROBABILIDAD

Juego de 50 cartas
25 rojas / 25
verdes. Determine
36 numricas. P( roja)
12 letras. P( nmero)
4 grupos letras (A- P( letra D)
P ( comodn)
D).
Nmeros 1-9
2 comodines
DEFINICIN DE PROBABILIDAD
Juego de 50 cartas
25 rojas / 25 verdes.
P (R) = # total de cartas R
36 numricas. # total de cartas
12 letras.
P (R) = 25/50 = 1/2
4 grupos letras (A-D). = 50 %
Nmeros 1-9
P(#) = # Cartas n / # Cartas
2 comodines
t
= 36/50 = 18/25
DEFINICIN DE PROBABILIDAD


Juego de 50 cartas
25 rojas/ 25
verdes
36 numricas
12 letras
4 grupos letras
Nmeros 1-9
2 comodines
DEFINICIN DE PROBABILIDAD


Juego de 50 cartas
25 rojas/ 25
verdes
36 numricas
12 letras
4 grupos letras
Nmeros 1-9
2 comodines
PROBABILIDAD: PROPIEDADES

m= # ocurrencias
n= # eventos

PROBABILIDAD : PROPIEDADES

U: universo E1,E2,E3,Ei U
E: evento
m: ocurrencias
n: # eventos

P (D) = 0 m1 + m2 + m3 + .. + mi = n

P( E1 + E2 +E3 + . Ei
)=1
P( E1) + P( E2) +.. + P(Ei) = 1
PROBABILIDAD : PROPIEDADES

E, F eventos mutuamente excluyentes


u

P (E o F ) = P ( E ) + P
(F) = 1

1 0
0 1
P (c) =
1
0,5
P (c) = 0,5
PROBABILIDAD : PROPIEDADES

Eventos simultneos A y B

P (A)
P (A / B ) = P (A) P(B)
1
P (B)
= 1 =1
PROBABILIDAD : PROPIEDADES

Bolsas con 20 balotas P (A), P (V) , P (R) , P (B)

P(A o V o R o B )
5 azules
P( A / B )
8 verdes
5 rojas P( V / R)

2 blancas P(A/V/R)

P( A/R/B)
------ Una balota
------ Dos balotas
------ Tres balotas
PROBABILIDAD : PROPIEDADES

Bolsas con 20 balotas

5 azules
8 verdes
5 rojas

2 blancas

------ Una balota


------ Dos balotas
------ Tres balotas
PROBABILIDAD : PROPIEDADES

Bolsas con 20 balotas P ( A o V o R o B )=

5 P( A) + P ( V ) + P ( R ) + P
azules
(B)
8 verdes 0,25 + 0,40 + 0,25 +
5 rojas 0,10
2 blancas

------ Una balota


1,0
------ Dos balotas
------ Tres balotas
P ( A / B ) = P(A) P (B)
PROBABILIDAD : PROPIEDADES

Bolsas con 20 balotas


P (V /P ) = P (V) P (R)
5 azules = 0,40 x 0,25
8 verdes = 0,10 (10% )
5 rojas
P ( A / V / R ) = P (A) P (V) P
2 blancas (R)
= 0,25 x 0,40 x
0,25
------ Una balota = 0,025 (2,5
------ Dos balotas %)
------ Tres balotas
PROBABILIDAD:
PROPIEDADES
Bolsa con 20 balotas P(A/R/B)=P(A)P(R)P(B)

5 azules =0.25*0.25*0.1
8 verdes
5 rojas =0.00625
2 blancas (0.6%)

una balota
dos balotas
tres balotas
PROBABILIDAD: PROPIEDADES

LANZAMIENTO DE
DADOS

- P(Par)
- UN DADO
- P(1-3)
- DOS DADOS
- P(5)
- TRES DADOS
- P(Dardo en el
Blanco )
PROBABILIDAD:
PROPIEDADES

*P(par)
*P(1-3)
*P(5)
*P(Dardo en
el blanco)
PROBABILIDAD :PROPIEDADES
P(par)
P(1-3)
P(5)
P (dardo
en blanco
PROBABILIDAD :PROPIEDADES
P(par)
(5)
P(1-3)
P(5)
P(dardo en
blanco)
PROBABILIDAD :PROPIEDADES

P(par)
P(1-3)
P(dardo)=0
P(5)
P(dardo en
blanco)
PROBABILIDAD:
PROPIEDADES
OCURRENCIA

ADSCRITOS AL
EVENTOS UNIVERSO

NO OCURRENCIA
PROBABILIDAD: PROPIEDADES
PROBABILIDAD: PROPIEDADES
PROBABILIDAD PROPIEDADES
T = 180

PROBABILIDAD PROPIEDADES
Exmenes a un grupo
d 20 estudiantes
Matemtica (M): 9
Lenguaje (L): 12
Geografa (G): 14
M y L: 2
M y G: 5
L y G: 6
M y L y G: 1
PROBABILIDAD PROPIEDADES
Exmenes a un grupo
d 20 estudiantes
Matemtica (M): 9
Lenguaje (L): 12
Geografa (G): 14
M y L: 2
M y G: 5
L y G: 6
M y L y G: 1
PROBABILIDAD PROPIEDADES
Exmenes a un grupo
d 20 estudiantes
Matemtica (M): 9
Lenguaje (L): 12
Geografa (G): 14
M y L: 2
M y G: 5
L y G: 6
M y L y G: 1
PROBABILIDAD CONDICIONADA

P(A)

P(B
)
PROBABILIDAD CONDICIONADA

Probabilidad condicionada

Grupo de personas P(F)=75%


en un centro de P(G|
salud.
F)=80%
F: fiebre P(G|F
G: gripe
)=10%

P(G)=?
PROBABILIDAD CONDICIONADA


TEOREMA DE BAYES

Condicionalidad A y B (eventos aleatorios)

P (A|B)
ERROR : P(A|B) =P(B|A)

Thomas Bayes (1763)


P(B|A)
RELACIN Teorema de
Bayes
TEOREMA DE BAYES

TEOREMA DE BAYES

TEOREMA

DE BAYES

M L Total: 60

6 6 30

18
TEOREMA DE BAYES


Independencia

P(L|M) (P(L)
dependencia

1,0 0,50

P(M|L) P(M)
0,20 0,10
TABLAS DE CONTIGENCIA
Variables probabilidad
representacin
Cualitativas + condicionada = matricial

conteo de
datos
ocurrencia y no
Ocurrencia de DOBLE ENTRADA
Eventos (datos bi-
variados)
TABLAS DE CONTIGENCIA
Sean dos evento, A y B: comportamiento relacionado P(A), P(B).

B B

A P(A)

P()

P(B) P(B) 1

TABLAS DE CONTINGENCIA

Se entrevisto a un grupo H(C) = 150*0,6=90


H(A)= 200*0,4=80
de 500 estudiantes de
H(D)= 150*0,8=120
cierta institucin.
Ciencias:150 (60%)
C A D
Artes:200 (40%)
Deportes:150 H 90 80 120 290
(80%)
M 60 120 30 210
A:gnero
TOTAL 150 200 150 500
B: facultad
TABLA DE CONTIGENCIA
H(C) = 150*0,6=90
H(A)=200*0,4=80 P=Fan/tot = casilla/total
H(D)=150*0,8=120

C A D C A D

H 90 80 120 290 H 0,18 0,16 0,24 0,58

M 60 120 30 210 M 0,12 0,24 0,06 0,42

150 200 150 500 0,30 0,40 0,30 1


TABLA DE CONTIGENCIA
Se analiza el rendimiento
acadmico de un grupo de
200 estudiantes, as como I A B E
su orientacin manual
(diestro / surdo)
D 40 80 28 2 150
50 estudiantes zurdos
Excelente: 10 (2 diestros) Z 0 20 22 8 50
Bueno: 50 (28 diestros)
Aceptable: 100( 20 zurdos)
40 100 50 10 200
TABLA DE CONTINGENCIA
Se analiza el rendimiento
acadmico de un grupo de
200 estudiantes, as como I A B E
su orientacin manual
(diestro / surdo)

50 estudiantes zurdos D O,2 0,4 0,14 0,01 0,75


Excelente: 10 (2 diestros)
Bueno: 50 (28 diestros)
Aceptable: 100( 20 Z 0,00 0,1 0,11 0,04 0,25
zurdos)

0,2 0,5 0,25 0,05 1


TABLA DE CONTINGENCIA
Se analiza el rendimiento
acadmico de un grupo de
200 estudiantes, as como
I A B E
su orientacin manual
(diestro / surdo)

50 estudiantes zurdos D 0,2 0,4 0,14 0,01 0,75


Excelente: 10 (2 diestros)
Bueno: 50 (28 diestros)
Aceptable: 100( 20
zurdos) Z 0,0 0,1 0,11 0,04 0,25

0,2 0,5 0,25 0,05 1


TABLA DE CONTINGENCIA
Se estudia la relacin entre
las regiones de procedencia At Aj Na Ci
(costa, montaa, interior,
llanos) con las preferencias
deportivas (atletismo, C 10 5 40 15 70
ajedrez, natacin, ciclismo)
de 300 estudiantes.
M 30 50 20 50 130
Atletismo: 100C, 20M,
200I,10L
Ajedrez: 5C, 30M, 40I, 5L I 20 40 5 15 80
Natacin: 40C, 20M, 5I, 2L
Ciclismo: 15C, 50M, 15I, 3L L 10 5 2 3 20

70 80 67 83 300
TABLA DE CONTINGENCIA
Se estudia la relacin entre At Aj Na Ci
las regiones de procedencia
(costa, montaa, interior, C 0,0333 0,017 0,133 0,050 0,233
llanos) con las preferencias
deportivas (atletismo,
ajedrez, natacin, ciclismo) M 0,100 0,100 0,067 0,167 0,433
de 300 estudiantes.

Atletismo: 100C, 20M, I 0,067 0,133 0,017 0,050 0,267


200I,10L
Ajedrez: 5C, 30M, 40I, 5L
L 0,033 0,017 0,007 0,010 0,067
Natacin: 40C, 20M, 5I, 2L
Ciclismo: 15C, 50M, 15I, 3L
0,233 0,267 0,223 0,277 1,00
TABLA DE CONTINGENCIA

Se estudia la relacin entre las


regiones de procedencia
(costa, montaa, interior,
llanos) con las preferencias
deportivas (atletismo, ajedrez,
natacin, ciclismo) de 300
estudiantes.

Atletismo: 100C, 20M,


200I,10L
Ajedrez: 5C, 30M, 40I, 5L
Natacin: 40C, 20M, 5I, 2L
Ciclismo: 15C, 50M, 15I, 3L

Das könnte Ihnen auch gefallen