Sie sind auf Seite 1von 19

ESTADISTICA I

UNIDAD 1: ESTADISTICA DESCRIPTIVA1


Carlos Maggi y Mariano Lanza
1.

CONCEPTOS GENERALES
Si bien no hay una definicin de estadstica exacta, se puede decir que la
"estadstica es el estudio de los mtodos y procedimientos para recoger, clasificar,
resumir, analizar datos y para hacer inferencias cientficas partiendo de tales datos".
Esta definicin cubre gran parte de la actividad del cientfico. Es importante
observar que el objeto del que realiza el anlisis estadstico son los datos y las
observaciones cientficas por s mismos, mas que el material que interviene en el
estudio.
La estadstica se puede dividir en 2 categoras, la "estadstica descriptiva" y la
"inferencia estadstica".
La estadstica descriptiva implica la abstraccin de varias propiedades de
conjuntos de observaciones, mediante el empleo de mtodos grficos, tabulares
numricos. Entre estas propiedades, estn la frecuencia con que se dan varios valores
en la observacin, la nocin de un valor tpico o usual, la cantidad de variabilidad en un
conjunto de datos observados y la medida de relaciones entre 2 mas variables.
El campo de la estadstica descriptiva no tiene que ver con las implicaciones o
conclusiones que se puedan deducir de conjuntos de datos. La estadstica
descriptiva sirve como mtodo para organizar datos y poner de manifiesto sus
caractersticas esenciales con el propsito de llegar a conclusiones.
La inferencia estadstica se basa en las conclusiones a la que se llega por la
ciencia experimental basndose en informacin incompleta.
Por ejemplo, Mendel al estudiar la manera como diferan entre s las plantas
de guisantes en altura, color de las semillas, color de las vainas y color de las
flores, tuvo que hacer sus conclusiones necesariamente basndose en un grupo
de plantas relativamente poco numeroso comparado con toda la poblacin de
plantas de guisantes de un tipo particular.
Al hacer un enunciado, como por ejemplo, sobre el color de las flores, las
conclusiones de Mendel dependan de la muestra particular de plantas disponibles
para este estudio.
En la terminologa estadstica, el procedimiento inductivo implica el hacer
inferencias acerca de una poblacin adecuada universo a la luz de lo
averiguado en un subconjunto aparte o muestra.
La inferencia estadstica se refiere a los procedimientos mediante los cuales se
pueden hacer tales generalizaciones inducciones.

Bibliografa consultada:
Spiegel M. R y Stephens L. J. (2001): Estadstica. McGraw-Hill. Mxico.
Lind D. A, Marachal W. G. y Mason R. D. (2004): Estadstica para Administracin y Economa. Ed. Alfaomega.
Mxico.
De la Horra Navarro J. (2003): Estadstica Aplicada. Ediciones Daz de Santos. Espaa.
Moore D. S. ( 2000): Estadstica Aplicada Bsica. Antoni Bosch Editor S.A. Espaa.
Navidi William (2006): Estadstica para Ingenieros y Cientficos. Ed. McGraw-Hil.

Es importante por todo lo dicho anteriormente, que el proceso de la inferencia


cientfica, implica el grado mas elevado de cooperacin entre la estadstica y el estudio
experimental.
2.

ELEMENTOS CONCEPTUALES DE ESTADSTICA DESCRIPTIVA


Como se ha sealado anteriormente, el objetivo de la estadstica descriptiva,
es la descripcin mediante el empleo de tcnicas que permitan obtener una
sntesis de la informacin con el objetivo de conocer el fenmeno en estudio y
extraer los aspectos importantes.
Todo estudio estadstico ha de estar referido a un conjunto o coleccin de
elementos. Al conjunto de todas las unidades objeto de estudio es lo que se denomina
poblacin.
En sentido estadstico un elemento puede ser algo con existencia real (tangible y
observable), como un automvil o una casa, o algo ms abstracto como la temperatura,
un voto, o un intervalo de tiempo.
A su vez cada elemento de la poblacin tiene una serie de caracterstica que
puede ser objeto del estudio estadstico. As por ejemplo, si consideramos como
elemento a una persona, podemos distinguir en ella los siguientes caracteres: sexo,
edad, nivel de estudios, profesin, peso, altura, color de cabellos, etc. Luego por tanto
de cada elemento de la poblacin podremos estudiar uno o ms aspectos cualidades o
caracteres.
La poblacin puede ser segn su tamao de dos tipos:

Poblacin finita: cuando el nmero de elementos es finito, por ejemplo el


nmero de estudiantes de la Universidad de Panam, o de una facultad o
especialidad.

Poblacin infinita: cuando el nmero de elementos es infinito, o tan grande


que pudiese considerarse infinitos. Como por ejemplo si se realizase un
estudio sobre los productos disponibles en el mercado, hay tantos y de tantas
cualidades y precios que esta poblacin podra considerarse infinita.

Cuando se toman todas las unidades o elementos de la poblacin, se habla de


una investigacin exhaustiva o censo. Si slo se investiga una parte, se le considera
como investigacin parcial o muestra.
Ahora bien, normalmente en un estudio estadstico, no se puede trabajar con
todos los elementos de la poblacin sino que se realiza sobre un subconjunto de la
misma. Este subconjunto se denomina muestra, cuando se toman para realizar un
estudio solo a un determinado nmero de elementos de la poblacin. Por ejemplo de
los alumnos de la UNRN se realiza una encuesta a una parte de los alumnos mediante
una eleccin aleatoria para conocer, por ejemplo, su nivel socioeconmico.
El objetivo de trabajar con muestras es que muchas veces no se dispone de toda
la informacin o es muy costosa obtenerla, por lo tanto, se intenta obtener una muestra
que sea representativa de la poblacin, lo cual requiere que las unidades o elementos
sean seleccionadas al azar, en tal forma que cada elemento de la poblacin (alumnos
de la UNRN) tengan la misma posibilidad de ser seleccionados en la muestra.
Por lo general, para las medidas obtenidas en poblaciones se usan letras
maysculas o griegas, en cambio para las muestras, se emplean letras minsculas.

2.1-

Tipos de variables:

Los tipos de variables fundamentales, por lo menos para este tema, sern los
siguientes:
a. Variables Cuantitativas o Cardinales: susceptibles de medicin cuantitativa; o
sea son las que se describen por medio de nmeros y las que a su vez
comprenden:
i. Variable Cuantitativa Discretas: son aquellas cuyo conjunto de valores es a
lo sumo numerable. Sus valores pueden representarse siempre por X 1, X2, ,
Xn.; y slo se pueden asociar a un nmero entero, es decir, aquellas que por su
naturaleza no admiten un fraccionamiento de la unidad
Ejemplos:
o Nmero de hijos en el hogar
o .Pginas de un libro
ii. Variable Cuantitativa Continua: son aquellas que pueden tomar todos los
valores de un intervalo de nmeros reales, o sea que no se pueden expresar
mediante un nmero entero, es decir, aquellas que por su naturaleza admiten
que entre dos valores cualesquiera la variable puede tomar cualquier valor
intermedio.
Ejemplos:
o variable temperatura en grados Celsius (escala de intervalos).
o variable longitud en cm. (escala de razn).
o variable peso.
o variable tiempo
b. Variables Cualitativas (Atributos) o Ordinales: susceptibles de ordenacin,
pero no de medicin cuantitativa, reflejan generalmente los atributos del
fenmeno. Los atributos son aquellos caracteres que para su definicin precisan
de palabras, es decir, no le podemos asignar un nmero, y a su vez las podemos
clasificar en:
i. Ordenables: aquellas que sugieren una ordenacin, por ejemplo la graduacin
militar, el nivel de estudios, etc.
ii. No Ordenables: aquellas que slo admiten un ordenamiento alfabtico, pero
no establece orden por su naturaleza,, por ejemplo el color del cabello, sexo,
estado civil, etc.
Nota: en muchos casos el tratamiento estadstico hace que a variables discretas
las trabajemos como si fuesen continua y viceversa (por ejemplo la edad de las
personas variable continua- se trabaja en aos cumplidos variable discreta-. En
otros casos las variables cualitativas (atributos) se trabajan como variables
cuantitativas, por ejemplo en los concursos de belleza se recurre a un sistema de
calificacin por puntos.
2.2-

Escalas de medicin:
a. Escala Nominal:
Es una escala en que se establece un nmero determinado de clases o
categoras de tal modo que cada elemento de la poblacin pertenece a una y slo
3

una clase. Matemticamente se dice que se ha establecido una relacin de


equivalencia entre los elementos de la poblacin. Si slo existen dos clases se
denomina escala dicotmica. La nica operacin matemtica que se puede realizar
con las clases de cualquier escala nominal es determinar las cantidades de
elementos que les corresponden determinar sus frecuencias.
Por ejemplo:
o Sexo: las clases son masculino o femenino.
o Especialidad: las diferentes especialidades (carreras) del CRUSAM.
o

Nmero de cedula de identidad personal.

o Temperatura de una persona: sanguneo, flemtico, melanclico,


colrico.
o

Nmero de placa de automviles del pas.

b. Escala Ordinal:
Es una escala nominal entre cuyas clases est definido un orden, de
modo que cualquiera que sean dos de ellas, una ser mayor o superior, en algn
sentido, que la otra.
Por ejemplo:
o Evaluaciones en un examen: 5, 4, 3 y 2.
o Grado de satisfaccin de una necesidad: alto, medio, bajo
o Conocimiento de un idioma: excelente, bien, regular, mal
c. Escala de Intervalos:
No es ms que una escala ordinal con una distancia, una unidad de
medida entre sus clases de modo tal que, dado dos puntajes cualesquiera, se puede
saber cuan distante est uno del otro. La unidad de medida es arbitraria, pero comn
y el punto de inicio (cero) es tambin arbitrario.
Cuando se tiene una escala de intervalo se pueden realizar las operaciones de
adicin y sustraccin, pero no necesariamente la multiplicacin y divisin dentro de la
escala.
Por ejemplo:
o La temperatura del aire. (caluroso, fresco, agradable, etc.)
d. Escala de Razones:
Es una escala de intervalos donde existe un cero absoluto que marca la
ausencia total del atributo en estudio.
La proporcin entre los atributos de dos
individuos cualesquiera es independiente de la escala de medida utilizada. En ella la
razn entre dos clases (puntajes) cualesquiera permanece invariable ante toda la
transformacin de la escala de razn, o sea ante toda transformacin del tipo y=(x).
De aqu que siempre el cero de la escala transformada coincide con el cero de la
escala original.
En las escalas de razones es posible realizar todas las operaciones aritmticas
con los puntajes.
Por ejemplo:
o Estatura de los alumnos: la estatura en metros es proporcional a la
estatura en pulgadas.
o Peso de los alumnos: (en libras o kilogramos)
4

o El tiempo invertido en una prueba de velocidad en educacin


fsica (en minutos o segundos).

2.3-

La representacin de los datos: FRECUENCIAS.


Cuando se rene gran cantidad de datos primarios es til distribuirlos en
clases y categoras y determinar las frecuencias de las clases, o sea, el nmero de
elementos que pertenecen a una clase. El ordenamiento tabular de los datos por
clases conjuntamente con las frecuencias de clases se denomina distribucin de
frecuencias
El caso que se describe a continuacin, variables discretas se denomina
distribucin por conteo de valores individuales. Supongamos que un determinado
colectivo, representado por la variable estadstica Xi, que para mayor sencillez
consideraremos como unidimensional; sean los datos de esta variable (representativo
cada uno de ellos de un suceso) X1, X2, , Xn (supuesto que sean n los valores de la
variable considerada.)

Definiremos como frecuencia de un dato el nmero de veces que este aparece


en el colectivo; consecuentemente, si una variable estadstica toma r valores, cada
uno de los cuales puede repetirse un cierto nmero de veces, podramos decir que el
nmero de datos representado por la variable seran N, siendo N la suma de las
respectivas frecuencias de cada dato (N=Xi).
Este valor N ser denominado como frecuencia total, mientras que la
frecuencia de cada dato recibir el nombre de frecuencia absoluta o simplemente
frecuencia (fi). La frecuencia absoluta nos habla del nmero de veces que un dato
aparece en un colectivo, ms ello no nos dice demasiado en orden al establecimiento
de comparaciones sobre la importancia de este dato. Para obtener una idea de la
importancia que un dato posee en el seno de un colectivo, puesto que no es
suficiente concepto de frecuencia, se utiliza el concepto frecuencia relativa, que se
definir como: el coeficiente entre la frecuencia absoluta del dato considerado y la
frecuencia total (fr=fi/Xi).
Para efectos prcticos, asumiremos las siguientes definiciones de frecuencias:

frecuencias absolutas: es el nmero de veces que aparece en la muestra


dicho valor de la variable y se representa por fi.

frecuencias relativas: es el cociente entre la frecuencia absoluta y el


tamao de la muestra. La denotaremos por hi

frecuencias absoluta acumulada: para poder calcular este tipo de


frecuencias hay que tener en cuenta que la variable estadstica ha de ser
cuantitativa o cualitativa ordenable. En otro caso no tiene mucho sentido el
clculo de esta frecuencia. La frecuencia absoluta acumulada de un valor de
la variable, es el nmero de veces que ha aparecido en la muestra un valor
menor o igual que el de la variable y lo representaremos por Fi, se puede
acumular, en la tabla estadstica) en orden ascendente (Fi) o descendente
(Fi).

frecuencia relativa acumulada: al igual que en el caso anterior se calcula


como el cociente entre la frecuencia absoluta acumulada dividido por el
tamao de la muestra (N) y la denotaremos por Hi.

Resumiendo lo expuesto, si X i es un valor de la variable, podemos


representar por fi a su frecuencia y por fi/Xi a su frecuencia relativa (siendo X i=N
o la frecuencia total). Para el conjunto de los valores de la variable X i tendramos,
5

as la tabla #1, compresiva de la informacin sobre dicha variable, a travs de las


respectivas frecuencias:

Valores de la variable
Xi
(datos)
X1
X2

Xn

Tabla 1: Variables Discretas


frecuencias absolutas
frecuencias relativas
fi
hi=fi/N
F1
F2

fn

f1/N
f2/N

fn/N

Donde: N=fi y fi/N=1


Otro es el caso de las clases representadas en forma de intervalos, variables
continuas, llamados intervalos de clases que poseen extremos llamados limite
inferior y limite superior, Un intervalo se dice que es abierto o no cerrado, por un
extremo si no contiene el lmite correspondiente.
La longitud, tamao o amplitud de un intervalo de clases (C) es la diferencia
entre los limites superior e inferior (C=lim sup lim inf). El Recorrido (R) es la
diferencia entre el dato mayor y el menor del conjunto da datos en estudio (R=X n X1)
En el caso de variables continuas ser necesario fijar intervalos de
frecuencias para llegar a un resumen efectivo de la informacin original. A menudo es
necesario representar una clase, o ms particularmente, un intervalo por un nico valor,
este representar a todo el intervalo y se denominar marca de clases.
Matemticamente el punto medio de cada intervalo corresponde a lo que denominamos
marca de clase, se denotar por Xi, y constituir el valor representativo de cada
intervalo. El nmero de observaciones que correspondan a cada intervalo se
denominar frecuencias absolutas.

Intervalos
(C)
X1-X2
X2-X3

Xn-1-Xn

Tabla 2: Variables Continuas


Marcas de Clases
Frecuencias Absolutas
Xi
fi
X1
f1
X2
f2

Xn
fn

Donde
X X
Xmi = ------------- = Marca de clases
2
N = fi = Nmero de observaciones
C = X X = Amplitud del intervalo

Por ltimo, en el caso de variables no mensurables, dicha tabla adoptar una


forma como la siguiente:
Tabla3: Variable Ordinales
Variable
Frecuencias
Caracterstica A
fA
Caracterstica B
fB

Caracterstica Z
fZ
2.4-

Mtodo para agrupar la informacin en intervalos de clase

La forma de cmo agrupar los datos muchas veces depende del objeto de
estudio para el cual se realiza el anlisis de los datos, con lo cual, no hay una nica
manera de presentar los datos en intervalos de clase.
Sin embargo, si a priori no se sabe como agruparlos, existe una tcnica que sirve
para determinar la forma en que podramos presentar dichos datos de manera
agrupada (o en clases).
Dicha tcnica es la siguiente:

El primer paso consiste en determinar la cantidad de intervalos (k). Por lo


general se utilizan 2 formas, que dependen del tamao de la muestra, es decir,
de n.
Si n < 100, entonces k 1 3,3 * log(n)
Si n > 100, entonces k n
(Como dichas formas no garantizan un n entero, se recomienda aproximar por
derecha)

Luego, se debe obtener el rango de variacin de los datos (w), que no es ms


que obtener la diferencia entre el mayor valor observado y el menor.
w = max (xi) min(xi), para todo i = 1, 2, .,n (n= N de observaciones)

Una vez ello, se puede obtener la amplitud de cada intervalo de clase, que lo
llamamos h. En el caso que se busquen amplitudes regulares, entonces la
amplitud de cada intervalo se obtiene de la siguiente manera:
h

w
k

1
) . Por lo
Por ltimo, debe definirse el lmite inferior de la primear clase ( l inf
general se toma el valor mnimo observado, aunque ello tambin depender de
la conveniencia, ya que tal vez sea mejor recurrir a otro valor. Por ejemplo, si
tenemos un mnimo de 1,503 m, tal vez convenga empezar con 1,5m.

Nota aclaratoria: como los valores verdaderos a utilizar de k, h y l 1 inf no siempre son
exactamente los valores que surgen de las relaciones antes planteadas (ya sea por
temas de redondeo en el caso de k o por aproximacin, segn conveniencia, en los
casos de h o l 1 inf ), entonces para garantizar que los intervalos cubran todo el rango
de variacin de los datos observados, necesariamente debe cumplirse que:
k*h+

l 1inf > max(xi)


7

Ejemplo:
La tienda CANTORAS Y ASOC. estaba interesada en efectuar un anlisis de
sus cuentas por comprar. Uno de los factores que ms interesaba a la administracin
de la tienda era el de los saldos de las cuentas de crdito. Se escogi al azar una
muestra aleatoria de 30 cuentas y se anot el saldo de cada cuenta (en unidades
monetarias) como sigue:
77.97 13.02 17.97 89.19 12.18 8.15 34.40 43.13 79.61 90.99
43.66 29.75 7.42 93.91 20.64 21.10 17.64 81.59 60.94 43.97
32.67 43.66 51.69 53.40 68.13 11.10 12.98 38.74 70.15 25.68
Solucin:
1- Efectuar el arreglo ordenado de la poblacin o muestra:
A= ( 7.42, 8.15, , , , 90.99, 93.91 )
donde: X1 = valor mnimo = 7.42
Xn= valor mximo = 93.91
2 - Encontrar el rengo o recorrido de los datos: w
w = valor mayor valor menor = Xn X1 = 93.91 7.42 = 86.49
3- Encontrar en nmero de clases k, segn la frmula del logaritmo, dado que
n<100. :
k=1+3.322(log N)
Nota: en el ejemplo en estudio N=30 por cuanto que son 30 clientes en la muestra:
K = 1 + 3.322 (log 30)
= 1 + 3.322 (1.477) el log fue obtenido segn calculadora
= 1+ 4.9069
= 5.9069 ~6 aproximado al siguiente entero
4- Determinar la amplitud de la clase: h
w
86.49
h = -------- = ---------- = 14.415
k
6
Clases
7.420 21.835
21.835
36.250
36.250
50.665
50.665
65.080
65.080
79.495
79.495
93.910
Total

fi
ni
14.628 10 0.33
29.043 4 0.13

Fi
10
14

Fi
30
20

Ni Ni
0.33 1.00
0.46 0.67

43.458

0.17

19

16

0.63 0.54

57.873

0.10

22

11

0.73 0.37

72.288

0.10

25

0.83 0.27

86.703

0.17

30

1.00 0.17

X mi

XXX

30 1.00 XXX XXX XXX XXX


8

Nota: obsrvese que se va a trabajar con una cifra significativa ms cmoda, o sea
como los datos estn dados en centsimos, se calculo C hasta los milsimos para
evitar que algn dato coincida con el lmite de clases
Simbologa utilizada:
X mi = Punto medio o marca de clases
fi
= frecuencia absoluta
ni
= frecuencia relativa
Fi = frecuencia absoluta acumulada descendente
Fi = frecuencia absoluta acumulada ascendente
Ni = frecuencia relativa acumulada descendente
Ni = frecuencia relativa acumulada ascendente
Nota:
iObsrvese que el lmite inferior de la primera clase es el valor mnimo
( X1=7.42 ) y el lmite superior es el resultado de X 1+h = 7.42+14.415 =
21.835.
iiEl lmite inferior de la siguiente clase es igual al lmite superior de la
clase anterior y el lmite superior es el resultado de adicionarle
nuevamente la amplitud de la clase (h ).
iiiObsrvese que el lmite superior de la ltima clase es igual al valor
mayor
( Xn=93.91 )
3. TABLA DE DISTRIBUCIN DE FRECUENCIAS.
Una de los primeros pasos que se realizan en cualquier estudio estadstico
es la tabulacin de resultados, es decir, recoger la informacin de la muestra
resumida en una tabla, que denominaremos distribucin de frecuencias, en la que cada
valor de la variable se le asocian determinados nmeros que representan el nmero de
veces que ha aparecido, su proporcin con respecto a otros valores de la variable, etc.
Por tanto, llamaremos distribucin de frecuencias a un agrupamiento de
datos en clases acompaada de sus frecuencias: frecuencias absolutas,
frecuencias relativa o frecuencia porcentuales. En caso de que las variables estn
al menos en escala ordinal aparecen opcionalmente las frecuencias acumuladas
absolutas, y frecuencias acumuladas porcentuales. Las distribuciones de frecuencias
varan en dependencia si corresponden a una variable discreta o a una variable
continua.
3.1-

Tipos de distribuciones de frecuencias

Las curvas de frecuencia presentan determinadas formas caractersticas que les


distinguen como se indica en la Figura 3.
a - Las curvas de frecuencia simtricas o bien formadas se caracterizan por el hecho
de que las observaciones que equidistan del mximo central tienen la misma
frecuencia. Un ejemplo importante es la curva normal.
b- En las curvas de frecuencia moderadamente asimtricas o sesgadas la cola de la
curva a un lado del mximo central es mayor que al otro lado. Si la cola mayor se
presenta a la derecha de la curva se dice que sta est sesgada a la derecha o
que tiene sesgo positivo, mientras que si ocurre lo contrario se dice que la curva
est sesgada a la izquierda o que tiene un sesgo negativo.
c- En las curvas en forma de J o de J invertida, el mximo se presenta en un extremo.
d- Las curvas de frecuencias en forma de U tienen el mximo en ambos extremos.
9

e- Una curva de frecuencias bimodal tiene dos mximos.


f- Una curva de frecuencias multimodal tiene ms de dos mximos.:

3.2 Representaciones Grficas de la Distribucin de Frecuencias


a. Cuadros estadsticos:
La estadstica es una disciplina que nos ensea a organizar los datos recogidos
para poder analizar sus caractersticas y posteriormente inferir, a partir de las muestras
tomadas, las caractersticas de la poblacin investigada. Los cuadros o tablas
corresponden a arreglos sistemticos de los datos por filas y columnas y son un buen
complemento del texto en los informes
El primer procedimiento estadstico consiste en tabular los datos segn el tipo
de escala de medicin utilizada. La tabulacin de los datos conlleva a representar la
informacin a travs de tablas que de forma general contiene las siguientes partes
fundamentales:
1- Numeracin (siempre que se presenten dos o ms cuadros)
2- Ttulo: es la descripcin que precede al cuadro, la cul deber estar redactada
en forma breve y clara, de tal manera que exprese su contenido, siguiendo el
ordenamiento del mismo. Es necesario abarcar las caractersticas: Qu, Dnde,
Cmo y Cundo

3- Encabezamiento: se refiere al nmero de atributos o variables que se quieren


representar en el cuadro y se anotan como denominaciones de las columnas y
subcolumnas; puede ser unidimensional, bidimensonial o multidimensional. Los
ttulos de las columnas van en maysculas y los subttulos en minsculas
10

4- Cuerpo: es el conjunto de columnas y lneas que contiene el cuadro en orden


vertical y horizontal, donde se colocan los datos sobre los hechos observados
5- Pie: se refiere a la informacin adicional necesaria a saber: notas, llamadas,
fuentes de informacin y otras. Se anotan en el espacio debajo de la lnea
inferior que limita el cuerpo del cuadro.
b Grficos Estadsticos:
El grfico es quizs el auxiliar ms valioso y utilizado para expresar datos
estadsticos, este elemento no le aade novedad a las tablas o cuadros estadsticos, es
de fcil comprensin y accesible a un nmero mayor de usuarios. El grfico adems
de expresar visualmente los hechos ms importantes de la informacin numrica,
permite una mejor y ms fcil comprensin y ahorra tiempo y esfuerzo en el anlisis de
datos estadsticos al facilitar su apreciacin visual en forma conjunta:
-

Histogramas de frecuencias:

Un histograma es un grfico
que sirve para representar una
distribucin de frecuencias.
Este
grfico est formado por un conjunto
de rectngulos (caso de variables
continuas) que tienen como base un
eje horizontal (generalmente el eje
de las abscisas o de las X), y como
centro los puntos medios de las
clases. Los anchos de las clases y
las reas de los rectngulos son
proporcionales a las frecuencias de
las clases.
En el caso de las
variables discretas el grfico consiste
de un conjunto de barras verticales
en lugar de rectngulos, hallndose
cada barra sobre la observacin
respectiva y con una altura
proporcional a la frecuencia de la
observacin

- Polgono de frecuencias:
El polgono de frecuencias es
un grfico formado por lneas quebradas,
que tiene los centros de las clases
representadas en un eje horizontal (eje
de las X) y las frecuencias de las clases
en un eje vertical (eje de las Y). La
frecuencia correspondiente a cada centro
de clase se seala mediante un punto y
luego los puntos consecutivos se unen
por lneas rectas. Del correspondiente
histograma se puede lograr el polgono
de frecuencia uniendo los puntos medios
de las bases superiores de cada
rectngulo mediante lneas rectas.
11

-Ojivas:
Las ojivas se refieren a los
grficos
que
se
construyen
utilizando
una
distribucin
acumulativa de frecuencias, el
orden de acumulacin se aplica al
cuadro
de
distribucin
de
frecuencia
y
puede
ser
descendente
(fa,
fra)
o
ascendente (fa, fra). La figura
que se forma al unir los puntos del
polgono
de
frecuencias
acumulativas es lo contrario del
orden anunciado (por ejemplo si se
utiliz el orden descendente en la
acumulacin de los datos en el
cuadro, la ojiva resulta ser
ascendente).

4. MEDIDAS DE TENDENCIA CENTRAL


Al describir grupos de observaciones, con frecuencia se desea describir el grupo
con un solo nmero. Para tal fin, desde luego, no se usar el valor ms elevado ni el
valor ms pequeo como nico representante, ya que solo representan los extremos,
ms bien que valores tpicos. Entonces sera ms adecuado buscar un valor central.
Las medidas que describen un valor tpico en un grupo de observaciones suelen
llamarse medidas de tendencia central. Es importante tener en cuenta que estas
medidas se aplican a grupos ms bien que a individuos. Un promedio es una
caracterstica de grupo, no individual.
Media aritmtica: Por lo general si la media se refiera a una poblacin se lo denota
con la letra griega x y si proviene de una muestra con la letra x .
n

X
i 1

Es la medida de tendencia central ms obvia que se puede elegir, y es el simple


promedio de las observaciones del grupo, el cual se obtiene sumando todas las
observaciones y dividiendo esta suma por el nmero de observaciones que hay en el
grupo.
En realidad hay muchas clases de promedios y sta se la llama media aritmtica
para denotar la suma de un grupo de observaciones dividida por su nmero.
Mediana me : es otra medida de tendencia central que se utiliza con mucha
frecuencia es la mediana, que es el valor situado en medio en un conjunto de
observaciones ordenadas por magnitud.
12

Moda mo : es otra medida de tendencia central es la moda o modo y es el valor que


ocurre con ms frecuencia en un conjunto de observaciones.
4.1 -Otras Medidas de Tendencia Central
Centro de amplitud: Es el valor que queda en medio de los valores mnimo y mximo.
ca

xmax xmin
2

Media geomtrica: La media geomtrica de un conjunto de observaciones es la raz n


sima de su producto. El clculo de la media geomtrica exige que todas las
observaciones sean positivas.
G n x1 * x2 * ... * xn

El logaritmo de la media geomtrica es igual a la media aritmtica de los


N
log( xi )
logaritmos de la variable: log(G )
N
i 1
La media geomtrica, a diferencia de la media aritmtica no est influenciada por
valores extremos grandes, pero s se ve afectada por valores extremos chicos y no
puede calcularse para valores de la variable negativos. Suele utilizarse en la
construccin de nmeros ndices.
Media armnica: Es el inverso de la media aritmtica de los inversos de las
observaciones.
H

n
n

La recproca de la media armnica es


igual a la media aritmtica. Esta
medida se la utiliza para promediar cocientes donde el denominador es variable.
i 1

Propiedades de las medias: H < G <


Media ponderada: En ciertas circunstancias no todas las observaciones tienen igual
peso. En general si se tienen observaciones con sus respectivos pesos es:
n

xw

w x
i 1
n

w
i 1

Cuartiles, Deciles y Percentiles: Son medidas similares a la mediana. Mientras la


mediana divide la poblacin en dos mitades, los cuarteles la dividen en cuatro cuartos,
los deciles en 10 partes y los percentiles en 100 partes. Si denotamos a los cuartiles,
deciles y percentiles respectivamente como Qi ; Di yPi , donde el subndice i hace
referencia al orden o nmero del cuartil (decil o percentil). Por ejemplo: el cuarlil 1
(Q1 ) representa el valor de x, tal que conforme a un ordenamiento ascendente de las
observaciones, contiene al primer cuarto de las observaciones (25% de la poblacin).
13

i *n 1

4
2
i *n 1
Di x

2
10
i *n 1
Pi x

100 2

Qi x

Las frmulas nos dan el nmero de la observacin, segn el ordenamiento


ascendente que represente el cuartil (decil, percentil). As, por ejemplo, si Q3=6, nos
indica que el cuartil 3 est representado por el sexto valor segn el ordenamiento
ascendente. P40=62,5, nos indica que el percentil 40 est ubicado entre el valor 62 y
63 del ordenamiento ascendente.
Ntese que la mediana se corresponde con Q2, D5 y P50.
5. MEDIDAS DE VARIABILIDAD
Amplitud: Se obtiene restando el valor mnimo del mximo en un conjunto de
observaciones. La amplitud tiene la ventaja de que es fcil de calcular y sus unidades
son las mismas que las de la variable que se mide. La amplitud no toma en
consideracin el nmero de observaciones de la muestra estadstica, sino solamente
la observacin del valor mximo y la del valor mnimo. Sera deseable utilizar tambin
los valores intermedios del conjunto de observaciones.
Desviacin media: Esta medida es ms acorde que la de amplitud, ya que involucra a
todos los valores del conjunto de observaciones corrigiendo la desviacin. sta medida
se obtiene calculando la media aritmtica de la muestra, y luego realizando la
sumatoria de valor absoluto de las diferencias de todos los valores con respecto de la
media. Luego se divide por el nmero de observaciones.
Una medida como sta tiene la ventaja de que utiliza cada observacin y corrige
la variacin en el nmero de observaciones al hacer la divisin final. Y por ltimo
tambin se expresa en las mismas unidades que las observaciones mismas.

DM x

i 1

( xi x ) * f i
n

Varianza: sta medida se obtiene calculando la media aritmtica de la muestra, y


luego realizando la sumatoria de las diferencias al cuadrado de todos los valores con
respecto de la media. Luego se divide por el nmero de observaciones, el cual es otro
mecanismo para solucionar el efecto de cancelacin para entre diferencias positivas y
negativas. Si elevamos al cuadrado cada diferencia antes de sumar, desaparece la
cancelacin.
Varianza muestral: S

2
x

i 1

( xi x ) 2 * f i
n 1

14

Varianza Poblacional:

2
x

i 1

( xi x ) 2 * f i
N

Esta frmula tiene una desventaja, y es que sus unidades no son las mismas
que las de las observaciones, ya que son unidades cuadradas.
Esta dificultad se soluciona, tomando la raz cuadrada de la ecuacin anterior,
que es la desviacin tpica.
La diferencia entre la varianza muestral y poblacional es que se divide a la
sumatoria de las diferencias al cuadrado por el total de la poblacin (N) y para las
muestras por (n-1), que es el numero de observaciones de la muestra menos uno. Ello,
por desgracia ahora no podemos analizarlo, ni dar una respuesta entendible, tema que
se analizar en la unidad correspondiente a estimadores.
Desviacin tpica: Es la raz cuadrada de la varianza.

Desvo muestral: S S 2
x
x

i 1

Desvo poblacional: 2
x
x

( xi m x ) 2 * f i
n 1

n
i 1

( xi x ) 2 * f i
N

Entonces en este caso la unidad de x o S x es la misma que la del conjunto de


observaciones de la muestra estadstica.
Coeficiente De variacin: Es el cociente entre la desviacin tpica y la meria
aritmtica. Al ser un cociente entre magnitudes que estn expresadas en las mismas
unidades, tla cociente no posee unidades y es una medida de razn, lo cual permite la
comparacin entre datos alternativos que presentad diferentes unidades de medida.
6.

FRMULAS PARA DATOS AGRUPADOS


k

Media muestral:

x
i 1

mi

* fi

Donde:
k = cantidad de intervalos; n= n de observaciones;
xmi = valor medio del intervalo i; fi = frecuencia absoluta del intervalo i
k

Media Poblacional:

x
i 1

mi

* fi

Donde:
k = cantidad de intervalos; n= n de observaciones;
xmi = valor medio del intervalo i; fi = frecuencia absoluta del intervalo i
15

Varianza muestral:

(x
i 1

mi

x) 2 * f i

(n 1)
Donde:
k = cantidad de intervalos; n= nmero de observaciones;
xmi = valor medio del intervalo i
x = media muestral para datos agrupados
k

Varianza poblacional:

(x
i 1

mi

mx ) 2 * f i
n

Donde:
k = cantidad de intervalos; n= nmero de observaciones.
xmi = valor medio del intervalo i.
m x media poblacional.
n
( f an ) * I
Mediana: L 2
=
i
fa

Donde: fan = Frecuencia acumulada del intervalo anterior al que contiene la mediana.
I = longitud del intervalo o clase que contiene la median.
Li = lmite inferior del intervalo que contiene la mediana.
fa = frecuencia absoluta del intervalo que contiene la mediana.
Modo: Li (

d1
)*I =
d1 d 2

Donde: d1 = diferencia entre la frecuencia de la clase modal y la anterior.


d2 = diferencia entre la frecuencia de la clase modal y la posterior.
I = longitud del intervalo modal (o clase modal).
Li = lmite inferior del intervalo modal.
Cuartiles, Deciles y Percentiles para datos agrupados:

Qi Linf

i*n
Fant )
4
[
]* I
fa
;

Di Linf

i*n
Fant )
[ 10
]* I ;
fa

Qi Linf

i*n
Fant )
[ 100
]* I
fa
(

Donde:
16

Qi= cuartil i ; Di = decil i ; Pi = percentil i;i = numero de cuartil / decil / percentil; n= total
de observaciones.
Linf Lmite exactamente inferior del intervalo que contiene el cuartil / decil/ percentil.
Fant frecuencia acumulada simple del intervalo anterior al que contiene el cuartil /

decil / percentil.
f a frecuencia absoluta del intervalo que contiene el cuartel /decil / percentil.

I= amplitud del intervalo que contiene el cuartil /decil / percentil.


7. MEDIDAS DE DEFORMACIN
Las medidas de deformacin, nos sirven para comparar una distribucin dada
con una distribucin normal estndar (campana de gauss).
ASIMETRA: Una funcin de distribucin de frecuencias es simtrica cuando las
frecuencias simples correspondientes a valores de la variable equidistantes de la media
son iguales.
f (m s ) f (m s )

s R

(nota aclaratoria: Si la distribucin es simtrica, los momentos centrados de orden


impar son nulos debido a que las desviaciones positivas y negativas multiplicadas por
sus respectivas frecuencias se compensan.)
Para calcular la asimetra se utiliza la siguiente forma:

i 1

As=

u3
3

( Xi X ) 3 * fi

n
i 1 ( xi x) 2 * fi

Resultados posibles:

As = 0 la distribucin es simtrica ( me = m = mo)


As > 0 la distribucin es asimtrica positiva (m > mo). Las desviaciones positivas
superan a las negativas.
As < 0, la distribucin es asimtrica negativa (m < mo). Las desviaciones negativas
superan a las positivas.
Si bien la anterior frmula es la general, en muchos paquetes estadsticos se
utilizan otras como:

1 coeficiente de Pearson: CA1 =

m me
, donde si Cam - me
s

CA1 0 La distribucin es simtrica


CA1 0 La distribucin presenta asimetra positiva.
CA1 0 La distribucin presenta asimetra negativa.

3 * ( m me )
,
s
En este caso el rango de variacin es (-3;3), donde:

2 coeficiente de Pearson: CA2 =

17

CA2 0 La distribucin es simtrica


CA1 0 La distribucin presenta asimetra positiva.
CA1 0 La distribucin presenta asimetra negativa.

Paquetes estadsticos:

CA3

n
( xi x) 3
[ (
) ],
(n 1) * ( n 2)
s

Los valores significan lo mismo que para los casos anteriores.


CURTOSIS (o KURTOSIS): Se refiere al apuntamiento de una distribucin comparada
con el de una normal. Permite comparar la altura de la distribucin con la de una
normal. Para calcular la curtosis, normalmente se utiliza la siguiente frmula:

i 1

4
3
4

( xi x) 4 * fi
n

n
i 1

( xi x) * fi

)4

Resultados posibles:
K = 0 la distribucin es MESOCTICA (posee la misma altura que una distribucin
normal estndar).
K > 0 la distribucin es LEPTOCRTICA (posee MAYOR altura que una distribucin
normal estndar).
K < 0 la distribucin es PLATOCRTICA (posee MENOR altura que una distribucin
normal estndar).
As < 0, la distribucin es asimtrica negativa (m < mo). Las desviaciones negativas
superan a las positivas.
Al igual que en la asimetra, en algunos paquetes estadsticos la curtosis se
calcula como:
K {

n( n 1)
n
xi x 4
3( n 1) 2
(
)
}

, cuyos resultados representan lo

( n 1)(n 2)(n 3) i 1
s
(n. 2)(n 3)

mismo que el caso anterior.

8. DATOS MULTIVARIADOS
A veces, los elementos de una poblacin pueden tener algunos valores
asociados entre si. Por ejemplo, si en cada observacin se analizan varias
caractersticas estamos ante la presencia de datos multivariados. En el caso particular
que se analicen dos caractersticas, de dice que los datos son BIVARIADOS.
En el caso particular de datos bivariados, tendremos entonces por cada
observacin, un par de valores, cada uno correspondiente a la caracterstica que se
desea estudiar. Por ejemplo, al analizar el largo y el ancho del caparazn de las
tortugas, tendremos que por cada tortuga dos valores (largo; ancho). De esta forma, si
18

los datos constan de pares de arreglos (x1; y1); (x2; y2);.; (xn; yn). Podemos
entonces representar dichos datos mediante un diagrama de dispersin, que consiste
en representar cada par ordenado en un sistema coordenado bidimensional.
De esta forma el grafico nos permite ver si visualmente puede hallarse algn tipo
de asociacin entre los valores de x e y. Por ejemplo, puede verse que los datos no
siguen ningn patrn de comportamiento general (relacin entre x e y), se sigue una
relacin casi lineal o tal vez una relacin no lineal (parbola, hiprbola, logartmica,
exponencial, etc).
A parte de esta representacin grfica puede establecerse analticamente si
existe algn tipo de asociacin entre las variables. Una de las medidas que
generalmente se utiliza para saber si existe algn grado de asociacin entre variables
es la Covarianza.
Se defina la covarianza entre X e Y como: Cov( x; y )

(x m

) * ( y my )

o alternativamente:
n

Cov( x; y )

(x
i 1

* yi )

x y
i 1

i 1

) media( xy ) media( x) * media( y )

Es una medida que sirve para diagnosticas si dos variables son independientes.
En este sentido, se entiende que la variable X es independiente de Y, si no existe
relacin entre los valores que toma la variable X con respecto a los valores que toma la
variable Y (asociar con eventos independientes en probabilidad).
De este modo, la covarianza da idea del grado de asociacin lineal entre
variables. Es como una medida de intensidad de asociacin lineal. Si Cov(X;Y) = 0,
entonces se entiende que no existe asociacin lineal entre las variables lo cual indica
que son independientes.

Cov(X;Y) > 0, nos indica una asociacin lineal positiva, es decir, que si los valores
de X crecen, por lo general tambin lo harn los valores de la variable Y.

Cov(X;Y) < 0, nos indica una asociacin lineal negativa, es decir, que si los valores
de X crecen respecto a su media, por lo general los valores de Y caern respecto de
su media.

La Covarianza posee la caracterstica que posee unidades, las cuales est dada
por la multiplicacin de las unidades de la variable X e Y. Ello en la prctica genera
algunas desventajas dado que a los efectos de comparar covarianzas para variables
diferentes, no es posible determinar cual de los dos pares de variables aleatorias est
mas relacionado, dado que las dos covarianzas presentan unidades diferentes.
Para ello, se utiliza el concepto de correlacin, que no posee unidades.
Correlacin: ( x ;Y )

Cov ( X ; Y )
x y

Para dos variables aleatorias X e Y: 1 ( x;Y ) 1


Es evidente que si Cov(X;Y)=0, entonces ( x;Y )

Cov ( X ; Y )
=0, lo cual indica
x y

que X e Y no estn correlacionadas.


As, entonces diremos que si dos variables aleatorias (X e Y) son
independientes, entonces X e Y no estn correlacionadas.
19

Das könnte Ihnen auch gefallen