Beruflich Dokumente
Kultur Dokumente
CONCEPTOS GENERALES
Si bien no hay una definicin de estadstica exacta, se puede decir que la
"estadstica es el estudio de los mtodos y procedimientos para recoger, clasificar,
resumir, analizar datos y para hacer inferencias cientficas partiendo de tales datos".
Esta definicin cubre gran parte de la actividad del cientfico. Es importante
observar que el objeto del que realiza el anlisis estadstico son los datos y las
observaciones cientficas por s mismos, mas que el material que interviene en el
estudio.
La estadstica se puede dividir en 2 categoras, la "estadstica descriptiva" y la
"inferencia estadstica".
La estadstica descriptiva implica la abstraccin de varias propiedades de
conjuntos de observaciones, mediante el empleo de mtodos grficos, tabulares
numricos. Entre estas propiedades, estn la frecuencia con que se dan varios valores
en la observacin, la nocin de un valor tpico o usual, la cantidad de variabilidad en un
conjunto de datos observados y la medida de relaciones entre 2 mas variables.
El campo de la estadstica descriptiva no tiene que ver con las implicaciones o
conclusiones que se puedan deducir de conjuntos de datos. La estadstica
descriptiva sirve como mtodo para organizar datos y poner de manifiesto sus
caractersticas esenciales con el propsito de llegar a conclusiones.
La inferencia estadstica se basa en las conclusiones a la que se llega por la
ciencia experimental basndose en informacin incompleta.
Por ejemplo, Mendel al estudiar la manera como diferan entre s las plantas
de guisantes en altura, color de las semillas, color de las vainas y color de las
flores, tuvo que hacer sus conclusiones necesariamente basndose en un grupo
de plantas relativamente poco numeroso comparado con toda la poblacin de
plantas de guisantes de un tipo particular.
Al hacer un enunciado, como por ejemplo, sobre el color de las flores, las
conclusiones de Mendel dependan de la muestra particular de plantas disponibles
para este estudio.
En la terminologa estadstica, el procedimiento inductivo implica el hacer
inferencias acerca de una poblacin adecuada universo a la luz de lo
averiguado en un subconjunto aparte o muestra.
La inferencia estadstica se refiere a los procedimientos mediante los cuales se
pueden hacer tales generalizaciones inducciones.
Bibliografa consultada:
Spiegel M. R y Stephens L. J. (2001): Estadstica. McGraw-Hill. Mxico.
Lind D. A, Marachal W. G. y Mason R. D. (2004): Estadstica para Administracin y Economa. Ed. Alfaomega.
Mxico.
De la Horra Navarro J. (2003): Estadstica Aplicada. Ediciones Daz de Santos. Espaa.
Moore D. S. ( 2000): Estadstica Aplicada Bsica. Antoni Bosch Editor S.A. Espaa.
Navidi William (2006): Estadstica para Ingenieros y Cientficos. Ed. McGraw-Hil.
2.1-
Tipos de variables:
Los tipos de variables fundamentales, por lo menos para este tema, sern los
siguientes:
a. Variables Cuantitativas o Cardinales: susceptibles de medicin cuantitativa; o
sea son las que se describen por medio de nmeros y las que a su vez
comprenden:
i. Variable Cuantitativa Discretas: son aquellas cuyo conjunto de valores es a
lo sumo numerable. Sus valores pueden representarse siempre por X 1, X2, ,
Xn.; y slo se pueden asociar a un nmero entero, es decir, aquellas que por su
naturaleza no admiten un fraccionamiento de la unidad
Ejemplos:
o Nmero de hijos en el hogar
o .Pginas de un libro
ii. Variable Cuantitativa Continua: son aquellas que pueden tomar todos los
valores de un intervalo de nmeros reales, o sea que no se pueden expresar
mediante un nmero entero, es decir, aquellas que por su naturaleza admiten
que entre dos valores cualesquiera la variable puede tomar cualquier valor
intermedio.
Ejemplos:
o variable temperatura en grados Celsius (escala de intervalos).
o variable longitud en cm. (escala de razn).
o variable peso.
o variable tiempo
b. Variables Cualitativas (Atributos) o Ordinales: susceptibles de ordenacin,
pero no de medicin cuantitativa, reflejan generalmente los atributos del
fenmeno. Los atributos son aquellos caracteres que para su definicin precisan
de palabras, es decir, no le podemos asignar un nmero, y a su vez las podemos
clasificar en:
i. Ordenables: aquellas que sugieren una ordenacin, por ejemplo la graduacin
militar, el nivel de estudios, etc.
ii. No Ordenables: aquellas que slo admiten un ordenamiento alfabtico, pero
no establece orden por su naturaleza,, por ejemplo el color del cabello, sexo,
estado civil, etc.
Nota: en muchos casos el tratamiento estadstico hace que a variables discretas
las trabajemos como si fuesen continua y viceversa (por ejemplo la edad de las
personas variable continua- se trabaja en aos cumplidos variable discreta-. En
otros casos las variables cualitativas (atributos) se trabajan como variables
cuantitativas, por ejemplo en los concursos de belleza se recurre a un sistema de
calificacin por puntos.
2.2-
Escalas de medicin:
a. Escala Nominal:
Es una escala en que se establece un nmero determinado de clases o
categoras de tal modo que cada elemento de la poblacin pertenece a una y slo
3
b. Escala Ordinal:
Es una escala nominal entre cuyas clases est definido un orden, de
modo que cualquiera que sean dos de ellas, una ser mayor o superior, en algn
sentido, que la otra.
Por ejemplo:
o Evaluaciones en un examen: 5, 4, 3 y 2.
o Grado de satisfaccin de una necesidad: alto, medio, bajo
o Conocimiento de un idioma: excelente, bien, regular, mal
c. Escala de Intervalos:
No es ms que una escala ordinal con una distancia, una unidad de
medida entre sus clases de modo tal que, dado dos puntajes cualesquiera, se puede
saber cuan distante est uno del otro. La unidad de medida es arbitraria, pero comn
y el punto de inicio (cero) es tambin arbitrario.
Cuando se tiene una escala de intervalo se pueden realizar las operaciones de
adicin y sustraccin, pero no necesariamente la multiplicacin y divisin dentro de la
escala.
Por ejemplo:
o La temperatura del aire. (caluroso, fresco, agradable, etc.)
d. Escala de Razones:
Es una escala de intervalos donde existe un cero absoluto que marca la
ausencia total del atributo en estudio.
La proporcin entre los atributos de dos
individuos cualesquiera es independiente de la escala de medida utilizada. En ella la
razn entre dos clases (puntajes) cualesquiera permanece invariable ante toda la
transformacin de la escala de razn, o sea ante toda transformacin del tipo y=(x).
De aqu que siempre el cero de la escala transformada coincide con el cero de la
escala original.
En las escalas de razones es posible realizar todas las operaciones aritmticas
con los puntajes.
Por ejemplo:
o Estatura de los alumnos: la estatura en metros es proporcional a la
estatura en pulgadas.
o Peso de los alumnos: (en libras o kilogramos)
4
2.3-
Valores de la variable
Xi
(datos)
X1
X2
Xn
fn
f1/N
f2/N
fn/N
Intervalos
(C)
X1-X2
X2-X3
Xn-1-Xn
Xn
fn
Donde
X X
Xmi = ------------- = Marca de clases
2
N = fi = Nmero de observaciones
C = X X = Amplitud del intervalo
Caracterstica Z
fZ
2.4-
La forma de cmo agrupar los datos muchas veces depende del objeto de
estudio para el cual se realiza el anlisis de los datos, con lo cual, no hay una nica
manera de presentar los datos en intervalos de clase.
Sin embargo, si a priori no se sabe como agruparlos, existe una tcnica que sirve
para determinar la forma en que podramos presentar dichos datos de manera
agrupada (o en clases).
Dicha tcnica es la siguiente:
Una vez ello, se puede obtener la amplitud de cada intervalo de clase, que lo
llamamos h. En el caso que se busquen amplitudes regulares, entonces la
amplitud de cada intervalo se obtiene de la siguiente manera:
h
w
k
1
) . Por lo
Por ltimo, debe definirse el lmite inferior de la primear clase ( l inf
general se toma el valor mnimo observado, aunque ello tambin depender de
la conveniencia, ya que tal vez sea mejor recurrir a otro valor. Por ejemplo, si
tenemos un mnimo de 1,503 m, tal vez convenga empezar con 1,5m.
Nota aclaratoria: como los valores verdaderos a utilizar de k, h y l 1 inf no siempre son
exactamente los valores que surgen de las relaciones antes planteadas (ya sea por
temas de redondeo en el caso de k o por aproximacin, segn conveniencia, en los
casos de h o l 1 inf ), entonces para garantizar que los intervalos cubran todo el rango
de variacin de los datos observados, necesariamente debe cumplirse que:
k*h+
Ejemplo:
La tienda CANTORAS Y ASOC. estaba interesada en efectuar un anlisis de
sus cuentas por comprar. Uno de los factores que ms interesaba a la administracin
de la tienda era el de los saldos de las cuentas de crdito. Se escogi al azar una
muestra aleatoria de 30 cuentas y se anot el saldo de cada cuenta (en unidades
monetarias) como sigue:
77.97 13.02 17.97 89.19 12.18 8.15 34.40 43.13 79.61 90.99
43.66 29.75 7.42 93.91 20.64 21.10 17.64 81.59 60.94 43.97
32.67 43.66 51.69 53.40 68.13 11.10 12.98 38.74 70.15 25.68
Solucin:
1- Efectuar el arreglo ordenado de la poblacin o muestra:
A= ( 7.42, 8.15, , , , 90.99, 93.91 )
donde: X1 = valor mnimo = 7.42
Xn= valor mximo = 93.91
2 - Encontrar el rengo o recorrido de los datos: w
w = valor mayor valor menor = Xn X1 = 93.91 7.42 = 86.49
3- Encontrar en nmero de clases k, segn la frmula del logaritmo, dado que
n<100. :
k=1+3.322(log N)
Nota: en el ejemplo en estudio N=30 por cuanto que son 30 clientes en la muestra:
K = 1 + 3.322 (log 30)
= 1 + 3.322 (1.477) el log fue obtenido segn calculadora
= 1+ 4.9069
= 5.9069 ~6 aproximado al siguiente entero
4- Determinar la amplitud de la clase: h
w
86.49
h = -------- = ---------- = 14.415
k
6
Clases
7.420 21.835
21.835
36.250
36.250
50.665
50.665
65.080
65.080
79.495
79.495
93.910
Total
fi
ni
14.628 10 0.33
29.043 4 0.13
Fi
10
14
Fi
30
20
Ni Ni
0.33 1.00
0.46 0.67
43.458
0.17
19
16
0.63 0.54
57.873
0.10
22
11
0.73 0.37
72.288
0.10
25
0.83 0.27
86.703
0.17
30
1.00 0.17
X mi
XXX
Nota: obsrvese que se va a trabajar con una cifra significativa ms cmoda, o sea
como los datos estn dados en centsimos, se calculo C hasta los milsimos para
evitar que algn dato coincida con el lmite de clases
Simbologa utilizada:
X mi = Punto medio o marca de clases
fi
= frecuencia absoluta
ni
= frecuencia relativa
Fi = frecuencia absoluta acumulada descendente
Fi = frecuencia absoluta acumulada ascendente
Ni = frecuencia relativa acumulada descendente
Ni = frecuencia relativa acumulada ascendente
Nota:
iObsrvese que el lmite inferior de la primera clase es el valor mnimo
( X1=7.42 ) y el lmite superior es el resultado de X 1+h = 7.42+14.415 =
21.835.
iiEl lmite inferior de la siguiente clase es igual al lmite superior de la
clase anterior y el lmite superior es el resultado de adicionarle
nuevamente la amplitud de la clase (h ).
iiiObsrvese que el lmite superior de la ltima clase es igual al valor
mayor
( Xn=93.91 )
3. TABLA DE DISTRIBUCIN DE FRECUENCIAS.
Una de los primeros pasos que se realizan en cualquier estudio estadstico
es la tabulacin de resultados, es decir, recoger la informacin de la muestra
resumida en una tabla, que denominaremos distribucin de frecuencias, en la que cada
valor de la variable se le asocian determinados nmeros que representan el nmero de
veces que ha aparecido, su proporcin con respecto a otros valores de la variable, etc.
Por tanto, llamaremos distribucin de frecuencias a un agrupamiento de
datos en clases acompaada de sus frecuencias: frecuencias absolutas,
frecuencias relativa o frecuencia porcentuales. En caso de que las variables estn
al menos en escala ordinal aparecen opcionalmente las frecuencias acumuladas
absolutas, y frecuencias acumuladas porcentuales. Las distribuciones de frecuencias
varan en dependencia si corresponden a una variable discreta o a una variable
continua.
3.1-
Histogramas de frecuencias:
Un histograma es un grfico
que sirve para representar una
distribucin de frecuencias.
Este
grfico est formado por un conjunto
de rectngulos (caso de variables
continuas) que tienen como base un
eje horizontal (generalmente el eje
de las abscisas o de las X), y como
centro los puntos medios de las
clases. Los anchos de las clases y
las reas de los rectngulos son
proporcionales a las frecuencias de
las clases.
En el caso de las
variables discretas el grfico consiste
de un conjunto de barras verticales
en lugar de rectngulos, hallndose
cada barra sobre la observacin
respectiva y con una altura
proporcional a la frecuencia de la
observacin
- Polgono de frecuencias:
El polgono de frecuencias es
un grfico formado por lneas quebradas,
que tiene los centros de las clases
representadas en un eje horizontal (eje
de las X) y las frecuencias de las clases
en un eje vertical (eje de las Y). La
frecuencia correspondiente a cada centro
de clase se seala mediante un punto y
luego los puntos consecutivos se unen
por lneas rectas. Del correspondiente
histograma se puede lograr el polgono
de frecuencia uniendo los puntos medios
de las bases superiores de cada
rectngulo mediante lneas rectas.
11
-Ojivas:
Las ojivas se refieren a los
grficos
que
se
construyen
utilizando
una
distribucin
acumulativa de frecuencias, el
orden de acumulacin se aplica al
cuadro
de
distribucin
de
frecuencia
y
puede
ser
descendente
(fa,
fra)
o
ascendente (fa, fra). La figura
que se forma al unir los puntos del
polgono
de
frecuencias
acumulativas es lo contrario del
orden anunciado (por ejemplo si se
utiliz el orden descendente en la
acumulacin de los datos en el
cuadro, la ojiva resulta ser
ascendente).
X
i 1
xmax xmin
2
n
n
xw
w x
i 1
n
w
i 1
i *n 1
4
2
i *n 1
Di x
2
10
i *n 1
Pi x
100 2
Qi x
DM x
i 1
( xi x ) * f i
n
2
x
i 1
( xi x ) 2 * f i
n 1
14
Varianza Poblacional:
2
x
i 1
( xi x ) 2 * f i
N
Esta frmula tiene una desventaja, y es que sus unidades no son las mismas
que las de las observaciones, ya que son unidades cuadradas.
Esta dificultad se soluciona, tomando la raz cuadrada de la ecuacin anterior,
que es la desviacin tpica.
La diferencia entre la varianza muestral y poblacional es que se divide a la
sumatoria de las diferencias al cuadrado por el total de la poblacin (N) y para las
muestras por (n-1), que es el numero de observaciones de la muestra menos uno. Ello,
por desgracia ahora no podemos analizarlo, ni dar una respuesta entendible, tema que
se analizar en la unidad correspondiente a estimadores.
Desviacin tpica: Es la raz cuadrada de la varianza.
Desvo muestral: S S 2
x
x
i 1
Desvo poblacional: 2
x
x
( xi m x ) 2 * f i
n 1
n
i 1
( xi x ) 2 * f i
N
Media muestral:
x
i 1
mi
* fi
Donde:
k = cantidad de intervalos; n= n de observaciones;
xmi = valor medio del intervalo i; fi = frecuencia absoluta del intervalo i
k
Media Poblacional:
x
i 1
mi
* fi
Donde:
k = cantidad de intervalos; n= n de observaciones;
xmi = valor medio del intervalo i; fi = frecuencia absoluta del intervalo i
15
Varianza muestral:
(x
i 1
mi
x) 2 * f i
(n 1)
Donde:
k = cantidad de intervalos; n= nmero de observaciones;
xmi = valor medio del intervalo i
x = media muestral para datos agrupados
k
Varianza poblacional:
(x
i 1
mi
mx ) 2 * f i
n
Donde:
k = cantidad de intervalos; n= nmero de observaciones.
xmi = valor medio del intervalo i.
m x media poblacional.
n
( f an ) * I
Mediana: L 2
=
i
fa
Donde: fan = Frecuencia acumulada del intervalo anterior al que contiene la mediana.
I = longitud del intervalo o clase que contiene la median.
Li = lmite inferior del intervalo que contiene la mediana.
fa = frecuencia absoluta del intervalo que contiene la mediana.
Modo: Li (
d1
)*I =
d1 d 2
Qi Linf
i*n
Fant )
4
[
]* I
fa
;
Di Linf
i*n
Fant )
[ 10
]* I ;
fa
Qi Linf
i*n
Fant )
[ 100
]* I
fa
(
Donde:
16
Qi= cuartil i ; Di = decil i ; Pi = percentil i;i = numero de cuartil / decil / percentil; n= total
de observaciones.
Linf Lmite exactamente inferior del intervalo que contiene el cuartil / decil/ percentil.
Fant frecuencia acumulada simple del intervalo anterior al que contiene el cuartil /
decil / percentil.
f a frecuencia absoluta del intervalo que contiene el cuartel /decil / percentil.
s R
i 1
As=
u3
3
( Xi X ) 3 * fi
n
i 1 ( xi x) 2 * fi
Resultados posibles:
m me
, donde si Cam - me
s
3 * ( m me )
,
s
En este caso el rango de variacin es (-3;3), donde:
17
Paquetes estadsticos:
CA3
n
( xi x) 3
[ (
) ],
(n 1) * ( n 2)
s
i 1
4
3
4
( xi x) 4 * fi
n
n
i 1
( xi x) * fi
)4
Resultados posibles:
K = 0 la distribucin es MESOCTICA (posee la misma altura que una distribucin
normal estndar).
K > 0 la distribucin es LEPTOCRTICA (posee MAYOR altura que una distribucin
normal estndar).
K < 0 la distribucin es PLATOCRTICA (posee MENOR altura que una distribucin
normal estndar).
As < 0, la distribucin es asimtrica negativa (m < mo). Las desviaciones negativas
superan a las positivas.
Al igual que en la asimetra, en algunos paquetes estadsticos la curtosis se
calcula como:
K {
n( n 1)
n
xi x 4
3( n 1) 2
(
)
}
( n 1)(n 2)(n 3) i 1
s
(n. 2)(n 3)
8. DATOS MULTIVARIADOS
A veces, los elementos de una poblacin pueden tener algunos valores
asociados entre si. Por ejemplo, si en cada observacin se analizan varias
caractersticas estamos ante la presencia de datos multivariados. En el caso particular
que se analicen dos caractersticas, de dice que los datos son BIVARIADOS.
En el caso particular de datos bivariados, tendremos entonces por cada
observacin, un par de valores, cada uno correspondiente a la caracterstica que se
desea estudiar. Por ejemplo, al analizar el largo y el ancho del caparazn de las
tortugas, tendremos que por cada tortuga dos valores (largo; ancho). De esta forma, si
18
los datos constan de pares de arreglos (x1; y1); (x2; y2);.; (xn; yn). Podemos
entonces representar dichos datos mediante un diagrama de dispersin, que consiste
en representar cada par ordenado en un sistema coordenado bidimensional.
De esta forma el grafico nos permite ver si visualmente puede hallarse algn tipo
de asociacin entre los valores de x e y. Por ejemplo, puede verse que los datos no
siguen ningn patrn de comportamiento general (relacin entre x e y), se sigue una
relacin casi lineal o tal vez una relacin no lineal (parbola, hiprbola, logartmica,
exponencial, etc).
A parte de esta representacin grfica puede establecerse analticamente si
existe algn tipo de asociacin entre las variables. Una de las medidas que
generalmente se utiliza para saber si existe algn grado de asociacin entre variables
es la Covarianza.
Se defina la covarianza entre X e Y como: Cov( x; y )
(x m
) * ( y my )
o alternativamente:
n
Cov( x; y )
(x
i 1
* yi )
x y
i 1
i 1
Es una medida que sirve para diagnosticas si dos variables son independientes.
En este sentido, se entiende que la variable X es independiente de Y, si no existe
relacin entre los valores que toma la variable X con respecto a los valores que toma la
variable Y (asociar con eventos independientes en probabilidad).
De este modo, la covarianza da idea del grado de asociacin lineal entre
variables. Es como una medida de intensidad de asociacin lineal. Si Cov(X;Y) = 0,
entonces se entiende que no existe asociacin lineal entre las variables lo cual indica
que son independientes.
Cov(X;Y) > 0, nos indica una asociacin lineal positiva, es decir, que si los valores
de X crecen, por lo general tambin lo harn los valores de la variable Y.
Cov(X;Y) < 0, nos indica una asociacin lineal negativa, es decir, que si los valores
de X crecen respecto a su media, por lo general los valores de Y caern respecto de
su media.
La Covarianza posee la caracterstica que posee unidades, las cuales est dada
por la multiplicacin de las unidades de la variable X e Y. Ello en la prctica genera
algunas desventajas dado que a los efectos de comparar covarianzas para variables
diferentes, no es posible determinar cual de los dos pares de variables aleatorias est
mas relacionado, dado que las dos covarianzas presentan unidades diferentes.
Para ello, se utiliza el concepto de correlacin, que no posee unidades.
Correlacin: ( x ;Y )
Cov ( X ; Y )
x y
Cov ( X ; Y )
=0, lo cual indica
x y