Beruflich Dokumente
Kultur Dokumente
1. CONCEPTOS GENERALES
Si bien no hay una definición de estadística exacta, se puede decir que la
"estadística es el estudio de los métodos y procedimientos para recoger, clasificar,
resumir y analizar datos y para hacer inferencias científicas partiendo de tales datos".
Esta definición cubre gran parte de la actividad del científico. Es importante
observar que el objeto del que realiza el análisis estadístico son los datos y las
observaciones científicas por sí mismos, mas que el material que interviene en el
estudio.
La estadística se puede dividir en 2 categorías, la "estadística descriptiva" y la
"inferencia estadística".
La estadística descriptiva implica la abstracción de varias propiedades de
conjuntos de observaciones, mediante el empleo de métodos gráficos, tabulares ó
numéricos. Entre estas propiedades, están la frecuencia con que se dan varios valores
en la observación, la noción de un valor típico o usual, la cantidad de variabilidad en un
conjunto de datos observados y la medida de relaciones entre 2 ó mas variables.
El campo de la estadística descriptiva no tiene que ver con las implicaciones o
conclusiones que se puedan deducir de conjuntos de datos. La estadística descriptiva
sirve como método para organizar datos y poner de manifiesto sus características
esenciales con el propósito de llegar a conclusiones.
La inferencia estadística se basa en las conclusiones a la que se llega por la
ciencia experimental basándose en información incompleta.
Por ejemplo, Mendel al estudiar la manera como diferían entre sí las plantas de
guisantes en altura, color de las semillas, color de las vainas y color de las flores, tuvo
que hacer sus conclusiones necesariamente basándose en un grupo de plantas
relativamente poco numeroso comparado con toda la población de plantas de
guisantes de un tipo particular.
Al hacer un enunciado, como por ejemplo, sobre el color de las flores, las
conclusiones de Mendel dependían de la muestra particular de plantas disponibles para
este estudio.
En la terminología estadística, el procedimiento inductivo implica el hacer
inferencias acerca de una población adecuada ó universo a la luz de lo averiguado en
un subconjunto aparte o muestra.
La inferencia estadística se refiere a los procedimientos mediante los cuales se
pueden hacer tales generalizaciones ó inducciones.
1
Bibliografía consultada:
Spiegel M. R y Stephens L. J. (2001): “Estadística”. McGraw-Hill. México.
Lind D. A, Marachal W. G. y Mason R. D. (2004): “Estadística para Administración y Economía”. Ed. Alfaomega.
México.
De la Horra Navarro J. (2003): “Estadística Aplicada”. Ediciones Díaz de Santos. España.
Moore D. S. ( 2000): “Estadística Aplicada Básica”. Antoni Bosch Editor S.A. España.
Navidi William (2006): “Estadística para Ingenieros y Científicos”. Ed. McGraw-Hil.
Es importante por todo lo dicho anteriormente, que el proceso de la inferencia
científica, implica el grado mas elevado de cooperación entre la estadística y el estudio
experimental.
2
2.1- Tipos de variables:
Los tipos de variables fundamentales, por lo menos para este tema, serán los
siguientes:
a. Variables Cuantitativas o Cardinales: susceptibles de medición cuantitativa; o
sea son las que se describen por medio de números y las que a su vez
comprenden:
i. Variable Cuantitativa Discretas: son aquellas cuyo conjunto de valores es a
lo sumo numerable. Sus valores pueden representarse siempre por X 1, X2, … ,
Xn.; y sólo se pueden asociar a un número entero, es decir, aquellas que por su
naturaleza no admiten un fraccionamiento de la unidad
Ejemplos:
o Número de hijos en el hogar
o .Páginas de un libro
ii. Variable Cuantitativa Continua: son aquellas que pueden tomar todos los
valores de un intervalo de números reales, o sea que no se pueden expresar
mediante un número entero, es decir, aquellas que por su naturaleza admiten
que entre dos valores cualesquiera la variable puede tomar cualquier valor
intermedio.
Ejemplos:
o variable temperatura en grados Celsius (escala de intervalos).
o variable longitud en cm. (escala de razón).
o variable peso.
o variable tiempo
b. Variables Cualitativas (Atributos) o Ordinales: susceptibles de ordenación,
pero no de medición cuantitativa, reflejan generalmente los atributos del
fenómeno. Los atributos son aquellos caracteres que para su definición precisan
de palabras, es decir, no le podemos asignar un número, y a su vez las podemos
clasificar en:
i. Ordenables: aquellas que sugieren una ordenación, por ejemplo la graduación
militar, el nivel de estudios, etc.
ii. No Ordenables: aquellas que sólo admiten un ordenamiento alfabético, pero
no establece orden por su naturaleza,, por ejemplo el color del cabello, sexo,
estado civil, etc.
Nota: en muchos casos el tratamiento estadístico hace que a variables discretas
las trabajemos como si fuesen continua y viceversa (por ejemplo la edad de las
personas –variable continua- se trabaja en años cumplidos –variable discreta-. En
otros casos las variables cualitativas (atributos) se trabajan como variables
cuantitativas, por ejemplo en los concursos de belleza se recurre a un sistema de
calificación por puntos.
3
una clase. Matemáticamente se dice que se ha establecido una relación de
equivalencia entre los elementos de la población. Si sólo existen dos clases se
denomina escala dicotómica. La única operación matemática que se puede realizar
con las clases de cualquier escala nominal es determinar las cantidades de
elementos que les corresponden determinar sus frecuencias.
Por ejemplo:
o Sexo: las clases son masculino o femenino.
o Especialidad: las diferentes especialidades (carreras) del CRUSAM.
o Número de cedula de identidad personal.
o Temperatura de una persona: sanguíneo, flemático, melancólico,
colérico.
o Número de placa de automóviles del país.
b. Escala Ordinal:
Es una escala nominal entre cuyas clases está definido un orden, de
modo que cualquiera que sean dos de ellas, una será mayor o superior, en algún
sentido, que la otra.
Por ejemplo:
o Evaluaciones en un examen: 5, 4, 3 y 2.
o Grado de satisfacción de una necesidad: alto, medio, bajo
o Conocimiento de un idioma: excelente, bien, regular, mal
c. Escala de Intervalos:
No es más que una escala ordinal con una distancia, una unidad de
medida entre sus clases de modo tal que, dado dos puntajes cualesquiera, se puede
saber cuan distante está uno del otro. La unidad de medida es arbitraria, pero común
y el punto de inicio (cero) es también arbitrario.
Cuando se tiene una escala de intervalo se pueden realizar las operaciones de
adición y sustracción, pero no necesariamente la multiplicación y división dentro de la
escala.
Por ejemplo:
o La temperatura del aire. (caluroso, fresco, agradable, etc.)
d. Escala de Razones:
Es una escala de intervalos donde existe un cero absoluto que marca la
ausencia total del atributo en estudio. La proporción entre los atributos de dos
individuos cualesquiera es independiente de la escala de medida utilizada. En ella la
razón entre dos clases (puntajes) cualesquiera permanece invariable ante toda la
transformación de la escala de razón, o sea ante toda transformación del tipo y=Φ(x).
De aquí que siempre el cero de la escala transformada coincide con el cero de la
escala original.
En las escalas de razones es posible realizar todas las operaciones aritméticas
con los puntajes.
Por ejemplo:
o Estatura de los alumnos: la estatura en metros es proporcional a la
estatura en pulgadas.
o Peso de los alumnos: (en libras o kilogramos)
4
o El tiempo invertido en una prueba de velocidad en educación
física (en minutos o segundos).
Donde
X’ – X ”
Xmi = ------------- = Marca de clases
2
6
Por último, en el caso de variables no mensurables, dicha tabla adoptará una
forma como la siguiente:
1
Por último, debe definirse el límite inferior de la primear clase ( l inf ) . Por lo
general se toma el valor mínimo observado, aunque ello también dependerá de
la conveniencia, ya que tal vez sea mejor recurrir a otro valor. Por ejemplo, si
tenemos un mínimo de 1,503 m, tal vez convenga empezar con 1,5m.
Nota aclaratoria: como los valores verdaderos a utilizar de k, h y l 1 inf no siempre son
exactamente los valores que surgen de las relaciones antes planteadas (ya sea por
temas de redondeo en el caso de k o por aproximación, según conveniencia, en los
casos de h o l 1 inf ), entonces para garantizar que los intervalos cubran todo el rango
de variación de los datos observados, necesariamente debe cumplirse que:
k*h+ l 1inf > max(xi)
7
Ejemplo:
Solución:
1- Efectuar el arreglo ordenado de la población o muestra:
A= ( 7.42, 8.15, …, …, …, 90.99, 93.91 )
donde: X1 = valor mínimo = 7.42
Xn= valor máximo = 93.91
2 - Encontrar el rengo o recorrido de los datos: “w”
3- Encontrar en número de clases “k”, según la fórmula del logaritmo, dado que
n<100. :
k=1+3.322(log N)
Nota: en el ejemplo en estudio N=30 por cuanto que son 30 clientes en la muestra:
K = 1 + 3.322 (log 30)
= 1 + 3.322 (1.477) el log fue obtenido según calculadora
= 1+ 4.9069
= 5.9069 ~6 aproximado al siguiente entero
4- Determinar la amplitud de la clase: “h”
w 86.49
h = -------- = ---------- = 14.415
k 6
8
Nota: obsérvese que se va a trabajar con una cifra significativa más cómoda, o sea
como los datos están dados en centésimos, se calculo C hasta los milésimos para
evitar que algún dato coincida con el límite de clases
Simbología utilizada:
X mi = Punto medio o marca de clases
fi = frecuencia absoluta
fr = frecuencia relativa
fa↓ = frecuencia absoluta acumulada descendente
fa↑ = frecuencia absoluta acumulada ascendente
fra↓ = frecuencia relativa acumulada descendente
fra↑ = frecuencia relativa acumulada ascendente
Nota:
i- Obsérvese que el límite inferior de la primera clase es el valor mínimo
( X1=7.42 ) y el límite superior es el resultado de X 1+h = 7.42+14.415 =
21.835.
ii- El límite inferior de la siguiente clase es igual al límite superior de la
clase anterior y el límite superior es el resultado de adicionarle
nuevamente la amplitud de la clase (h ).
iii- Obsérvese que el límite superior de la última clase es igual al valor
mayor ( Xn=93.91 )
a. Cuadros estadísticos:
La estadística es una disciplina que nos enseña a organizar los datos recogidos
para poder analizar sus características y posteriormente inferir, a partir de las muestras
tomadas, las características de la población investigada. Los cuadros o tablas
corresponden a arreglos sistemáticos de los datos por filas y columnas y son un buen
complemento del texto en los informes
El primer procedimiento estadístico consiste en tabular los datos según el tipo
de escala de medición utilizada. La tabulación de los datos conlleva a representar la
información a través de tablas que de forma general contiene las siguientes partes
fundamentales:
1- Numeración (siempre que se presenten dos o más cuadros)
2- Título: es la descripción que precede al cuadro, la cuál deberá estar redactada
en forma breve y clara, de tal manera que exprese su contenido, siguiendo el
ordenamiento del mismo. Es necesario abarcar las características: Qué, Dónde,
Cómo y Cuándo
b -Gráficos Estadísticos:
El gráfico es quizás el auxiliar más valioso y utilizado para expresar datos
estadísticos, este elemento no le añade novedad a las tablas o cuadros estadísticos, es
de fácil comprensión y accesible a un número mayor de usuarios. El gráfico además
de expresar visualmente los hechos más importantes de la información numérica,
permite una mejor y más fácil comprensión y ahorra tiempo y esfuerzo en el análisis de
datos estadísticos al facilitar su apreciación visual en forma conjunta:
-Histogramas de frecuencias:
Un histograma es un gráfico que sirve para representar una distribución de
frecuencias. Este gráfico está formado por un conjunto de rectángulos (caso de
variables continuas) que tienen como base un eje horizontal (generalmente el eje de las
abscisas o de las X), y como centro los puntos medios de las clases. Los anchos de
las clases y las áreas de los rectángulos son proporcionales a las frecuencias de las
clases. En el caso de las variables discretas el gráfico consiste de un conjunto de
barras verticales en lugar de rectángulos, hallándose cada barra sobre la observación
respectiva y con una altura proporcional a la frecuencia de la observación
- Polígono de frecuencias:
El polígono de frecuencias es un gráfico formado por líneas quebradas, que
tiene los centros de las clases representadas en un eje horizontal (eje de las X) y las
frecuencias de las clases en un eje vertical (eje de las Y). La frecuencia
correspondiente a cada centro de clase se señala mediante un punto y luego los puntos
consecutivos se unen por líneas rectas. Del correspondiente histograma se puede
lograr el polígono de frecuencia uniendo los puntos medios de las bases superiores de
cada rectángulo mediante líneas rectas.
11
-Ojivas:
Las ojivas se refieren a los gráficos que se construyen utilizando una distribución
acumulativa de frecuencias, el orden de acumulación se aplica al cuadro de distribución
de frecuencia y puede ser descendente (fa↓, fra↓) o ascendente (fa↑, fra↑). La figura
que se forma al unir los puntos del polígono de frecuencias acumulativas es lo contrario
del orden anunciado (por ejemplo si se utilizó el orden descendente en la acumulación
de los datos en el cuadro, la ojiva resulta ser ascendente).
12
Media aritmética: Por lo general si la media se refiera a una población se lo denota
con la letra griega x y si proviene de una muestra con la letra x .
n
X i
x i 1
n
Es la medida de tendencia central más obvia que se puede elegir, y es el simple
promedio de las observaciones del grupo, el cual se obtiene sumando todas las
observaciones y dividiendo esta suma por el número de observaciones que hay en el
grupo.
En realidad hay muchas clases de promedios y ésta se la llama media aritmética
para denotar la suma de un grupo de observaciones dividida por su número.
Centro de amplitud: Es el valor que queda en medio de los valores mínimo y máximo.
x max x min
ca
2
Media geométrica: La media geométrica de un conjunto de observaciones es la raíz n
ésima de su producto. El cálculo de la media geométrica exige que todas las
observaciones sean positivas.
G n x1 * x 2 * ... * x n
13
La recíproca de la media armónica es igual a la media aritmética. Esta medida se
la utiliza para promediar cocientes donde el denominador es variable.
w x i i
xw i 1
n
w
i 1
i
i * n 1
Qi x
4 2
i * n 1
Di x
10 2
i * n 1
Pi x
100 2
5. MEDIDAS DE VARIABILIDAD
Desviación media: Esta medida es más acorde que la de amplitud, ya que involucra a
todos los valores del conjunto de observaciones corrigiendo la desviación. Ésta medida
se obtiene calculando la media aritmética de la muestra, y luego realizando la
14
sumatoria de valor absoluto de las diferencias de todos los valores con respecto de la
media. Luego se divide por el número de observaciones.
Una medida como ésta tiene la ventaja de que utiliza cada observación y corrige
la variación en el número de observaciones al hacer la división final. Y por último
también se expresa en las mismas unidades que las observaciones mismas.
n
( xi x ) * f i
DM x i 1
n
( xi x) 2 * f i
Varianza muestral: S 2
x i 1
n 1
n
( xi x ) 2 * f i
Varianza Poblacional: x2 i 1
Esta fórmula tiene una desventaja, y es que sus unidades no son las mismas
que las de las observaciones, ya que son unidades cuadradas.
Esta dificultad se soluciona, tomando la raíz cuadrada de la ecuación anterior,
que es la desviación típica.
La diferencia entre la varianza muestral y poblacional es que se divide a la
sumatoria de las diferencias al cuadrado por el total de la población (N) y para las
muestras por (n-1), que es el numero de observaciones de la muestra menos uno. Ello,
por desgracia ahora no podemos analizarlo, ni dar una respuesta entendible, tema que
se analizará en la unidad correspondiente a estimadores.
n
( xi m x ) 2 * f i
Desvío muestral: S S 2 i 1
x x
n 1
n
( xi x ) 2 * f i
Desvío poblacional: 2 i 1
x x
N
Entonces en este caso la unidad de x o S x es la misma que la del conjunto de
observaciones de la muestra estadística.
15
Coeficiente De variación: Es el cociente entre la desviación típica y la meria
aritmética. Al ser un cociente entre magnitudes que están expresadas en las mismas
unidades, tla cociente no posee unidades y es una medida de razón, lo cual permite la
comparación entre datos alternativos que presentad diferentes unidades de medida.
Media muestral: x mi * fi
x i 1
n
Donde:
k = cantidad de intervalos; n= nº de observaciones;
xmi = valor medio del intervalo i; fi = frecuencia absoluta del intervalo i
Media Poblacional: x mi * fi
x i 1
n
Donde:
k = cantidad de intervalos; n= nº de observaciones;
xmi = valor medio del intervalo i; fi = frecuencia absoluta del intervalo i
Varianza muestral:
(x
i 1
mi x) 2 * f i
(n 1)
Donde:
k = cantidad de intervalos; n= número de observaciones;
xmi = valor medio del intervalo i
x = media muestral para datos agrupados
Varianza poblacional: (x
i 1
mi mx ) 2 * f i
n
Donde:
k = cantidad de intervalos; n= número de observaciones.
xmi = valor medio del intervalo i.
m x media poblacional.
n
( f an ) * I
Mediana: L 2 =
i
fa
Donde: fan = Frecuencia acumulada del intervalo anterior al que contiene la mediana.
I = longitud del intervalo o clase que contiene la median.
Li = límite inferior del intervalo que contiene la mediana.
fa = frecuencia absoluta del intervalo que contiene la mediana.
16
d1
Modo: Li ( )*I =
d1 d 2
Donde: d1 = diferencia entre la frecuencia de la clase modal y la anterior.
d2 = diferencia entre la frecuencia de la clase modal y la posterior.
I = longitud del intervalo modal (o clase modal).
Li = límite inferior del intervalo modal.
i*n
( Fant )
Qi Linf [ 4 ]* I
fa ;
i*n
( Fant )
Di Linf [ 10 ]* I ;
fa
i*n
( Fant )
Qi Linf [ 100 ]* I
fa
Donde:
Qi= cuartil i ; Di = decil i ; Pi = percentil i;i = numero de cuartil / decil / percentil; n= total
de observaciones.
Linf Límite exactamente inferior del intervalo que contiene el cuartil / decil/ percentil.
Fant frecuencia acumulada simple del intervalo anterior al que contiene el cuartil /
decil / percentil.
f a frecuencia absoluta del intervalo que contiene el cuartel /decil / percentil.
7. MEDIDAS DE DEFORMACIÓN
Las medidas de deformación, nos sirven para comparar una distribución dada
con una distribución normal estándar (campana de gauss).
f ( m s) f (m s) s R
(nota aclaratoria: Si la distribución es simétrica, los momentos centrados de orden
impar son nulos debido a que las desviaciones positivas y negativas multiplicadas por
sus respectivas frecuencias se compensan.)
Para calcular la asimetría se utiliza la siguiente forma:
17
n
i 1
( Xi X ) 3 * fi
u3 n
As= Resultados posibles:
i 1 ( xi x) 2 * fi
n
3 3
( ) 2
n
3 * ( m me )
2º coeficiente de Pearson: CA2 = ,
s
En este caso el rango de variación es (-3;3), donde:
CA2 0 La distribución es simétrica
CA1 0 La distribución presenta asimetría positiva.
CA1 0 La distribución presenta asimetría negativa.
Paquetes estadísticos:
n ( xi x) 3
CA3 [ ( ) ],
( n 1) * ( n 2) s
Los valores significan lo mismo que para los casos anteriores.
n
i 1
( xi x) 4 * fi
4 n
K 3 3
4
n
i 1
( xi x) * fi
2
( )4
n
Resultados posibles:
K = 0 la distribución es MESOCÚTICA (posee la misma altura que una distribución
normal estándar).
K > 0 la distribución es LEPTOCÚRTICA (posee MAYOR altura que una distribución
normal estándar).
18
K < 0 la distribución es PLATOCÚRTICA (posee MENOR altura que una distribución
normal estándar).
As < 0, la distribución es asimétrica negativa (m < mo). Las desviaciones negativas
superan a las positivas.
8. DATOS MULTIVARIADOS
A veces, los elementos de una población pueden tener algunos valores
asociados entre si. Por ejemplo, si en cada observación se analizan varias
características estamos ante la presencia de datos multivariados. En el caso particular
que se analicen dos características, de dice que los datos son BIVARIADOS.
En el caso particular de datos bivariados, tendremos entonces por cada
observación, un par de valores, cada uno correspondiente a la característica que se
desea estudiar. Por ejemplo, al analizar el largo y el ancho del caparazón de las
tortugas, tendremos que por cada tortuga dos valores (largo; ancho). De esta forma, si
los datos constan de pares de arreglos (x1; y1); (x2; y2);….; (xn; yn). Podemos
entonces representar dichos datos mediante un diagrama de dispersión, que consiste
en representar cada par ordenado en un sistema coordenado bidimensional.
De esta forma el grafico nos permite ver si visualmente puede hallarse algún tipo
de asociación entre los valores de x e y. Por ejemplo, puede verse que los datos no
siguen ningún patrón de comportamiento general (relación entre x e y), se sigue una
relación casi lineal o tal vez una relación no lineal (parábola, hipérbola, logarítmica,
exponencial, etc).
A parte de esta representación gráfica puede establecerse analíticamente si
existe algún tipo de asociación entre las variables. Una de las medidas que
generalmente se utiliza para saber si existe algún grado de asociación entre variables
es la Covarianza.
( xi * y i ) xi y i
Cov( x; y ) i 1
( i 1
* i 1
) media( xy) media( x) * media( y )
n n n
Es una medida que sirve para diagnosticas si dos variables son independientes.
En este sentido, se entiende que la variable X es independiente de Y, si no existe
relación entre los valores que toma la variable X con respecto a los valores que toma la
variable Y (asociar con eventos independientes en probabilidad).
De este modo, la covarianza da idea del grado de asociación lineal entre
variables. Es como una medida de intensidad de asociación lineal. Si Cov(X;Y) = 0,
entonces se entiende que no existe asociación lineal entre las variables lo cual indica
que son independientes.
19
Cov(X;Y) > 0, nos indica una asociación lineal positiva, es decir, que si los valores
de X crecen, por lo general también lo harán los valores de la variable Y.
Cov(X;Y) < 0, nos indica una asociación lineal negativa, es decir, que si los valores
de X crecen respecto a su media, por lo general los valores de Y caerán respecto de
su media.
La Covarianza posee la característica que posee unidades, las cuales está dada
por la multiplicación de las unidades de la variable X e Y. Ello en la práctica genera
algunas desventajas dado que a los efectos de comparar covarianzas para variables
diferentes, no es posible determinar cual de los dos pares de variables aleatorias está
mas relacionado, dado que las dos covarianzas presentan unidades diferentes.
Para ello, se utiliza el concepto de correlación, que no posee unidades.
Cov ( X ; Y )
Correlación: ( x ;Y ) x y
20