Sie sind auf Seite 1von 6

Tema 1. Series estadı́sticas.

Distribuciones de frecuencias

Índice
• Definición de Estadı́stica.

• Conceptos Generales.

• Tipos de caracteres.

• Resúmenes numéricos.

• Tablas de frecuencias.

• Diagrama de tallo y hojas (stem- and-leaf)

• Cómo trabajar con variables agrupadas en intervalos.

1 Introducción
Aunque en sus orı́genes tenı́a como principal objetivos recopilar datos demográficos, sociológicos
y económicos, debido al gran avance de la ciencia, se ha producido una ampliación de estos
objetivos. Encontrar una definición para esta ciencia suele ser trabajoso debido por un lado a
la dificultad de resumir en pocas palabras el conjunto de conceptos que ésta implica y por otro
a su continua evolución.Una de las definiciones más usadas es la siguiente
La Estadı́stica es la ciencia que trata la teorı́a y aplicación de métodos apropiados
para coleccionar, representar, resumir y analizar datos, ası́ como realizar inferencias
a partir de los mismos.
A partir de esta definición, podemos considerar dos partes de la Estadı́stica, según sus
objetivos:

• Estadı́stica Descriptiva: Su objetivo es el tratamiento o análisis de los datos prove-


nientes de un colectivo, ya sea considerado como población total, ya sea considerado de
una parte de dicha población, con el objeto de describir o resaltar una serie de carac-
terı́sticas en relación a su estructura.
Dicha descripción se refiere, básicamente, a los datos que han sido analizados, sin pretender
extender las conclusiones que puedan extraerse a otros colectivos distintos o más amplios.
Básicamente, la Estadı́stica Descriptiva coincide, en sus métodos y objetivos, con lo que
actualmente se denomina Análisis de Datos.

• Estadı́stica Inferencial: Su objetivo es el desarrollo y estudio de técnicas que permitan


la realización de inferencias acerca de una población a partir del estudio de una parte de
la misma. Es decir, inducir o extraer conclusiones de un colectivo mediante la observación
de una parte más reducida.

1
Hay que notar que en dicho proceso inferencial se cometen errores inherentes al método
inductivo, siendo necesario disponer de medidas de la precisión de las conclusiones obtenidas.
En este sentido, la Estadı́stica Inferencial o Inferencia Estadı́stica o Estadı́stica Matemática,
emplea como herramienta básica el Cálculo de Probabilidades.

2 Conceptos generales
• Población: Es el conjunto de elementos, objetivo de la investigación estadı́stica que se
pretenda realizar.

• Individuo o Unidad Estadı́stica: Cada uno de los elementos de la población.

• Muestra: Subconjunto de la población. Es la base que emplea la Estadı́stica Inferencial


para extraer conclusiones sobre la población, ahorrándonos el estudio de la población
completa que puede ser muy costoso o incluso imposible. Desde el punto de vista de
las técnicas desarrolladas por la Estadı́stica Inferencial, la muestra deberı́a ser lo más
representativa posible. Esto se consigue básicamente mediante la aleatorización.

• Carácter: La observación de un individuo se traduce en la descripción de alguna cualidad


o propiedad inherente al mismo. A esta cualidad o propiedad se le denomina carácter o
caracterı́stica. Un carácter puede adoptar diferentes modalidades.

• Modalidad: Diferentes posibilidades o variantes de un carácter.


Hemos de aclarar que el concepto de muestra, como parte más pequeña de la población,
alcanza toda su importancia en el marco de la Estadı́stica Inferencial, pues ésta, de forma
genérica, estudia precisamente el estudio de las poblaciones a partir de muestras obtenidas
de la misma. Por esta misma razón, la Estadı́stica Descriptiva no hace especial hincapié
en este concepto, y usualmente, dada una masa o conjunto de datos, no concederemos
relevancia al hecho de que provengan de una población o de una muestra. A continuación
veremos algunos ejemplos de los conceptos anteriormente expuestos.

Ejemplo 1
POBLACIÓN: Alumnos de la Universidad de Sevilla.
CARACTERES: Sexo, carrera que estudia, curso, número de hijos, perı́metro craneano en cm.
MODALIDADES:

– Sexo: varón, mujer.


– Carrera: matemáticas, estadı́stica, biologı́a, fı́sica, etc.
– Curso: primero, segundo, tercero, cuarto, quinto, sexto, doctorado.
– Número de hijos: 0,1,2,3,...
– Perı́metro craneano: Intervalo de números reales.

2
3 Tipos de caracteres
Si consideramos el ejemplo anterior, podemos observar que hay caracteres que son medibles
o numéricamente cuantificables, y que se denominan cuantitativos, por ejemplos número de
hijos o perı́metro craneano. Por otro lado, hay otros caracteres no cuantificables o suceptibles de
medida, como sexo o carrera, y que reciben el nombre de cualitativos o atributos.
En el caso de que el carácter sea cuantitativo a cada modalidad se le asignará un número
real a través de las denominadas Variables estadı́sticas. Se pueden clasificar en dos tipos:

• Discretas. No pueden tomar ningún valor entre dos consecutivos o bien, aún siendo
continuas, vienen dados como un conjunto de datos individuales. Por ejemplo el número
de hijos o el número de coches.

• Agrupadas en intervalos. Son aquellos datos de tipo continuo principalmente (datos


que siempre admiten una modalidad intermedia entre cualesquiera de sus modalidades
como el peso y la altura) que vienen presentados como intervalos con valores asociados a
cada uno de ellos, representando el número de datos con valor dentro de esos intervalos.

4 Resúmenes numéricos
El primer paso en el estudio estadı́stico descriptivo de un conjunto de datos será la construcción
de tablas u otros tipos de esquemas que permitan resumir y ordenar la estructura de dichos
datos, facilitando ası́ la posterior extracción de conclusiones.

4.1 Tablas de frecuencias


Se dispone de un carácter, X, de la cual se tienen N datos, X1 , X2 , . . . , XN que proceden de la
observación de X en N individuos. Supondremos que estos N datos presentan k modalidades
distintas que denotaremos por x1 , x2 , . . . , xk .

FRECUENCIA ABSOLUTA Se define la frecuencia absoluta de la modalidad xi al número


de individuos que presentan esa modalidad. Se denota ni . Evidentemente ki=1 ni = N . Dichas
P

frecuencias se disponen en forma de tabla, con la siguiente estructura,

Modalidadesdexi Frecuencias absolutas


x1 n1
x2 n2
.. ..
. .
xk nk
Si las modalidades están medidas en alguna escala de tipo ordinal o superior, dichas modal-
idades se disponen ordenadas.

FRECUENCIA RELATIVA Se define la frecuencia relativa de la modalidad xi a la pro-


porción de individuos que presentan esa modalidad. Se denota fi . Evidentemente ki=1 fi = 1.
P

Si además, X es de tipo cuantitativo y x1 < x2 < . . . < xn , podemos definir:

3
FRECUENCIA ACUMULADA Se define la frecuencia acumulada de la modalidad xi al
número de individuos que presentan esa modalidad o una menor. Se denota Ni . Evidentemente
Pi
j=1 nj = Ni .

FRECUENCIA RELATIVA ACUMULADA Se define la frecuencia relativa acumulada


de la modalidad xi a la proporción número de individuos que presentan esa modalidad o una
menor. Se denota Fi . Se cumple que Fi = Ni /N .
Finalmente, si además si los datos de X vienen agrupados en intervalos, deben añadirse los
intervalos en la columna izquierda en lugar de las modalidades x1 , . . . , xk y añadir las columnas
correspondientes a las marcas de clase, amplitud y densidad de frecuencias de cada intervalo.
Los intervalos se representarán por Ii = [Li−1 , Li ), i = 1, . . . , k.

MARCA DE CLASE Se define la marca de clase del intervalo Ii = [Li−1 , Li ) como el punto
medio del mismo, xi = Li − Li−1 , i = 1, . . . , k.

AMPLITUD Se define la amplitud del intervalo Ii = [Li−1 , Li ) como ai = Li − Li−1 , i =


1, . . . , k.

DENSIDAD DE FRECUENCIAS Se define densidad de frecuencias del intervalo Ii =


[Li−1 , Li ) como hi = ai /ni , i = 1, . . . , k.
Veamos un ejemplo con una variable cuantitativa discreta.

Ejemplo 2 Ocho lotes de 1000 piezas de una cierta empresa eléctrica contiene las siguientes piezas
defectuosas:

6, 9, 1 ,7, 5, 1 ,1 ,3.

Se obtiene la siguiente tabla,

xi ni fi Ni Fi
1 3 3/8 3 3/8
3 1 1/8 4 4/8
5 1 1/8 5 5/8
6 1 1/8 6 6/8
7 1 1/8 7 7/80
9 1 1/8 8 1
8 1

4.2 Diagramas de tronco y hojas o tallo y hojas o “Stem and Leaf ”


Son una variación de las tablas de frecuencia, conservando los datos originales y añadiendo
alguna información adicional.
Realmente, este diagrama tiene una gran similitud con los histogramas pero representa di-
rectamente los dı́gitos de los valores observados en vez de barras o rectángulos. De esta forma,
su construcción es mucho más sencilla y se conserva mucha más información. La observación de
un diagrama de tronco y hoja revela propiedades y caracterı́sticas tales como,

4
• Rango de valores de los datos.

• Concentración de los mismos.

• Simetrı́a.

• Valores que se separan marcadamente del resto.

• Valores poco observados o lagunas.

Para construirlo seguiremos los siguientes pasos,

1. Examinar los datos para decidir cuantos dı́gitos se van a conservar, truncando a partir
del último dı́gito retenido. Todos los dı́gitos, salvo el último, forman el tronco de la
observación, el último dı́gito es la hoja. El lugar de truncamiento, que podemos hacer con
o sin redondeo, dependerá del tipo de datos.

2. Escribir la lista de posibles troncos desde el menor al mayor y cada hoja a la derecha del
tronco al que pertenece. Adicionalmente, se pueden ordenar las hojas sobre cada tronco
en orden ascendente.

3. Añadir una serie de anotaciones indicando de qué forma se pueden leer los datos a partir
del diagrama y el número de datos.

4. Además, si hay valores que se separan en exceso del resto, se anotan aparte indicando el
sentido de distanciamiento. De esta forma, se obtiene un diagrama más compacto.

A veces, cuando los dı́gitos correspondientes a las hojas son unidades, se originan diagramas
con pocos troncos pero si se toman décimas, aparecen demasiados. En estos casos, se puede
dividir un tronco en dos partes, diferenciando cada parte con un “*” para las hojas de 0 a 4, y
con un “.” para las de 5 a 9. También es posible diferenciar cinco partes distintas empleando
“*”, “T”, “F”, “S” y “.” para hojas de 0 a 1, 2 a 3, 4 a 5, 6 a 7, y 8 a 9 respectivamente.
En la Figura 1. y la Figura 2. se representan diagramas de tronco y hoja para los datos de
los ejemplos anteriores, 1. y 2., respectivamente.
En la primera fila, se da información sobre la unidad utilizada y como están representados los
valores sobre el diagrama. Si hay valores extremos, se representan en la fila siguiente, indicando
si son superiores o inferiores. Por ejemplo, en la Figura 2., hay tres valores extremos inferiores.

5
unidad = 1 1|2 representa 12

5*|00112344
5.|555678
6*|0011122333444
6.|5555566677888999999
7*|0000000111111222233344444
7.|5555555555666666666777777777788888899999
8*|0000000111111222223333334444444
8.|5555566677788999
9*|0000112234
9.|5667888

Figura 1. Diagrama de tronco y hoja. Datos del Ejemplo 1.

unidad = 1 1|2 representa 12

INF|34,39,41

4T|3
4F|55
4S|6
4.|88899999
5*|0000000011111
5T|222333333333333333
5F|444444444444555555555555
5S|6666667777
5.|8888888888999999
6*|000000000001111111
6T|222222

Figura 2. Diagrama de tronco y hoja. Datos del Ejemplo 2.

Das könnte Ihnen auch gefallen