Sie sind auf Seite 1von 26

DISTRIBUCION DE FRECUENCIAS PARA DATOS NO AGRUPADOS

Los datos estadísticos provienen de la operación de contar o de medir; y pueden haberse


obtenido anotando el número de elementos que corresponden a cada una de las
categorías definidas o también ser el fruto de una operación más compleja, como la
medición de la intensidad o magnitud de una característica.

En el análisis e interpretación de los datos estadísticos correspondientes a variables


continuas y discretas, resulta muy valioso disponer de elementos descriptivos que den
información acerca de tres aspectos:

La forma o patrón de distribución de los datos.


La posición de la distribución, o sea, alrededor de que valor se tienden a concentrar
los datos (Valores centrales).
La dispersión de los datos alrededor de los valores centrales o promedios
(variabilidad).

Una simple lista de un conjunto de datos grande no le dice gran cosa a un lector, cuando
se desea clasificar los datos de una forma mas manejable se utilizan las distribuciones de
frecuencia las cuales podrán definirse un ordenamiento de datos(X) en las clases o
categorías que muestran, para cada una de ellas, el número de elementos que contiene
(frecuencia).

Frecuencia

Señala la cantidad de datos que están incluidos dentro de una clase.

Frecuencia Absoluta

Es el número de veces que se repite un determinado valor o modalidad de una variable o


atributo (f).

1
Ejemplo:

Entrevista a 20 parejas sobre la cantidad de hijos.

Frecuencia Relativa

Es una medida proporcional de la frecuencia de un suceso y se obtiene al dividir cada


frecuencia absoluta entre el total de datos. La suma de todas las frecuencias relativas
debe sumar 1.

Formula; frecuencia relativa (Fr)=Frecuencia de la clase/total

2
Frecuencia Porcentual

Se obtiene al multiplicar la frecuencia relativa por 100. La suma de todas las frecuencias
porcentuales debe sumar 100.

Una tabla de distribución de frecuencias relativas tiene varias ventajas sobre la tabla de
distribución de frecuencias, una de ellas es que las frecuencias relativas se pueden
convertir fácilmente a porcentajes, multiplicando cada una de ellas por 100.

3
FRECUENCIAS ACUMULADAS

La distribución de frecuencias puede convertirse fácilmente en una distribución de


frecuencias acumuladas, esto se hace colocando un subtotal de las frecuencias junto a
cada clase.

Existen dos tipos de frecuencias acumuladas las mas de y la menos de, pero las mas
utilizada es la menos de.

4
Utilización del 360°.

Esta frecuencia se utiliza cuando se desea construir un gráfico circular. Se obtiene multiplicando cada
frecuencia porcentual por 360° para obtener la cantidad de grados que representa cada frecuencia. La
suma de todas las frecuencias debe ser 360° por la circunferencia del círculo.

Construcción de Gráficas para Variables Cuantitativas, Discretas o Variables Cualitativas

Para que sirven los gráficos

Atraen la atención del lector


Son sencillos de comprender
Presentan mejor una idea general
Las ideas presentadas son entendidas con mayor rapidez y comodidad
Permite una visión más clara acerca de lo que presentan los datos.

Desventajas
No se puede incluir tanta información como en una tabla.
Presentan valores aproximados, mientras que las tablas permiten incluir la información exacta.

Características Generales de los Gráficos

Debe tener proporciones adecuadas

5
Explicarse por sí mismo, tiene que tener: título, ejes, leyendas, símbolos, escalas y fuentes
(de donde proviene la información).
No debe incluir muchas series de datos, por que confunde al lector.
Tener cuidado con las escalas, la base ceso solo se utiliza para que sirva de referencia.
Deben ser sencillos, cómodo de interpretar y adecuado al tipo de información.

Gráficos de Barras

Se utiliza para representar datos de una sola variable cualitativa o cuantitativa discreta,
sirve para comparar frecuencias absolutas o relativas de las variables.
Usualmente se usan barras horizontales si la variable es cualitativa y verticales, si los datos
representan variables cuantitativas discretas.
Resultan de especial utilidad en la presentación de series cualitativas y geográficas (barras
horizontales) y si son datos cronológicos o cuantitativas discretas se utilizan barras
verticales.
Las barras deben ser del mismo ancho, y la separación entre barra y barra es de media
barra.

Recomendación

Los ejes se deben rotular.

6
En las variables cualitativas las barras deben ordenarse de mayor a menor, la barra más
larga se coloca en la parte superior y la más corta en la parte inferior.
La altura de la barra indica la frecuencia de la variable.

Gráfico Circular

7
Destaca la importancia relativa de las categorías dentro de un total.
Cada sector del gráfico circular representa la frecuencia porcentual.
Los grados son un medio para definir los sectores y por ese motivo, no deben aparecer en
el gráfico.

Gráfico de Bastones

8
Se utiliza cuando las categorías de las variables son muy numerosas.
No dan el aspecto de continuidad por que las barras son delgadas.

Edades de un Grupo de Estudiantes Matriculados


en un Curso de Informática.

Frecuencia Frecuencia Frecuencia


DATOS Absoluta Relativa Porcentual
X fa Fr
15 1 0,04347826 4,34782609
16 2 0,08695652 8,69565217
17 3 0,13043478 13,0434783
18 3 0,13043478 13,0434783
19 2 0,08695652 8,69565217
20 1 0,04347826 4,34782609
21 2 0,08695652 8,69565217
22 1 0,04347826 4,34782609
23 5 0,2173913 21,7391304
24 1 0,04347826 4,34782609
25 2 0,08695652 8,69565217
Total 23 0,86956522 100

Medidas de Tendencia Central

9
Hoy día las estadísticas nos rodean, entran en nuestras casas a través de los medios de
comunicación, gracias a ellas podemos prever el número de accidentes que habrá en un día
determinado, el número de habitantes que tendrá la tierra dentro de 20 años, o el número de
automóviles que comprarán los costarricenses en el año 2010.

En muchos casos, los datos estadísticos tienden a agruparse alrededor de un cierto valor,
produciendo un punto más alto que los demás en la correspondiente distribución de
frecuencias.

Esta tendencia a agruparse alrededor de un punto sugiere el empleo de un valor típico para
representar o describir brevemente el conjunto de datos.

Todo valor típico, o sea, un solo número que se utilice para caracterizar o sintetizar una
distribución de frecuencias y, en general, un estudio estadístico cualquiera, recibe el nombre de
medida de tendencia central.

Las medidas de tendencia central tienen por objeto sustituir todos los valores de un gran
número de datos o de una distribución de frecuencia por único valor representativo de todos
ellos, es decir, por un valor típico que exprese el resultado equivalente al de los demás datos
estadísticos.

Las medidas de tendencia central, también llamadas medidas de posición permiten:

Representar el conjunto de datos recolectados por un solo número.


Comparar unos estudios estadísticos con otros.

Entre ellas tenemos:

La Medida (media) Aritmética o Promedio (x).

La media es simple y sencillamente un promedio típico de un conjunto de datos. Se obtiene al


sumar todas las calificaciones para luego dividirlas entre el número de calificaciones, se representa
X, o bien multiplicando la variable (X) por la frecuencia (f) y se divide por el número de datos.

Ejemplo:

La siguiente población es el conjunto de las edades (en años cumplidos) de 58 personas que
trabajan en una fábrica textil. Los datos están ordenados de menor a mayor.

Elabore una tabla para los datos

10
Multiplicamos cada edad por la frecuencia correspondiente.

La media aritmética se obtiene: X= suma de los datos/número total de datos

1271/58=22 Se interpreta: La edad promedio de las personas que trabajan en la fábrica es de 22


años.

La Moda (Mo)

La moda de una distribución de frecuencia es la medida de tendencia central que presenta el valor
de la variable de mayor frecuencia absoluta. La moda se puede aplicar a datos cualitativos como
cuantitativos.

Ejemplo:

La siguiente es una encuesta que se realizó a 20 familias sobre la preferencia de las marcas de
electrodomésticos.

11
La moda es la marca LG por que 7 de las 7 familias la prefieren.

La Mediana (Me)

La mediana de una distribución de frecuencia; es el punto que divide al conjunto de datos en dos
mitades iguales. El mismo número de datos queda por arriba de la mediana que por debajo de ella,
independientemente de cada uno de los datos.

Es una medida de posición más que de longitud. Primero se utiliza la fórmula para determinar la
posición de la mediana Pme= n+1 / 2, si el número de (n) de datos es impar, simplemente se divide
se ubica el dato según la posición. Pero si el número de datos es par, la mediana será el valor
promedio entre los valores centrales.

Ejemplo:

12
1- La siguiente población es el conjunto de las edades (en años cumplidos) de 58 personas
que trabajan en una fábrica textil. Los datos están ordenados de menor a mayor.

PMe= n+1 / 2 PMe= 58+1 / 2=29,5. La cantidad de datos es par porque es 58. Entonces primero
utilizamos la fórmula para ubicar la posición PMe= 58+1 / 2=29,5. Ahora vamos a buscar el dato 29 y
el dato 30, que sería el 22 y el 22. Luego M e= 22+22 / 2= 22, significa que la Mediana de los datos
es 22

2- Número de puntos obtenidos; en una prueba de Biología de estudiantes de quinto año.

La cantidad de datos es impar porque es 55.

Entonces primero utilizamos la fórmula para ubicar la posición P Me=55+1 / 2 =28. Ahora vamos a
buscar el dato ubicado en la posición 28 que corresponde al 15, por eso decimos que la mediana
de los datos es 15.

13
Uso de las Medidas de Posición

El propósito fundamental de las medidas de posición (tendencia central) es caracterizar y


representar un conjunto de datos y cada una de las medidas propuestas.

Las medidas se complementan y permiten, en conjunto, una mejor descripción de los aspectos
típicos del grupo de datos.

Una gran parte del problema acerca de qué medida usar, en una situación específica, desaparece
si se tiene una idea clara de cuál es el aspecto del conjunto de datos que desea resumir y del
efecto que sobre las medidas de posición tienen los valores extremos.

“Distribución Simétrica”

Es cuando la moda, la mediana y el promedio coinciden; es decir tienen el mismo valor. En este
caso cualquiera de esas medidas resulta igualmente adecuada para caracterizar el grupo de datos.

“Distribución Asimétrica - Positiva”

Es cuando la cola más larga esta hacia la derecha, la distribución tiene valores extremos altos.

14
“Distribución Asimétrica – Negativa”

Es cuando la cola más larga esta hacia la izquierda, la distribución tiene valores extremos bajos.

Ejemplo

Se les pregunta la edad (en años cumplidos) a 12 personas y estos son los resultados.

15
La Moda = Mo=20 años

La Mediana= PMe=12+1 / 2= 6.5, entonces Me= 22+25 /2=23.5 años

El Promedio= X=276/12=23 años.

Los valores de las medidas de tendencia central obtenidos, se pueden expresar mediante un
gráfico, que se aproxime a la famosa campana de Gauss. Ahora si nos referimos a este ejemplo el
gráfico tendrá la siguiente forma.

Medidas de Variabilidad para Datos No Agrupados

Las medidas de posición o centralización tienen como finalidad sintetizar la información contenida
en un conjunto de datos. Sin embargo, la utilización exclusiva de estas medidas no es suficiente
para resumir toda la información presente en los datos.

Ejemplo

El número de datos obtenidos en una prueba de matemáticas de dos grupos distintos de alumnos
de décimo año.

Deseamos determinar qué diferencias existen entre los resultados de los dos grupos, para eso
vamos a calcular los promedios de los dos grupos:

X= suma de x*f / n

16
Sección 10-1

X=5*15+10*10+15*5+20*10+25*15 / 55=825/55=15

Sección 10-2

/50=750/50=15

Aunque los promedios en las dos distribuciones son iguales, los puntajes obtenidos son muy
diferentes, tal como se aprecia en los gráficos.

En la sección 10-1 el promedio puede ofrecer una imagen errónea del grupo, ya que sólo 5
estudiantes obtuvieron ese puntaje y, la mayoría de ellos obtuvieron puntajes muy distantes de 15.
En la sección 10-2 el promedio es más representativo, ya que la mayoría de los estudiantes están
concentrados en torno al promedio.

Este ejemplo sugiere la necesidad de acompañar a las medidas de tendencia central con otras que
evalúen su representatividad, es decir, procurar establecer una medida que determine la

17
concentración o dispersión de los datos alrededor del promedio, y que se conocen con el nombre
de medidas de variabilidad. Estas medidas evalúan en qué medida la variable estadística toma
valores muy próximos, o por el contrario, presenta valores muy distantes de la media.

Recorrido o rango de una distribución de frecuencias.

Una forma natural de apreciar la variabilidad de los datos, es considerar los valores extremos del
conjunto.

Ejemplo:

Esteban y Carlos son clavadistas y los jueces les otorgan puntos para cada uno de sus 5 clavados,
como se muestra en la siguiente tabla:

Promedio de Esteban: X=115/5=23

Promedio de Carlos: X=115/5=23

El mayor puntaje de Esteban fue de 28 y el menos fue de 18, esto quiere decir que la escala de
valores a lo largo de la cual están dispersos los datos varían desde 18 hasta 28. Para saber
cuántos puntos recorre el conjunto, restamos 18 de 28.

Entonces. Rango es igual al valor mayor-valor menor: 28-18=10

En el caso de Carlos tenemos:

Rango es igual al valor mayor-valor menor: 28-6=22

Al comparar el rango de cada competencia, podemos estar tentados a concluir que Esteban es
mucho más consistente que Carlos, pero si analizamos la información podemos decir que Carlos
es más consistente, con la excepción de una marca muy baja, que fue dado probablemente por
alguna circunstancia especial. Ambos terminaron con una misma media (promedio) de 23, pero el
promedio de Carlos es menos representativo, por que tiene un valor extremo menor.

El rango es la medida de variación más fácil de determinar, pero es también la más imperfecta, ya
que sólo considera dos valores de la distribución.

18
Para darle el mayor significado posible, podemos concluir que cuanto menor sea el rango mayor
será la representatividad del promedio, y en forma análoga, cuando mayor sea el rango, menor
será la representatividad de la respectiva media aritmética.

Desviación Media

Con el Objeto de buscar una medida de variación más eficaz, analizaremos la diferencia entre el
promedio de los datos y el valor de la variable de cada dato.

La fórmula es DM=∑ Xi - ẍ /n= suma de las desviaciones/número de datos.

Ejemplo

Si tenemos los siguientes datos 3,10,2,8,7

El promedio de los datos se obtiene: X=2+3+7+8+10/5=6

DM=14/5=2.8

La definición de esta medida de variabilidad, conduce a que los valores altos de ella
indicarán “gran dispersión” de los datos del estudio; por el contrario, los valores bajos
señalarán “poca dispersión”. En el ejemplo anterior la desviación media es baja por lo
que concluimos que la distribución correspondiente presenta datos bastantes
concentrados, es decir pocos dispersos.

La desviación media, no obstante las ventajas conceptuales que reúne, casi no se


utiliza debido a que requiere el manejo de valores absolutos para su cálculo. Existe
otra medida de variación o de dispersión, basada en las variaciones respecto a la
media aritmética, que es mucho más cómoda y útil, como la varianza.

19
Varianza

La varianza no presenta el problema de que la suma de las variaciones o dispersiones


sea cero, ya que éstas se hallan elevadas al cuadrado. Es evidente que a mayor
dispersión corresponde mayor varianza y por lo tanto, menor representatividad de la
media aritmética.

La varianza es la media aritmética de los cuadrados de las variaciones de los valores


de la variable con respecto a la media aritmética de los datos.

Se emplea N cuando el número total de elementos es la población y n para representar


el tamaño de la muestra. Entonces.

Grupo de Referencia

Muestra (n) Promedio= x=∑in =1xi /n Varianza= S2=∑in=xi2*fi-


(∑in=1xi*fi)2 /n-1

Población (N) Promedio= x=∑in =1xi /N Varianza= S2=∑in=xi2*fi-(∑in=1xi*fi)2 /N-1

Ejemplo

En este ejemplo obtuvimos una varianza de 4.18 por lo tanto concluimos que siendo
esta relativamente baja, la distribución correspondiente presenta datos bastantes
concentrados, es decir, poco diversos.

Desviación Estándar o Desviación Típica


La desviación estándar nos indica cuánto se alejan, en promedio, las observaciones de
la media aritmética X del conjunto. Es la medida de dispersión más usada en
estadística, tanto en aspectos descriptivos como analíticos.
La desviación estándar es la raíz cuadrada de la varianza.
DE= varianza

20
Basándonos en el ejemplo anterior. DE= 4.18=2.04
Según la desviación estándar, la distribución de frecuencias presenta datos bastantes
concentrados con respecto a la media aritmética, esto se deduce fundamentalmente a
que la desviación media presenta un valor bastante bajo.

DATOS AGRUPADOS

Distribución de Frecuencias para Variables Cuantitativas Continuas


Cuando los datos son relativamente numerosos, recurrimos a agruparlos en una
distribución de frecuencias, que puede definirse como una ordenación o arreglo de
datos en intervalos de clase, que muestran para cada una de ellas, el número de
elementos que contiene.
Para la construcción de distribución de frecuencias para variables cuantitativas
continuas se debe tener cuidado, ya que hay que tomar en cuenta muchos detalles,
tales como el número de clases y su amplitud, las pautas que debe tenerse al fijar los
límites, etc.
Algunos Conceptos importantes
Clase: son agrupaciones de los distintos valores que toma la variable. Las clases
deben ser exhaustivas, es decir, todos los valores deben estar incluidos en alguna
clase y mutuamente excluyentes, a saber, un valor no debe pertenecer a más de una
clase.
Intervalos de Clase: indican la amplitud de la clase y la diferencia entre el límite real
superior y el límite real inferior de la clase.

Límites de los Intervalos de Clase: son los extremos de cada intervalo de clase.
30 , 35
Límite Límite
. inferior superior

Ejemplo de cómo obtener las clases en una distribución de frecuencias para datos
agrupados.
El peso de 40 estudiantes de un colegio.

a). Se determina el valor del recorrido o amplitud de las variables, que se obtiene
restándole al dato mayor el dato menor, entonces es: 74-32 =42.
b). Se determina la amplitud de clase (no mayor de 15 no menor de 5): se divide la
amplitud general por el número de clases elegido. Se toma, como amplitud de cada
clase, el número natural más próximo, mayor que el cociente. La amplitud de cada
clase de ser la misma. La amplitud de las variables (42) se divide en la cantidad de

21
clases que uno desearía (9 clases), entonces 42/9 =4,66 de amplitud, por lo tanto la
amplitud de cada intervalo será de 5.
c). Como el dato menor es 32, podemos iniciar la tabla con el intervalo de clase 30-35,
ya que la amplitud es 5.

Algo más sobre los límites de clase


Con respecto a los límites de clase es conveniente distinguir entre los límites indicados
y los límites reales o verdaderos. Los indicados son los que aparecen en la distribución
y los reales son aquellos que nos señalan la verdadera extensión de la clase, o sea, los
valores de la característica de interés que abarcan realmente la clase.
Por ejemplo estos datos aunque son variables continuas están redondeadas a
kilogramos entonces puede ser posible que un dato como 54 kg., sea que alguien que
pesaba 54.3 kg. O bien 53.8 kg. Por ese motivo, para obtener los límites reales a partir
de los límites indicados, en este caso, del peso de estudiantes, debe ajustarse el efecto
del redondeo sobre los límites indicados agregando media unidad al límite superior y
restando media unidad al límite inferior de cada clase.
Entonces los límites reales correspondientes a los indicados son.
Límites indicados Límites reales
30-34 29,5-34,5
35-39 34,5-39,5
40-44 39,5-44,5

Punto Medio
Se da ese nombre al valor central de la clase. Se obtiene calculando el promedio de los
límites reales. Su importancia es la de representar a la clase cuando se requiera
realizar algunos cálculos para análisis posteriores.
Ejemplo
29,5 + 34,5 /2=64/2=32

Frecuencia Absoluta: Se define como el número de elementos u observaciones


pertenecientes a una misma clase.
Frecuencia Relativa: Se obtiene dividiendo cada frecuencia absoluta por el número
total de datos. Indica la importancia relativa de la clase.

22
Frecuencias Acumuladas: Es la suma ascendente o descendente de las frecuencias
absolutas o relativas, según se quiera acumular hacia arriba o hacia abajo,
respectivamente.

Clasificación de los 40 estudiantes de un colegio de acuerdo a su peso en kilogramos.

Una vez que se ubican los datos en cada clase se pierde información acerca de su
magnitud, sin embargo los cálculos serán más sencillos.

Cálculos de las Medidas de Tendencia Central para Datos Agrupados


La Moda (Mo)
La moda fue definida anteriormente como el valor del conjunto de datos que se repite
con más frecuencia. Pero no es aplicable a los datos agrupados. Vamos a determinar la
moda para una distribución de frecuencias con datos agrupados.

La Fórmula es Mo= Li + d1*c, donde:


d1 +d2
Li = Límite inferior real de la clase modal.
d1 = Diferencia entre la frecuencia de la clase modal y la frecuencia de la clase
anterior.
d2 = Diferencia entre la frecuencia de la clase modal y la frecuencia de la clase
posterior.
c = Amplitud del intervalo.

Clase Modal: es la clase donde se encuentra la frecuencia mayor.

El peso de 40 estudiantes del Liceo de Palmares.

23
Mo = 44,5 + 1 *5 = 44,5+1/3*5 =46.16
1+2
Determinar cada uno de los componentes de la fórmula:
Li= 44,5
d1= 9-8 =1
d2= 9-7 =2
c= 49,5-44,5 =5
Cuando la distribución de frecuencias tenga más de una clase modal, se tomará la
primera que aparezca en el orden establecido en la tabla.

La Mediana (Me)
En una distribución de frecuencias para datos agrupados, la mediana divide el área
bajo la curva en dos partes iguales.
La Fórmula es:
Me Li +n/2-f*c
f

24
Proceso de cálculo:
Se calcula la posición de la mediana n / 2 = 40 / 2 = 20, significa que está en
el intervalo 44,5-49,5.
Li = 44,5
n = 40
f=9
Fa = 12
c = 49,5-44,5 =5
Aplicando la fórmula:
Me Li +n/2-f*c
f

44,5 + 20-12 *5=48


9
Entonces se puede concluir que el 50% de los estudiantes pesan menos de 48,94 kg y
la otra mitad más de ese peso.

La Medida (Media) Aritmética o Promedio (x)


Para calcular el promedio utilizaremos la fórmula x =∑x * f, esta fórmula indica que
necesitaremos el punto medio de las clases.

25
Utilizando la fórmula 2025 / 40 = 50,62

x= ∑xi * f
n

Varianza (S2)
Vamos a utilizar la fórmula para la varianza muestral que es la siguiente:S 2=∑ xi2fi

Aplicando la fórmula= 106415- (2025)2 / 40 =106415-102515.63 =3899.37 = 99.98


39 39 39

Desviación Estándar
Para obtener la desviación estándar solamente aplicarle la raíz cuadrada a la varianza.
Entonces: S2 =99.98 =10

26

Das könnte Ihnen auch gefallen