Sie sind auf Seite 1von 14

El diagrama de tallos y hojas

Dado un conjunto de datos formado por

observaciones, las cuales pueden ser

representadas mediante
y donde cada
tiene por lo
menos dos dgitos. Una forma rpida de obtener una representacin visual del
conjunto de datos es construir un diagrama de tallos y hojas. Este diagrama es
usado cuando hay un nmero no muy pequeo de datos. Los siguientes son los
pasos para construir un diagrama de tallos y hojas:
1. Seleccionar uno o ms dgitos iniciales para los valores de tallo. El dgito(s)
final(es) se convierte (n) en hojas. Para facilitar la determinacin de la
forma de la distribucin de los datos se necesitan al menos 5 tallos.
2. Hacer una lista de valores de tallo en una columna vertical.
3. Registrar las hojas por cada observacin junto al valor correspondiente del
tallo.
4. Indicar las unidades para tallos y hojas en algn lugar del diagrama.
Muchos de los procedimientos estadsticos que se desarrollarn en la siguientes
unidades suponen que la variable aleatoria estudiada tiene al menos una
distribucin aproximadamente normal, para la cual el diagrama de tallos y hojas
tiene forma de campana.
Los diagramas de tallos y hojas nos dan una idea de la localizacin de los datos y
de la forma de la distribucin. Esta tcnica funciona bien para los conjuntos de
datos que no tienen una dispersin muy grande.

Ejemplo
La siguiente tabla representa el porcentaje de algodn en un material utilizado
para la fabricacin de camisas para caballeros.
Tabla 1. Datos del porcentaje de algodn
33.1

35.3

34.2

33.6

33.6

33.1

37.6

33.6

34.5

34.7

33.4

32.5

35.4

34.6

37.3

34.1

35.6

35.0

34.7

34.1

34.6

35.9

34.6

34.7

36.3

35.4

34.6

35.1

33.8

34.7

35.5

35.7

35.1

36.2

35.2

36.8

37.1

33.6

32.8

36.8

34.7

36.8

35.0

37.9

34.0

32.9

32.1

34.3

33.6

35.1

34.9

36.4

34.1

33.5

34.5

32.7

32.6

33.6

33.8

34.2

34.6

34.7

35.8

37.8

El diagrama de tallos y hojas para los anteriores datos aparece a continuacin.


Stem-and-leaf of PORCENTAJE DE ALGODON N = 64 Leaf Unit = 0.10 (el nmero 1
despus del punto significa que se usa una sola cifra decimal).
Tallo

Hojas

32

156789

18

33

114566666688

(21)

34

011122355666667777779

25

35

00111234456789

11

36

234888

37

13689

Algunas veces, la utilizacin del primero o de los dos primeros dgitos de los datos
puntuales como tallos no proporcionan suficientes tallos como para permitirnos
detectar la forma de su distribucin. Una manera de solucionar esto es utilizar
tallos dobles. Es decir, utilizar cada tallos dos veces: una vez para trazar las hojas
inferiores 0, 1, 2, 3, 4, y a continuacin nuevamente para trazar las hojas
superiores 5, 6, 7, 8, 9. El siguiente grfico ilustra lo anterior

Diagramas circulares
Son utilizados en aquellos casos donde nos interesa no slo mostrar el nmero de
veces que se da una caracterstica o atributo de manera tabular sino ms bien de
manera grfica, de tal manera que se pueda visualizar mejor la proporcin en que
aparece esa caracterstica respecto del total.

Ejemplo
Continuando con el ejemplo de las motocicletas, el grfico de pastel o torta o
circular es dado en la figura 5.

Figura 5. Diagrama circular para los datos de las motocicletas


Para construir el diagrama circular anterior, se parte del hecho de que el crculo
encierra un total de 360 grados. Luego a cada categora se le asigna sus grados en
el crculo, mediante una regla de tres simple, por ejemplo para la caracterstica
Harley-Davinson, el sector correspondiente es:

Procedimiento para construir diagramas circular o de pastel en Excel


Elabore la tabla de frecuencias como se hizo anteriormente.
Sombrear la tabla de frecuencias editada y escoger el icono de barras en el men
principal (barras superiores de la ventana de Excel). Esto muestra inmediatamente
una ventana titulada Asistente para grficos. paso 1 de 4:tipo de
grfico. Aqu elija circular y luego el tipo de diagrama circular deseado. Haga
click enSiguiente y se presentan nuevas ventanas en la cuales debe entrar la
informacin necesaria. Por ltimo en la ventana de paso 4 hacer click en Finalizar.

Medidas de tendencia
Una medida de posicin o de tendencia es un nmero que se toma como
orientacin para referirnos a un conjunto de datos.

Media Aritmtica muestral


La media aritmtica muestral representa el centro fsico del conjunto de datos y se
define como la suma de los valores observados, dividido por el total de
observaciones. Si
aritmtica de estas

son

observaciones numricas, entonces la media

observaciones, se define como:

Caso de datos agrupados


Cuando se trata de datos agrupados (tabla de frecuencias) la media aritmtica se
puede aproximar mediante la expresin:

donde
y
intervalo.

son respectivamente el punto medio y la frecuencia del

Ejemplo
Se toman 10 mediciones del dimetro interno de los tornillos para los pistones del
motor de un automvil. Los datos (en mm) son: 74.001, 74.003, 74.015, 74.000,
74.002, 74.005, 74.001, 74.001, 74.002, 74.004. La media muestral del dimetro
interno de los tornillos es

Ejemplo
La media aritmtica para la siguiente tabla de frecuencias esta dada por
Clases

Marca de clase (

33-34

33.5

34-35

34.5

13

35-36

35.5

22

36-37

36.5

12

37-38

37.5

38-39

38.5

Frecuencias (

Media ponderada
En algunos casos cada una de las observaciones tiene una importancia relativa
(peso) respecto de los dems elementos. Cuando esto sucede la media est dada
por:

en donde son los pesos o ponderaciones de las observaciones . Esta media se


llama media aritmtica ponderada.

Propiedades de la Media Aritmtica


1. Una de las ms importantes es que la suma de las desviaciones respecto de la
media es igual a cero, esto es

2. Otra propiedad importante es que si se tiene la media


datos y a cada observacin se multiplica por una constante
constante

de un conjunto de
y se le suma una

, entonces la nueva media de los datos se obtiene multiplicando a la

media de los datos por

y sumandoles

Se suele interpretar esta propiedad

como el hecho de que la media no se altera por una transformacin lineal de


escala.

Ejemplo
Si la asignatura A tiene un valor de 2 crditos y la asignatura B tiene un valor de 3
crditos. Entonces, para un estudiante que haya obtenido una calificacin de 4 en
la asignatura A y de 5 en la asignatura B, la nota promedio ponderado est dada
por

Ejemplo
Suponga que en el ao 2000 los empleados de una empresa industria tienen
salario promedio de $2.500.000 y para el ao 2001 se les hizo un aumento de 15
%. Adems se les da una bonificacin mensual de $50.000 por aniversario de la
empresa. Cal es el salario promedio del ao 2001?.

Solucin

Suponga que

es la variable salario del ao 2000 , luego el salario promedio se

denota por

Ahora sea el salario del ao 2001 dado por la variable


transformacin de la variable

que es el resultado de la

y asi el salario promedio del ao 2001 es

La mediana
Sea
escritura

una

muestra

aleatoria

de

observaciones.

se indica el elemento menor de la muestra; por

le sigue al menor y as sucesivamente hasta llegar a

Mediante

la

el elemento que
que representa al

elemento mayor.
La Mediana, de un conjunto de observaciones es el valor para el cual, cuando
todas las observaciones se ordenan de manera creciente, la mitad de stas es
menor que este valor y la otra mitad mayor.
Sea

una muestra aleatoria de

observaciones, la Mediana de

estos datos se denota y se define de la siguiente manera:

Ejemplo
Suponga que se tienen las duraciones en horas de un cierto tipo de lamparas
incandecentes
612,623, 666, 744, 883, 898, 964, 970, 983, 1003, 1016, 1022, 1029, 1058,
1085, 1088, 1122, 1135, 1197, 1201.

Como hay 20 datos y se encuentran ordenados, entonces la mediana es dada por

Medidas de posicin relativa


Estas medidas son tambin llamadas cuantilas, cuantiles o fractiles y cuyo objetivo
es describir el comportamiento de una variable dividiendo la serie de valores en
diferente nmero de partes porcentualmente iguales, las ms usadas son: los
cuartiles (cuartas partes), los deciles (decimas partes) y los centiles o percentiles
(centsimas partes).

Los Cuartiles
Son aquellos nmeros que dividen a stas en cuatro partes porcentualmente
iguales. Hay tres cuartiles, Q1, Q2 y Q3. El primer cuartil Q1, es el valor en el cual
o por debajo del cual queda aproximadamente un cuarto (25%) de todos los
valores de la sucesin (ordenada); El segundo cuartil Q2 es el valor por debajo del
cual queda el 50% de los datos (Mediana), el tercer cuartil Q3 es el valor por
debajo del cual quedan las tres cuartas partes (75%) de los datos.

Los Deciles
Son ciertos nmeros que dividen el conjunto de observaciones (ordenadas) en diez
parte porcentualmente iguales. Los deciles se denotan por D1, D2, . . . , D9. El
decil 5 corresponde al cuartil 2 (mediana).

Los Percentiles
Son ciertos nmeros que dividen el conjunto de datos ordenados en cien partes
porcentualmente iguales. El percentil 50 equivale a la mediana.
Considerando la definicin de la mediana, esta ser el segundo cuartil, el quinto
decil o el 50avo percentil o centil. En cualquiera de estas medidas el valor
matemtico que se obtenga ser representativo del nmero de datos o menos que
corresponde al valor relativo planteado. (Ejemplo: el primer cuartil es un valor

representativo del 25% o menos de los valores de una distribucin, es decir, los
valores inferiores de la distribucin).
El procedimiento para encontrar el valor de cualquier percentil
clasificados, es el siguiente:
1. Encontrar la posicin
2. Si

del percentil

3. Si

mediante el calculo de

no es un entero, entonces la posicin

grande y entonces el valor de


entero ms grande.

a partir de datos

es el siguiente entero ms

es el dato ordenado en la posicin de este

es un entero, entonces la posicin del percentil ser

as el valor del percentil es el promedio de las observaciones ordenadas


y

Ejemplo
A continuacin se presentan 20 observaciones en orden del tiempo de falla, en
horas, de un material aislante elctrico (adaptadas del trabajo de Nelson, Applied
Life Data Analysis, 1982):
204

228

252

300

324

444

624

720

816

912

1176

1296

1392

1488

1512

2520

2856

3192

3528

3710

Para encontrar el percentil 10,

, el valor de

un entero, el nmero de la posicin es


observaciones
segunda
y
tercera.

Por

es 0.10,

es

, el cual es el promedio de las


tanto,
el
percentil
10
es

, lo cual significa que el 10% de los tiempos de


fallas del material electrico aislante es aproximadamente inferior a 240 horas.
El percentil 88 se encuentra de manera similar. Puesto que ahora k=0.88, nk=20
, que no es un entero, y el nmero de la posicin es
tanto, el percentil 88 es la observacin ordenada nmero 18, esto es

. Por
=3192;

es decir el 88% de los tiempos de fallas del material electrico aislante es


aproximadamente inferior a 3192 horas.

Medidas de variabilidad - introduccin


Una medida de dispersin o variabilidad nos determina el grado de acercamiento o
distanciamiento de los valores de una distribucin frente a su promedio de
localizacin, sobre la base de que entre ms grande sea el grado de variacin

menor uniformidad tendrn los datos (sinnimo de heterogeneidad) y por lo tanto


menor representatividad o confiabilidad del promedio de tendencia central o
localizacin por haber sido obtenido de datos dispersos. Por el contrario, si este
valor es pequeo (respecto a la unidad de medida) entonces hay una gran
uniformidad entre los datos. Cuando es cero quiere decir que todos los datos son
iguales.
Hay bsicamente dos tipos de medidas de dispersin: Medidas Absolutas y
Medidas Relativas. Las absolutas se caracterizan por ser nmeros concretos, es
decir, valores expresados en las mismas unidades de la variable en estudio y que
por lo tanto no permiten comparaciones o anlisis respecto a la mayor o menor
dispersin de series expresadas en diferentes unidades. Estas medidas son: la
varianza, la desviacin estndar y el rango intercuartilico.
Las medidas relativas de dispersin son valores abstractos, es decir, medidas
adimensionales y por lo tanto no expresadas en ninguna unidad especifica,
obviando as el inconveniente sealado para las medidas absolutas. La principal
medida es el coeficiente de variacin.

La varianza muestral
Se puede definir como el "casi promedio" de los cuadrados de las desviaciones de
los datos con respecto a la media muestral. Su formula matemtica para el caso
de datos referentes a una muestra es:

Y para el caso de datos de una poblacin es dada por

Propiedades de la varianza
Dos propiedades importantes de la varianza son:
1. La varianza de una constante es cero
2. Otra propiedad importante es que si se tiene la varianza

de de un

conjunto de datos y a cada observacin se multiplica por una constante

entonces la nueva varianza de los datos se obtiene multiplicando a la


varianza de los datos por

Ejemplo
La varianza muestral para los datos del ejemplo 1 de la clase 04, se determina de
la siguiente manera

Ejemplo propiedades de la varianza


Retomando el ejemplo 4 de la clase 04 y suponiendo que la varianza de los
salarios del ao 2000 fu 100.000, se tiene que la varianza para los salarios del
ao 2001 es

Mediana de las desviaciones absolutas (la media)


Cuando la mediana es la medida de tendencia que mejor representa los datos, la
Meda es la medida ms apropiada. Se calcula mediante:

Es decir, ontiene la mediana de las diferencias, en valor absoluto, respecto a la


mediana. El proceso de clculo supone que se debe obtener, en primer lugar, el
valor de la mediana de la muestra y, a continuacin, obtener las diferencias en
valor absoluto de cada uno de los valores con la mediana. Luego se ordenan estas
diferencias y se determina la mediana.

Ejemplo
Suponga que se tiene la siguiente muestra
10, 10, 11, 12, 12, 13, 14, 15, 15, 15, 16, 18, 19

Aqui la mediana es 7
Las respectivas desviaciones en valor absoluto de cada dato con respecto a la
mediana son:
4, 4, 3, 2, 2, 1, 0, 1, 1, 1, 2, 4, 5
reordenando se tiene
0, 1, 1, 1, 1, 2, 2, 2, 3, 4, 4, 4, 5
y asi la meda es 2

La desviacin estndar muestral


Al tomar el cuadrado de las desviaciones con respecto a la media para el calculo de
la varianza, las unidades en que estn dados los datos tambin se expresaran en
unidades al cuadrado. Esto puede no tener sentido. Por otra parte, al tomar el
cuadrado, la diferencia real entre el dato particular y la media se magnifica. Estas
circunstancias condujeron a que se le hiciera una modificacin a la anterior medida
y se lleg de esta manera al concepto de desviacin estndar, la cual se define
como la raz cuadrada de la varianza, esto es,

Ejemplo
La desviacin estndar para los datos del ejemplo 1 de la clase 04 es

Medidas de variabilidad
El rango intercuartilico
Es la distancia entre los cuartiles superior e inferior y se define como:

Es una medida de variabilidad que no se deja influenciar por medidas extremas


grandes o pequeas

El coeficiente de variacin
Es una medida que se emplea fundamentalmente para:
1. Comparar la variabilidad entre dos grupos de datos referidos a distintos
sistemas de unidades de medida. Por ejemplo, kilogramos y centmetros.
2. Comparar la variabilidad entre dos grupos de datos obtenidos por dos o ms
personas distintas.
3. Comparar dos grupos de datos que tienen distinta media.
4. Determinar si cierta media es consistente con cierta varianza.
end(enumerate)
El Coeficiente de Variacin muestral se denota y se define como:
(

Ejemplo
Con un micrmetro, se realizan mediciones del dimetro de un balero, que tienen
una media de 4.03 mm y una desviacin estndar de 0.012 mm; con otro
micrmetro se toman mediciones de la longitud de un tornillo que tiene una media
de 1.76 pulgadas y una desviacin estndar de 0.0075 pulgadas. Cul de los dos
micrmetros presenta una variabilidad relativamente menor?. Los coeficientes de
variacin son:
CV

y CV

En consecuencia, las mediciones hechas por el primer micrmetro exhiben una


variabilidad relativamente menor con respecto a su media que las efectudas por el
otro.

Medidas de forma
Son medidas que determinan numricamente algunas caractersticas de la forma
en que estan distribuidos los datos. Entre estas medidas se tiene: el coeficiente de
asimetra o o coeficiente de sesgo y el coeficiente de curtosis.

Coeficiente de asimetra
Con frecuencia una distribucin no es simtrica alrededor de ningn valor, pero en
lugar de ello se tiene que los datos estan ms aglomerados o distribuidos hacia los
extremos. Si hay pocos datos distribuidos hacia el extremo derecho se dice que la
distribucin es sesgada a la derecha, mientras que si hay pocos datos

distribuidos hacia la izquierda , se dice que la distribucin es sesgada hacia la


izquierda. Las medidas que describen esta asimetra se denominan coeficiente
de sesgo, o simplemento sesgo. Una de dichas medidas es

donde
es un valor de la variable de estudio
es el valor de la media poblacional de la variable de estudio.
es el total de datos en la poblacional.
La medida

ser positiva o negativa si la distribucin es sesgada a la derecha o

a la izquierda, repectivamente. Para una distribucin simtrica,

Diagrama de cajas
Los diagramas de tallo y hoja y los histogramas proporcionan impresiones ms
bien generales acerca de un conjunto de datos, mientras que la media y la
desviacin estndar se concentra en un solo aspecto de la informacin. En aos
recientes, un resumen grfico llamado Diagrama de Bloque se ha empleado de
manera satisfactoria para describir varias de las ms destacadas caractersticas de
un conjunto de datos. Estas caractersticas incluyen: centro, dispersin, naturaleza
y magnitud de cualquier desviacin de la simetra e identificacin de "puntos
inusuales"; es decir, observaciones que estn desafortunadamente lejos del cuerpo
principal de los datos. Debido a que incluso un solo punto inusual puede afectar de
manera drstica el valor de algunas medidas numricas (como la media y la
desviacin estndar), un diagrama de bloque est basado en medidas que son
"resistentes" a la presencia de unos cuantos puntos inusuales, la mediana y los
cuartiles.
Un diagrama de bloque se puede construir mediante la siguiente secuencia de
pasos:
1. Dibujar y marcar un eje de medida horizontal.

2. Construir un rectngulo cuyo borde izquierdo est arriba del primer cuartil y
cuyo borde derecho esta arriba del tercer cuartil .
3. Dibujar un segmento de recta vertical dentro del bloque o caja arriba de la
mediana.
4. Prolongar rectas desde cada extremo del bloque o de la caja hasta las
observaciones ms lejanas que esten todava a menos de 1.5 veces el rango
intercuartlico de los bordes correspondientes.
5. Dibujar un circulo vacio para identificar cada observacin que caiga entre
1.5 y 3.0 veces el rango intercuartlico a partir del borde del rectngulo;
stos se llaman puntos inusuales suaves.
6. Dibujar un circulo relleno para identificar cada observacin que caiga a ms
de del borde ms cercano; stos se llaman puntos inusuales extremos.

Das könnte Ihnen auch gefallen