Sie sind auf Seite 1von 78

PROBABILIDAD

Y
ESTADSTICA
Ingeniera
Marzo 2013

ESTADSTICA DESCRIPTIVA

Introduccin
Qu es la Estadstica: La estadstica es una ciencia que tiene como finalidad
facilitar la solucin de problemas en los cuales es necesario conocer algunas
caractersticas sobre el comportamiento de algn suceso o evento.

conocer o mejorar el conocimiento de ese suceso


predecir el comportamiento de sucesos iguales o similares sin que estos
ocurran

La Estadstica posee un conjunto de tcnicas que se emplean para la


recopilacin, organizacin, presentacin, anlisis e interpretacin de los datos
para tomar decisiones y resolver problemas.
Por qu hay que estudiar Estadstica?
Si se revisan las mallas curriculares de las distintas carreras profesionales,
veremos que en la mayora existe por lo menos una asignatura de Estadstica.
Bsicamente los contenidos de un primer curso de Estadstica en diferentes
carreras son los mimos, la mayor diferencia radica en los ejemplos utilizados.
La principal razn es que el rol ms destacado de la Estadstica es la
recopilacin, presentacin, anlisis de un conjunto de datos, a partir de los
cuales se obtienen conclusiones y se toman decisiones.

Saber Estadstica es de gran utilidad en cualquier rea del conocimiento y en


particular en Ingeniera.
Ejemplos:
- Diseo y desarrollo y mejora en los proceso productivos como control de
calidad, control de la variabilidad del proceso,
-

Estudios de materiales en cuanto a duracin, dureza, elasticidad, .

Control de inventarios, con la estadstica se analiza la tendencia de flujo


de ciertos materiales y ciertos productos.
Comparar los tiempos de ejecucin de 3 algoritmos de ordenacin
(algoritmo de la burbuja, de seleccin, de insercin, quicksort, treesort)

Cecilia Larran R.

Estadstica Descriptiva

Pgina 2

La mayor contribucin de la Estadstica en la resolucin de problemas en


ingeniera es su utilizacin como herramienta de aprendizaje. El aprendizaje
que se obtiene mediante la estadstica forma parte del denominado Mtodo
Cientfico
El mtodo cientfico es la estrategia de la investigacin cientfica: afecta a todo
ciclo completo de investigacin y es independiente del tema en estudio.
Al ser la Ingeniera la aplicacin del conocimiento cientfico, todo proyecto en
ingeniera debe contener los rasgos del mtodo cientfico.

La estadstica se puede clasificar como:


Estadstica
descriptiva
Probabilidad

Estadstica
Inferencial

Tiene como objetivo caracterizar, describir y extraer


conclusiones sobre una muestra de datos o de la poblacin
de inters.
Mide la incertidumbre, deduce las leyes que rigen a los
fenmenos que se investigan.
Es la herramienta a partir de la que se desarrolla la
inferencia estadstica
Implica realizar inferencias acerca de la de la poblacin a
partir de datos muestrales y requiere clculo de
probabilidades.
La inferencia de conclusiones generales a partir de datos de muestrales
es siempre incierta
Uno de los objetivos principales de la
estadstica es medir esa incertidumbre

La Estadstica Descriptiva utiliza, tablas,


grficos y resmenes numricos

Para realizar cualquier estudio estadstico,


hay que tener en cuenta:
Cmo y de donde se recolect la
informacin
Qu se midi atributos o cantidades?

Conocer los conceptos fundamentales

Cecilia Larran R.

Estadstica Descriptiva

Pgina 3

CONCEPTOS FUNDAMENTALES
Poblacin: Conjunto de elementos a los que se les estudia una caracterstica
Tamao poblacin: N
-

Los estudiantes de nuestra universidad


Las personas activa en Chile (poblacin activa)
La flota de aviones de aviones de una compaa area

Censo: estudio completo de la poblacin


A las medidas de resmenes poblacionales como la media poblacional ,
desviacin estndar poblacional , , se les denominan parmetros.
Muestra: subconjunto de elementos de la poblacin sobre el cual se va a llevar el
estudio).
Tamao muestra: n
Debera ser representativo
Est formado por miembros seleccionados de la poblacin (individuos,
unidades

de

estudio,

unidades

de

obseservacin,

unidades

experimentales).
A las medidas de resmenes muestrales como la media de la muestra
x , desviacin estndar de la muestra s, se les denomina
estadsticos.
De una poblacin existen muchas muestras posibles, pero slo observamos una!
Nota: A la hora de decidir sobre la forma de recoger la informacin de la muestra se utilizan
distintos criterios, originando distintos tipos de muestreos. (Anexo 2)

Encuesta: Tcnica de investigacin para obtener informacin de grupos de


personas mediante el uso de instrumentos como cuestionarios diseados en
forma previa.
Diseo de experimentos: Metodologa estadstica que permite identificar y
cuantificar las causas de un efecto en un estudio experimental. El objetivo del
diseo de experimento es estudiar si utilizar un determinado tratamiento produce
mejora en el proceso o no.

Cecilia Larran R.

Estadstica Descriptiva

Pgina 4

Variable: una variable es una caracterstica observable que vara entre los
diferentes individuos de una poblacin. La informacin que disponemos de cada
individuo es resumida en variables.
En la poblacin de alumnos de Ingeniera de una universidad, es variable:
- El gnero: {Femenino, Masculino}

var. cualitativa dicotmica

Especialidad :{Informtica, Industrial, Obras Civiles, }

- El nmero de asignatura aprobadas: {0,1,2,3,...}

var. cualitativa politmica


var. cuantitativa discreta

- Nivel de Educ. del padre: {Bsica, Media Superior} var. cualitativa ordinal
- La altura (en cm.): {162 , 156, 170 ...}

var. cuantitativa continua

- Edad (aos):

var. cuantitativa continua

{17, 18, 19, }

.
.
.

HAY QUE CONOCER EL TIPO DE


VARIABLE PARA UTILIZAR LA
HERRAMIENTA ESTADSTICA
ADECUADA

Obs.: Se acostumbra denotar a las variables con letras maysculas. X, Y, Z

Dato: valor de la variable asociado a un elemento de la poblacin o muestra.


(los valores de las variables se denotan con letras minsculas)

Ejemplo: (archivo de datos)


Sujeto

Sexo
(X1)

Edad
(X2)

Especialidad
(X3)

01

21

IND

02

22

INF

03

31

OC

.
.

.
.

.
.

.
.

Cecilia Larran R.

Estadstica Descriptiva

observacin 1

Pgina 5

La primera observacin indica que el sujeto es de sexo masculino, tiene 21 aos y


estudia Ingeniera Industrial. Cada una de estas tres mediciones es un dato para
cada una de las variables medidas para el sujeto 1.

El alumno de Ingeniera es la unidad de observacin


Datos primarios
Son aquellos que el investigador obtiene directamente de la realidad,
recolectndolos con sus propios instrumentos.
Datos secundarios
Son registros escritos que proceden tambin de un contacto con la prctica,
pero que ya han sido elegidos y procesados por otros investigadores.
Las fuentes son informacin de datos secundarios deben ser fidedignas.
Los datos primarios y secundarios no son dos clases esencialmente diferentes
de informacin, sino partes de una misma secuencia: todo dato secundario ha
sido primario en sus orgenes, y todo dato primario, a partir del momento en
que el investigador concluye su trabajo, se convierte en dato secundario para
los dems.

Cecilia Larran R.

Estadstica Descriptiva

Pgina 6

Clasificacin de variables
Para realizar un anlisis de datos, es indispensable saber cmo es la variable
que consideramos, pues ello determina el tipo de mtodo estadstico que se
debe utilizar. Las variables se clasifican como:

Segn su naturaleza

Cualitativas o atributos
No

toman

(modalidades)

valores
y

Cuantitativas

numricos

Sus valores son numricos (tiene

describen

sentido

hacer

operaciones

cualidades. (no se pueden hacer

algebraicas con ellos).

operaciones algebraicas con ellos).

Ejemplos: Estatura

Ejemplos: Estado Civil


Profesin

Nmero de errores

Segn tamao del recorrido

Discretas

Dicotmicas
Toman uno de
dos valores.
Ejem.: Sexo

Continuas

Corresponden en general a

Entre

contar el nmero de veces

son posibles infinitos

que

valores intermedios

ocurre

un

suceso.

Tienen un recorrido finito o

dos

valores,

Ejemplo: Altura (cm)

infinito numerable.
Ejem.: Nmero de cargas
familiares.

Cecilia Larran R.

Estadstica Descriptiva

Pgina 7

Segn el nivel de medicin


La medicin es el proceso mediante el cual se les asignan valores numricos
a objetos siguiendo unas determinadas reglas. Los instrumentos que se
utilizan para llevar a cabo tal medicin se les denominan escalas de medicin.
El criterio utilizado convencionalmente para clasificar las escalas de medida es
el propuesto por Stevens (1946), quien establece cuatro tipos de escala:
nominal, ordinal, de intervalo y de razn.

E
ESSC
CA
ALLA
ASS D
DE
EM
ME
ED
DIIC
CII
N
N
Ejemplos

SEXO:

nicamente permiten
establecer relaciones de
igualdad/desigualdad
entre los objetos que se
estn midiendo.

Masculino
Femenino

(1)
(2)

PROFESIN:
Ingeniero
Profesor
Mdico

NO INDICA ORDEN O
JERARQUA

(1)
(2)
(3)

RAZN
INTERVALAR
ORDINAL
N
NO
OM
MIIN
NA
ALL

Cecilia Larran R.

Estadstica Descriptiva

Pgina 8

E
ESSC
CA
ALLA
ASS D
DE
EM
ME
ED
DIIC
CII
N
N

Adems de permitir relaciones


de igualdad /desigualdad,
permite establecer relaciones
de orden (mayor o menor que)
entre los objetos que se estn
midiendo.
EXISTE UN ORDEN O
JERARQUA

Ejemplo

NIVEL EDUCACIONAL:
Univ. con doctorado
Univ. con Magister
Superior
Media
Bsica

(5)
(4)
(3)
(2)
(1)

RAZN
INTERVALAR
O
OR
RD
DIIN
NA
ALL
NOMINAL

Cecilia Larran R.

Estadstica Descriptiva

Pgina 9

E
ESSC
CA
ALLA
ASS D
DE
EM
ME
ED
DIIC
CII
N
N
RAZN
IIN
NTTE
ER
RV
VA
ALLA
AR
R
ORDINAL
NOMINAL
Al igual que los dos tipos de escalas anteriores (nominal u ordinal), esta escala
permite establecer relaciones de igualdad /desigualdad y de orden entre los objetos
que se miden. Los intervalos entre los nmeros de la escala son iguales, por lo
tanto se puede realizar las operaciones suma y resta. Este tipo de escala carece de
un cero absoluto, por lo que no estn permitidas ni la multiplicacin ni la divisin
entre los nmeros de la escala. Una escala de intervalo es, por ejemplo, la utilizada
para medir la temperatura. Como los intervalos de la escala son iguales, se puede
afirmar que la diferencia de temperatura que existe entre 25 y 28 grados es la
misma que existe entre 30 y 33 grados. Sin embargo, dado que el punto 0 de la
escala es arbitrario -no existe ausencia de temperatura- no se puede afirmar,

por ejemplo, que 20 grados es exactamente la mitad de 40 grados.

Cecilia Larran R.

Estadstica Descriptiva

Pgina 10

E
ESSC
CA
ALLA
ASS D
DE
EM
ME
ED
DIIC
CII
N
N
R
RA
AZZ
N
N
INTERVALAR
ORDINAL
NOMINAL
Es la escala que permite el nivel ms alto de medicin.
Adems de las operaciones que permiten las escalas
anteriores, en una escala de razn existe el cero (0)
emprico, por lo cual se puede efectuar cualquier operacin
aritmtica con los nmeros de la escala. El tiempo de
reaccin, por ejemplo es una variable medida en escala
de razn. No slo se puede afirmar que la diferencia entre
3 y 6 segundos es la misma que entre 6 y 9 segundos
(afirmacin vlida tambin en la escala de intervalos), sino,
adems, que 6 s es el doble de 3 s Afirmacin que es
posible establecer gracias a que en la escala de tiempo de
reaccin existe el cero absoluto: cero significa ausencia de
tiempo de reaccin.

Cecilia Larran R.

Estadstica Descriptiva

Pgina 11

Clasificacin de variables segn su funcin

VI
Independiente

VD
Dependiente

Introduce o manipula el
investigador

Se observa y se miden los


cambios

Interviniente
Es la que puede mediar en la
relacin entre VI y VD y que
puede influir en los resultados

Ejemplo: Los hbitos de estudios influyen en el rendimiento acadmico de los


Estudiantes
VI = hbitos de estudio
VD = Rendimiento acadmico
V interv. = Aptitud personal
Nivel nutricional
.

Ejercicios I
Ejercicio I-1
Determine en cada caso, si se trata o no de una variable.
-

La edad mnima para poder votar por primera vez en Chile.


Nmero de errores diarios en una central telefnica.
Tiempo (en aos) de experiencia laboral.
Profesin de los clientes de un banco.
Sueldo de los Ingenieros.

Cecilia Larran R.

Estadstica Descriptiva

Pgina 12

Ejercicio I-2
Se quiere analizar el nmero de horas de estudio semanal que dedican los alumnos
postgrado del rea Ingeniera de esta Universidad. Para ello se selecciona a 35 alumnos
que estn participando en postgrado.
Indique cual es la:
Poblacin:
Variable:
Muestra:
Ejercicio I-3
El coeficiente intelectual (CI) promedio en la poblacin adulta chilena es 100 puntos. Un
investigador educacional est interesado en probar que las personas adultas que hablan
ms de un idioma tienen un CI superior a la media poblacional.
En una muestra de 250 personas que hablan ms de un idioma se obtuvo un
promedio (CI medio) de 102.

Complete:
Clasificacin de la variable
Variable de inters (nombre)
X

Naturaleza

Promedio
poblacional

Recorrido

Medicin

Promedio
muestral

Ejercicio I-4
Qu situaciones se representan estadsticamente con una variable discreta y cules con una
variable continua?

a.
b.
c.
d.
e.
f.
g.

El nmero de defectuosos en la fabricacin


Los tipos de defectos encontrados
El tiempo de vida de las unidades que se fabrican
El costo de fabricacin
El nivel de satisfaccin de los clientes
N de pedidos que se hacen al mes
El tiempo que transcurre desde que llega un pedido hasta que llega el
siguiente

Cecilia Larran R.

Estadstica Descriptiva

Pgina 13

Ejercicio I-5
En el departamento de personal de una empresa con 10.000 trabajadores se quiere estimar los
gastos familiares en salud de sus empleados para determinar la posibilidad de proporcionarles un
plan de seguro mdico.

Si el gasto mensual ($) en salud de 10 empleados elegidos al azar fue:


71.060

233.852

158.916

54.910

329.460

134.368

111.758

274.550

204.136

115.634

Indique:
Poblacin: _______________________ Tamao N =
Unidad de observacin:
Variable: X =
Muestra: _________________________ Tamao: n =
n

Interprete

xi =

Calcule

i =1

x
i =1

2
i

FMS

Cecilia Larran R.

Estadstica Descriptiva

Pgina 14

Ejemplo 1 .Estadstica descriptiva


Ejemplo 1 (ArmadoA12.xls): El reporte de la inspeccin final de defectos de 150
productos para la lnea de armado A12 se muestra en la tabla siguiente:
Producto

Defecto

Producto

Defecto

Producto

Defecto

Producto

Defecto

Producto

Defecto

Rayado

31

Manchado

61

Manchado

91

Manchado

121

Manchado

Abollado

32

Rayado

62

Astillado

92

Doblado

122

Manchado

Astillado

33

Rayado

63

Rayado

93

Manchado

123

Rayado

Astillado

34

Manchado

64

Astillado

94

Manchado

124

Manchado

Otros

35

Manchado

65

Astillado

95

Astillado

125

Abollado

Manchado

36

Doblado

66

Manchado

96

Rayado

126

Astillado

Rayado

37

Manchado

67

Rayado

97

Manchado

127

Manchado

Astillado

38

Manchado

68

Rayado

98

Abollado

128

Manchado

Doblado

39

Manchado

69

Manchado

99

Manchado

129

Astillado

10

Rayado

40

Rayado

70

Manchado

100

Manchado

130

Doblado

11

Rayado

41

Astillado

71

Manchado

101

Doblado

131

Abollado

12

Manchado

42

Rayado

72

Manchado

102

Astillado

132

Manchado

13

Manchado

43

Otros

73

Manchado

103

Astillado

133

Rayado

14

Otros

44

Astillado

74

Otros

104

Rayado

134

Doblado

15

Abollado

45

Rayado

75

Rayado

105

Manchado

135

Astillado

16

Manchado

46

Rayado

76

Manchado

106

Astillado

136

Manchado

17

Rayado

47

Rayado

77

Manchado

107

Rayado

137

Rayado

18

Manchado

48

Doblado

78

Rayado

108

Manchado

138

Rayado

19

Otros

49

Manchado

79

Astillado

109

Manchado

139

Astillado

20

Rayado

50

Manchado

80

Rayado

110

Abollado

140

Manchado

21

Doblado

51

Manchado

81

Astillado

111

Manchado

141

Rayado

22

Doblado

52

Rayado

82

Manchado

112

Abollado

142

Rayado

23

Rayado

53

Otros

83

Manchado

113

Rayado

143

Rayado

24

Manchado

54

Rayado

84

Doblado

114

Manchado

144

Rayado

25

Manchado

55

Doblado

85

Manchado

115

Manchado

145

Manchado

26

Rayado

56

Manchado

86

Astillado

116

Astillado

146

Rayado

27

Abollado

57

Rayado

87

Manchado

117

Rayado

147

Manchado

28

Manchado

58

Rayado

88

Manchado

118

Rayado

148

Rayado

29

Rayado

59

Doblado

89

Manchado

119

Manchado

149

Rayado

30

Rayado

60

Rayado

90

Astillado

120

Astillado

150

Astillado

Identifique
Unidad de estudio: ______________
Variable de Inters: ___________________ y clasifquela segn:
Naturaleza:____________ T Recorrido:___________ N Medicin:_________

Cecilia Larran R.

Estadstica Descriptiva

Pgina 15

Reporte
eporte de la inspeccin final de
defectos de 150 productos para la
lnea de armado A12.
Rayado

Manchado

Abollado
Astillado
Astillado

Manchado

Astillado
Rayado

Doblado
Manchado

Defectos en lnea de armado A12


(150 productos examinados)
Defecto del
producto
Abollado

Manchado
Manchado
Rayado

Astillado

Manchado

Manchado

Frecuencia

Porcentaje

5,3

Astillado

23

15,3

Doblado

12

8,0

Manchado

56

37,3

Otros

Astillado

Astillado

Abollado

Otros

4,0

Manchado

Manchado

Rayado

Astillado

Rayado

45

30,0

Rayado

Rayado

Manchado

Manchado

Total

150

100,0

Astillado

Rayado

Abollado

Manchado

Doblado

Manchado

Manchado

Astillado

Rayado

Manchado

Manchado

Doblado

Rayado

Manchado

Doblado

Abollado

60
56

50

Manchado

Manchado

Astillado

Manchado

Manchado

Manchado

Astillado

Rayado

Otros

Otros

Rayado

Doblado

Abollado

Rayado

Manchado

Astillado

Manchado

Manchado

Astillado

Manchado

45

Frecuencia

40

30

23

20

Rayado

Manchado

Rayado

Rayado

Manchado

Rayado

Manchado

Rayado

12

10
8

Otros

Astillado

Manchado

Astillado
0

Rayado

Rayado

Abollado

Manchado

Abollado

Astillado

Doblado

Manchado

Rayado

Otro

Defecto del producto

Doblado

Astillado

Manchado

Rayado

Doblado

Manchado

Abollado

Rayado

Rayado

Manchado

Rayado

Rayado

Manchado

Doblado

Manchado

Rayado

Manchado

Manchado

Manchado

Manchado

Rayado

Astillado

Astillado

Rayado

Abollado

Manchado

Rayado

Manchado

Manchado

Manchado

Rayado

Rayado

Rayado

Manchado

Manchado

Rayado

Rayado

Astillado

Astillado

Astillado

Cecilia Larran R.

Defectos en lnea de armado A12


(150 productos examinados)

El defecto ms frecuente en la
lnea de armado es Manchado
Moda = manchado

Estadstica Descriptiva

Pgina 16

Ejemplo 2: : Datos sobre el nmeros de averas en Febrero.2012 de 40 centrales elctricas.


0
2
0
2

1
1
1
0

0
3
1
0

0
1
3
0

2
1
1
1

0
3
0
2

0
1
2
0

1
1
3
3

1
1
4
2

0
0
2
2

Identifique
Unidad de estudio: ______________
Variable de Inters: ___________________ y clasifquela segn:
Naturaleza:____________ T Recorrido:___________ N Medicin:_________

Nmeros de averas
en
Febrero.2012 de 40 centrales
Elctricas.
0
2
0
2
0
3
0
2

1
1
1
0
0
1
2
0

0
3
1
0
1
1
3
3

0
1
3
0
1
1
4
2

Tabla de frecuencias

2
1
1
1
0
0
2
2

N de
averas
0

Frecuencia

Porcentaje

Porcentaje
acumulado

13

32,5

32,5

13

32,5

65,0

20,0

85,0

12,5

97,5
100,0

2,5

Total

40

100,0

Centrales elctricas (40). Febrero 2012

Estadsticos (Medidas de resumen)


N de averas
n

Grfico
14

13

13

12

10
Recuento

8
8

0
0

N de averas

Centrales elctricas (40). Febrero 2012

Cecilia Larran R.

Estadstica Descriptiva

Vlidos
Perdidos

Media
Mediana
Moda
Desv. tp.
Asimetra
Error tp. de asimetra
Curtosis
Error tp. de curtosis
Mnimo
Mximo
Percentiles
25
50
75

40
0
1,20
1,00
0a
1,114
,637
,374
-,445
,733
0
4
,00
1,00
2,00

a. Existen varias modas. Se mostrar el menor de los


valores.
Centrales elctricas (40). Febrero 2012

Pgina 17

Ejemplo 3

Tabla de frecuencias

Nota de Estadstica
400 alumnos
Semestre 2 - 2011

Nota de Estadstica

Vlidos

Frecuencia
30
53
74
96
86
61
400

1-2
2-3
3-4
4-5
5-6
6-7
Total

Porcentaje
acumulado
7,5
20,8
39,3
63,3
84,8
100,0

Porcentaje
7,5
13,3
18,5
24,0
21,5
15,3
100,0

Semestre 2 - 2012

Grficos
Nota de Estadstica
Semestre 2 - 2011

Histograma

96

100

86

Frecuencia

80

74
61

60

53

40

30

Medidas de resumen

20

0
1,0

2,0

3,0

4,0

5,0

6,0

7,0

Nota

Nota de Estadstica
Semestre 2 - 2011
Cecilia Larran R.

Estadstica Descriptiva

Pgina 18

Identifique (ejemplo 3)
Unidad de estudio: ______________
Variable de Inters: ___________________ y clasifquela segn:
Naturaleza:____________ T Recorrido:___________ N Medicin:_________

Ejemplo 4: Grafico de tendencia


Consumo humano de leche de cabra en Espaa. (millones de litro)
Ao

1990

1991

1992

1993

1994

1995

1996

1997

1998

Consumo

62,5

29,9

31,3

25,2

20,8

16,1

15,8

15,9

16,6

Ao

1999

2000

2001

2002

2003

2004

2005

2006

Consumo

16,2

17,1

15,5

17,6

11,9

11,8

12,3

13,1

- El consumo anual de leche de cabra en el ao 1991 disminuy en 52,16% con


respecto al consumo del ao 1990 (variacin porcentual)
- Determine la variacin porcentual entre los aos 2001 y 2002.
Final

Variacin porcentual =
- 1 100
Inicial

Cecilia Larran R.

Estadstica Descriptiva

Pgina 19

1Estadstica Descriptiva Univariada


Organizacin de los datos
La estadstica descriptiva, entrega las tcnicas que permiten condensar grandes
grupos de datos mediante el uso de tablas de frecuencias, grficos y medidas
de resumen como media, desviacin estndar, correlacin.
Nota: Para resumir los datos siempre hay que tener en cuenta de que tipo es la variable
que queremos analizar

Datos en bruto o directos


Cuando la informacin es recolectada, sea de una muestra o de una poblacin,
esta se organiza en la secuencia en que fue obtenida. Esta secuencia de datos
registrados se encuentra desorganizada, lo que no permite extraer informacin
fcilmente, siendo difcil detectar cualquier patrn de variabilidad o estructura de
los datos.
Datos en bruto: Datos registrados en la secuencia en que fueron
recolectados, antes de ser procesados u ordenados.
Ejemplo pg. 15: (ArmadoA12.xls): El reporte de la inspeccin final de defectos de
150 productos para la lnea de armado A12 se muestra en la tabla siguiente:
Ejemplo 2 pg. 17: : Datos sobre el nmeros de averas en Febrero.2012 de 40

centrales Elctricas.
0
2
0
2

Cecilia Larran R.

1
1
1
0

0
3
1
0

0
1
3
0

2
1
1
1

0
3
0
2

Estadstica Descriptiva

0
1
2
0

1
1
3
3

1
1
4
2

0
0
2
2

Pgina 20

Ejemplo 3: En abril. 2012 se recolect informacin sobre la edad (en aos) de 50


estudiantes diurnos seleccionados de una universidad. El valor de los datos, en el
orden en que fueron recolectados se presenta a continuacin.
21

24

29

26

36

18

19

19

25

25

25

31

23

23

23

22

21

22

21

19

25

18

27

21

21

19

25

34

27

33

20

22

19

22

23

19

19

18

19

26

28

20

22

20

21

23

36

23

25

24

Descripcin estadstica de una variable cualitativa

Grficos

Sectorial
Barras
Separadas
- Diagrama
de Pareto
- Pictograma

Tabla o distribucin de
frecuencias
Es una tabla que constituye
el resumen bsico de
los datos

Cecilia Larran R.

Medida de resumen
Moda: es el dato o
modalidad de mayor
frecuencia dato
ms representativo

La presentacin grfica
puede revelar de un
vistazo las
principales
caractersticas
de un conjunto
de datos

Estadstica Descriptiva

Pgina 21

Ejemplo 1: (p 15) El reporte de la inspeccin final de defectos para la lnea de armado A12
se muestra en la tabla siguiente:
Defectos_Linea A12
Defectos del
producto

Frecuencia absoluta
ni

Abollado
Astillado
Doblado
Manchado
Rayado
Otros
Total

Frecuencia Relativa
n
fi = i
n
0,05
0,15

8
23
56

Porcentaje
%
5,33
15,33
37,33

150

1,00

100%

Complete la tabla de frecuencias

Frecuencia absoluta (ni): Nmero de veces que ocurre la modalidad i. i = 1,2, ,k


Frecuencia relativa (fi): Es la proporcin de la categora o modalidad respecto del total
de datos
datos. 0 < fi < 1 ; i = 1,2, ,k
Defectos en lnea de armado A12
(150 productos examinados)

Grfico sectorial:
Crculo dividido en
porciones que
representan las
frecuencias relativas o
porcentajes de una
poblacin o muestra
perteneciente a diferentes
categoras.
Como sabemos, un crculo
contiene 360 grados. Para
construir un grfico sectorial,
se multiplica por 360 la
frecuencia relativa de cada
categora, para obtener la
medida del ngulo
correspondiente

Abollado
5,33%

Otros
4,00%
Rayado
30,00%

Astillado
15,33%
Doblado
8,00%

Manchado
37,33%

Defectos del producto

Cul es Defecto ms frecuente?


Cunto mide el ngulo de sector Defecto Manchado?

Cecilia Larran R.

Estadstica Descriptiva

Pgina 22

Grfico de Barras Separadas


60
56

50

45

Frecuencia

40

30

23

20

12

10
8

0
Abollado

Astillado

Doblado

Manchado

Rayado

Otro

Defecto del producto

Defectos en lnea de armado A12


(150 productos examinados)

Diagrama de Pareto
Herramienta bsica de la mejora de calidad. Muy til para priorizar los problemas
o las causas que los generan.
Su fundamento parte de considerar que un pequeo porcentaje de las causas
producen la mayora de los efectos. Se tratar de identificar ese pequeo
porcentaje de causas vitales para actuar prioritariamente sobre l.
Centrales elctricas (40). Febrero 2011

Cecilia Larran R.

Estadstica Descriptiva

Pgina 23

Defecto
Manchado
Rayado
Astillado
Doblado
Abollado
Otros
TOTAL

frecuencia
56
45
23
12
8
6
150

%
37,33
30,00
15,33
8,00
5,33
4,00
100,0%

frec. Acum.
56
101
124
136
144
150

% acumulado
37,33
67,33
82,67
90,67
96,00
100

Se calculan solamente para el diagrama


Pareto (en este tipo de variable)

Descripcin estadstica de una variable cuantitativa


TABLAS Y GRFICOS

Si las observaciones en un conjunto de datos cuantitativos son discretos


(contables) o si los valores de la variable asumen slo unos pocos valores
distintos, puede ser apropiado armar tablas de frecuencia con valores nicos.
La distribucin de frecuencias (tabla)
- La distribucin de frecuencias para variables cuantitativas discretas es
similar a la de variables cualitativas. Los valores que toma la variable se
ordenan de de menor a mayor lo que permite registrar en la tabla las
frecuencias acumuladas. La representacin grfica que se utiliza para este
tipo de variables es barras separadas
Distribucin de frecuencias de la variable X
Nombre de la
variable
X

Frec.
Absoluta
ni

Frec. Relativa

x1
x2
x3
.
.
.
xk

n1
n2
n3
.
.
.
nk
n

f1
f2
f3
.
.
.
fk
1

Total

fi =

Frec. Abs.
Acumulada
Ni

ni
n

N1 = n 1
N2 = n 1 + n 2
N3 = n 1 + n 2 + n 3
.
.
.
Nk = n

Frec. Relat.
Acumulada

F=
i

Ni
n

F1
F2
F3
.
.
.
Fk = 1

xi= valor que toma la variable. i= 1,2, ,k

Cecilia Larran R.

Estadstica Descriptiva

Pgina 24

Ejemplo 2: (p 18) Datos sobre el nmero de averas de 40 centrales elctricas


en Feb.2012 se resumen en la tabla siguiente:
N de averas

Frec.
Absoluta
ni

0
1
2
3
4
Total

Frec.
Relativa
fi

Frec. Abs. Acumulada


Ni

Frec. Relat.
Acumulada
Fi

13
13

13
26

0,325

5
1
40

40
1,000
GRFICO DE BARRAS SEPARADA

Variable X =
Unidad de observacin =

Cuntas centrales tienen menos de 2 averas?

Qu porcentajes de centrales tienen 3 o menos averas?

Qu porcentaje de centrales tienen ms de 3 averas?

Interprete:
n2
f3

N de centrales

12

13

13

10

1
0
0

N de averas

Cecilia Larran R.

Estadstica Descriptiva

Pgina 25

Cuando la variable es continua o el nmero de valores posibles de una


variable discreta sea grande, para construir la tabla de frecuencias,
conviene agrupar los datos intervalos reales. stos agrupan todos
aquellos casos contenidos entre dos valores, conocidos como el lmite
superior e inferior.

Ejemplo: (p 21) En abril. 2012 se recolect informacin sobre la edad (en aos) de 50
estudiantes seleccionados de una casa de estudio superior. El valor de los datos, en el
orden en que fueron recolectados se presenta a continuacin. (Este es un ejemplo de
datos cuantitativos en bruto)
21

24

29

26

36

18

19

19

25

25

25

31

23

23

23

22

21

22

21

19

25

18

27

21

21

19

25

34

27

33

20

22

19

22

23

19

19

18

19

26

28

20

22

20

21

23

36

23

25

24

Construyendo tablas de frecuencias


Al construir tablas de frecuencias es necesario tomar las siguientes 3 decisiones:
i)
Nmero de clases (intervalos)
Usualmente el nmero de intervalos de una distribucin de frecuencias vara
entre 5 y 20, dependiendo principalmente del nmero de casos con los cuales se
cuente. La decisin del nmero de clases es decidida arbitrariamente por quien
organiza la informacin.
Reglas que puede ayudar a decidir el nmero de clases o intervalos:
- Nmero de intervalos = n
; n = nmero de datos, o
- Nmero de intervalos = [1 + 3,3 log n] (frmula de Sturge)
ii)
Amplitud de intervalo: Aunque no es comn tener clases o intervalos
de diferentes tamaos o amplitud, la mayora del tiempo es preferible
tener la misma amplitud de intervalo en todos ellos.
Para determinar esta amplitud cuando las clases o intervalos tienen el mismo
tamao, primero se debe encontrar la diferencia entre el mayor y el menor de los
datos en los datos. Luego, la amplitud aproximada es obtenida dividiendo esta
diferencia por el nmero deseado de clases o intervalos.
Cecilia Larran R.

Estadstica Descriptiva

Pgina 26

Amplitud del intervalo =

iii)

valor mximo - valor mnimo


nmero de intervalos

Lmite inferior de la primera clase o punto de partida

Cualquier nmero que sea igual o menor que el ms bajo de los valores del
conjunto de datos ser conveniente para ser usado como el lmite inferior del
primer intervalo.

En el ejemplo (Edad): n = 50 mx = 36

mn = 18

Si utilizamos nmero de intervalos = [1 + 3,3 log (50)] = 6

Amplitud =

36 18
= 3
6
Se lee

14 alumnos con edades entre 18 y menos de 21 aos


17 alumnos con edades entre 21 y menos de 24 aos

4 alumnos con edades entre 33 y 36 aos

Edad
18 21
21 24
24 27
27 30
30 33
33 36

n de alumnos
14
17
10
4
1
4
Total = 50

Frecuencias relativas y porcentaje


Es posible calcular la frecuencia relativa y el porcentaje de las distribuciones cuantitativas del
la misma forma que en las distribuciones cualitativas o discretas.
Edad

18 21
21 24
24 27
27 30
30 33
33 36

Marca de clase

Frec. Absoluta

Frec. Relativa

xi

ni

fi

Porcentaje

19,5
22,5
25,5

14
17
10

0,28
0,34
0,20

28
34
20

Total = 50

1,00

100%

Tambin se pueden registrar las frecuencias acumuladas

m arca de clase =

Cecilia Larran R.

lim ite inferior + lim ite superior

Estadstica Descriptiva

Pgina 27

Representacin grfica de distribuciones de frecuencias con datos en intervalos


Las representaciones grficas ms frecuentes de una tabla de frecuencias donde los
datos han sido agrupados en intervalos son el histograma o el polgono de
frecuencias.
Edad en aos

Histograma

N estudiantes

20

17

15

14

10

10

0
15

18

21

24

27

30

33

36

39

Edad

Muestra de 50 estudiantes de una universidad (abril 2012)

Donde cada rectngulo corresponde con una clase y la altura es proporcional


a la frecuencia de dicha clase o intervalo.

Formas de histogramas
Un histograma puede asumir diferentes formas. Las ms comunes son: simtricos,
asimtricos y uniforme o rectangular.
Simtrico
10

Asimetra Positiva

Asimetra Negativa

10

10

Simtrica

0
2.5

7.5

12.5

17.5

22.5

27.5

2.5

32.5

7.5

12.5

17.5

22.5

27.5

32.5

2.5

7.5

12.5

17.5

22.5

27.5

32.5

Interprete los tres histogramas


Cecilia Larran R.

Estadstica Descriptiva

Pgina 28

Observacin: Describir datos utilizando grficos puede ayudar a iluminarnos acerca de


las caractersticas principales de la informacin. Desafortunadamente, tambin pueden
ser utilizados, casual o intencionadamente, para distorsionar informacin y desorientar
a quien la recibe. Las siguientes son dos formas de hacerlo:
1. Cambiar la escala en uno o en ambos ejes (esto es alargando o acortando los ejes)
2. Truncando las frecuencias, es decir, comenzando el eje en un nmero mayor que
cero.

Polgono de frecuencias
Grfico alternativo al histograma
Los polgonos de frecuencias se realizan trazando los puntos formados por las marcas
de clase y las frecuencias, y unindolos mediante segmentos.

Polgono de frecuencias (Edad en aos)


N alumnos

20

17

15
14

10

10

5
4

1
0

0
15,0

16,5

18,0

19,5

21,0

22,5

24,0

25,5

27,0

28,5

30,0

31,5

33,0

34,5

36,0

37,5

39,0

Edad

Muestra de 50 estudiantes de una universidad (abril 2012)

Cecilia Larran R.

Estadstica Descriptiva

Pgina 29

Ejercicios II
En cada uno de los siguientes ejercicios debe indicar cul es: unidad de observacin, la
variable de inters y clasificarla segn naturaleza, T_recorrido y N_medicin.

Ejercicio II-1
El Ingeniero a cargo del control de calidad del agua de una ciudad, es responsable del nivel
de cloracin del agua. Dicho nivel debe acercarse bastante al que exige el Departamento de
Sanidad. Para vigilar el cloro, sin necesidad de verificar cada galn de agua que sale de la
planta, el Ingeniero muestrea diariamente algunos galones, mide el contenido de cloro y
saca una conclusin sobre el nivel promedio de cloracin que tiene el agua tratada ese da.
La tabla anexa exhibe las concentraciones de cloro correspondiente a 30 galones
seleccionados como muestra de un da. A partir de esta muestra diaria el Ingeniero obtiene
sus conclusiones respecto a la poblacin total a la que se le aplic la cloracin.
Diagrama de tallo-hojas

Tabla de Concentraciones de Cloro


en partes por milln (ppm)
16.2
15.7
16.1
16.9

15.7
16.6
15.9
15.6

16.4
15.8
16.0
16.0

15.4
16.2
15.6
16.8

16.4
15.9
16.3
16.0

Stem-and-Leaf Plot
Frequency
,00
1,00
1,00
5,00
7,00
5,00
5,00
2,00
1,00
3,00

15.8 16.0 15.2


15.9 15.6 15.8
16.8 15.9 16.3
16.3

(Utilice una amplitud de 0.3 ppm).

Stem width:
Each leaf:

Stem &
15
15
15
15
15
16
16
16
16
16

.
.
.
.
.
.
.
.
.
.

Leaf

2
4
66677
8889999
00001
22333
44
6
889

1,0
1 case(s)

Construya una tabla de distribucin de frecuencias y un grfico adecuado.

Ejercicio II-2
En un centro de computacin, el nmero de veces que el computador se detiene, por error
de mquina, diariamente, fue recolectado por un perodo de 70 das. Los datos obtenidos
fueron los siguientes.
0
1
0
2
0

0
8
3
2
1

2
5
1
0
6

N de detenciones del computador por da.


0
0
0
3
3
0
0
1
0
0
4
3
0
6
2
0
1
0
1
0
1
1
0
2
0
0
1
2
1
2
0
0
4
3
3
1
2
4
0
2

0
2
2
5
0

0
3
1
2
0

0
0
0
1
4

- Tabule y grafique los datos adecuadamente.


Cul es la proporcin de das en que ocurren ms de 3 detenciones?

Cecilia Larran R.

Estadstica Descriptiva

Pgina 30

Ejercicio II-3
Un fabricante de envases de plstico desea analizar cules son las causas que generan los
envases defectuosos que se producen. Se observan 248 envases defectuosos obteniendo:
Diagrama de Pareto

97,18%

100

99,60%

100,00%

100%

92,34%

76,61%

80%

60,48%
60

60%

40

40%

20

20%

Porcentaje

Frecuencia

80

0%
Aplastamiento

Desbalanceo

Rotura

Rosca

Fuera de
medida

Color

Defectos

Coloque los ni en las barras. Interprete el grfico


Ejercicio II-4
En un proceso de fabricacin de circuitos integrados las causas ms comunes de fallas son: la
contaminacin (1), xido(2), metalizacin (3), la corrosin(4), doping (5) ,los defectos del silicio (6) y
varios (7). En un proceso de control de calidad de estos circuitos las causas de falla de 31 de ellos
han resultado las siguientes:
corrosin

xido

contaminacin

xido

xido

varios

xido

contaminacin

metalizacin

xido

contaminacin

contaminacin

xido

contaminacin

contaminacin

contaminacin

corrosin

silicio

varios

contaminacin

contaminacin

contaminacin

varios

contaminacin,

contaminacin

doping

xido

xido

metalizacin

contaminacin

contaminacin

Se pide: Construir una distribucin de frecuencias y confeccione dos grficos adecuados.

Ejercicio II-5
Al responsable en control de industrial de una empresa, debe analizar informacin entregada en un
Cecilia Larran R.

Estadstica Descriptiva

Pgina 31

histograma de la duracin (tiempo hasta fallo en horas) de un test de fiabilidad 150 dispositivos
electrnicos idnticos.

Histograma

N de dispositivos

60

51
50

40

30

27
21

21

20

18

10

6
3

0
0

200

400

600

800

1000

1200

1400

1600

1800

2000

Duracion

a.

Construya la tabla de frecuencias (absolutas, relativas, absolutas acumulada y relativas


acumulada)

b.
c.
d.
e.
f.

Aproximadamente, cul es la duracin ms frecuente?


Qu porcentaje de dispositivos duraron entre 600 y menos de 1400 horas?
Qu porcentaje de dispositivos duraron menos de 900 horas? (aprox.)
Qu porcentaje de dispositivos duraron entre 400 y 1500 horas? (aprox.)
Determine entre que valores de duracin se encuentran el 50% de los dispositivos con
mayor duracin.

g.

50%

50%

Duracin (hrs)

1600

Mn

Mx

Complete la tabla siguiente y realice un grfico adecuado:


Duracin

Frecuencia

Porcentaje

Poca ( < 400 h)


Media (400 y menos de 1000 h)
Bastante ( > 1000 h)
Total

150

100

Ejercicio II-6
Se seleccionaron de un proceso de fabricacin, aleatoriamente 270 ladrillos y se llev a
Cecilia Larran R.

Estadstica Descriptiva

Pgina 32

cabo una prueba para determinar la resistencia transversal de stos. Se obtuvieron los
siguientes datos:

Resistencia (MN/m2)
X

ni

1.5 3.5
3.5 4.5
4.5 5.5
5.5 6.5
6.5 7.5
7.5 8.5
8.5 9.5
9.5 10.5
10.5 11.5
11.5 14.5

2
4
24
81
78
51
18
9
2
1

Construya un grfico adecuado

El histograma es especialmente adecuado para representar tablas de frecuencias en el


caso de variables de de nivel por lo menos intervalar (o discretas con un gran nmero de
valores observados distintos). Este grfico consiste en una serie de barras adyacentes
cuyas superficies son proporcionales a la frecuencia del intervalo sobre el cual se levantan.
Si los intervalos son de igual amplitud, los rectngulos sern de altura proporcional a la
frecuencia correspondiente. Es decir, si la amplitud del i-simo intervalo es ai y su
frecuencia ni la barra deber tener una altura hi que satisfaga:

ai hi = kni
hi = k

ni
ai

donde k es cualquier constante, aunque la misma para cada intervalo.


ni frecuencia absoluta del intervalo i; hi frecuencia absoluta corregida

Se corrige la frecuencia solamente para graficar el histograma, cuando


existen intervalos de distinta amplitud (no es usual intervalos de distinta amplitud)

Determine el porcentaje de ladrillos con resistencia inferior a 8,5 MN/m2

Determine el porcentaje de ladrillos con resistencia superior a 5 MN/m2

Cecilia Larran R.

Estadstica Descriptiva

Pgina 33

Ejercicio II-7
En un estudio sobre el nivel de ruido en un concierto de rock se toma una muestra de 60
valores, medidos en decibelios y en distintos momentos del concierto.
Los datos obtenidos se encuentran el el diagrama tallo-hojas siguiente
NIVEL DE RUIDO
Frequency

Stem &

1,00
3,00
22,00
21,00
11,00
2,00

8
8
9
9
10
10

.
.
.
.
.
.

Leaf
3
789
0000111123333334444444
555566677777777889999
00001122234
57

Encuentre:
Valor mnimo
Valor mximo
El % de mediciones inferior a 91 db.
El % de mediciones superior a 100 db.

Ejercicio II-8
Con el propsito de mejorar el tiempo de entrega desde una embotelladora de refrescos a mquinas
vendedoras de una universidad, se ha obtenido 40 datos.
9,45
17,08
44,88
24,45

24,45
37,00
54,12
33,66

31,75
41,95
56,63
37,10

X:Tiempo de entrega en minutos


35,00 25,02 16,86 14,38
11,66 21,65 17,89 69,45
22,13 21,15 10,02 14,88
39,73 44,29 55,12 56,63

9,60
10,30
16,97
29,41

24,35
34,93
17,73
24,45

37,50
46,59
21,84
9,45

Organice los datos en una tabla de frecuencias con igual amplitud y confecciones un grfico
adecuado
Tiempo de
entrega
(min)

Porcentaje

9,45 - 19,45

14,45

13

32,5

59,45 - 69,45

64,45

2,5

40

100,0

Total

Cecilia Larran R.

xi

Frecuencia
Absoluta
ni

Estadstica Descriptiva

Pgina 34

Ejercicio II-9
En el departamento de montaje de una industria se producen diariamente cierta
cantidad de productos defectuosos. Para estudiar ese fenmeno se decidi realizar
un anlisis de Pareto.
Durante cuatro meses de observacin se recogieron datos sobre el tipo de defectos
de los productos y se contabilizaron un total de 350 defectos.
N de defectos

98%

100

100%

100%

92%
84%
80

80%

74%

60%

42%
40

40%

20

20%

Porcentaje

60

0%
Piezas
errneas

Revestimiento
araado

Montaje
defectuoso

Pieza faltante

Rugosidad
superficial

Otras causas

Tipos de defectos

a.

Qu representa el 84% (polgono)?

b.

Complete la tabla de frecuencias siguiente:


Tipo de defectos
N de defectos

porcentaje

Piezas errneas
Revestimiento araado
Montaje defectuoso
Pieza faltante
Rugosidad superficial
Otras causas

Total

Cecilia Larran R.

Estadstica Descriptiva

Pgina 35

Medidas de Resumen
Entre las medidas que permiten resumir informacin proveniente de una
poblacin o muestra, podemos considerar: medidas de posicin, de dispersin o
variabilidad, de forma y de asociacin

Medidas de posicin: Tendencia Central - Percentiles


Tendencia Central:

Moda - Promedio - Mediana

Son ndices de localizacin central, empleados en la descripcin de las


distribuciones de frecuencias. Las ms usadas son la moda, la mediana y el
promedio.
Moda (Mo) : Es el valor de la variable que ocurre ms frecuentemente
Ejemplo (variable cualitativa): En una empresa se ha medido la satisfaccin
laboral de una muestra de empleados.
Satisfaccin Laboral

N de empleados

Muy satisfechos

20

Satisfechos

25

Moderadamente satisfechos

22

Insatisfechos

18

Muy insatisfechos

10

En este caso la moda corresponde a la categora satisfechos. Mo = satisfechos


Si la variable se encuentra es cuantitativa, la moda ser la magnitud ms frecuente.

Ejemplo (variable cuantitativa) : En la medicin de responsabilidad en un grupo de


postulante a un cargo de ejecutivo, se han encontrado los siguientes puntajes : 81, 83,
83, 85, 86, 86, 87, 88, 90, 91, 92, 94, 95, 95, 95, 95, 96, 96, 97, 99, 101, 105, 107, 108,
109, 110, 115, 118, 120.
En este caso, la moda corresponde al puntaje 95.

Cecilia Larran R.

Estadstica Descriptiva

Pgina 36

Y si los datos estn agrupados en intervalos de clase, la moda ser el punto medio del
intervalo ms frecuente. La moda para datos agrupados en intervalos en tablas de
frecuencia, no es un valor exacto porque vara con las diferentes maneras de agrupar
una distribucin.

Ejemplo: El sueldo mensual de un grupo de trabajadores textiles se distribuye como


indica la tabla a continuacin.

300.000 350.000

Marca de clase
xi
325.000

N de trabajadores
ni
13

350.000 400.000

375.000

18

400.000 450.000

425.000

24

450.000 500.000

475.000

20

500.000 550.000

525.000

15

Sueldo

En este caso la moda es 425.000 pesos, por ser el punto medio del intervalo ms
frecuente.
A menudo encontramos distribuciones bimodales (con dos modas).

Limitacin de la moda: no sabemos qu ocurre con el resto de la distribucin de


datos.

Promedio Aritmtico (o media Aritmtica)


La media aritmtica o promedio aritmtico:
En general se utiliza letras maysculas para denotar a las variables, y
letras minsculas para los valores que toma las variables (datos).
Sea X la variable cuantitativa de inters y sea x1, x2, , xn los n valores
que posee dicha variable. El promedio aritmtico se obtiene sumando los
valores de X y dividiendo luego por el nmero de datos.
n

x +x +x ...+x n
x= 1 2 3
=
n

Cecilia Larran R.

Estadstica Descriptiva

i =1

total
n

Pgina 37

Ejemplo: Los siguientes valores indican el tiempo necesario en minutos para


llegar a su trabajo de un grupo (muestra) de 15 empleados de un ministerio
pblico.
25 30 50 60 35 65 48 90 75 50

22 45 25 35 50

X = Tiempo necesario en min. para llegar al trabajo


n = 15

Sumatoria = x i = 705

705
15

x=

i =1

= 47 min
Observacin: La media de la poblacin se define de la misma forma que
la media muestral pero se utiliza el smbolo para denotarla:
N

x
i =1

x1 +x 2 +x 3 ...+x N total
=
N
N

Si los datos se encuentran en una distribucin de frecuencias, es


k

necesario modificar la frmula: x =

x n
i

i =1

donde xi

representa el

valor de la variable si es discreta o la marca de clase si los datos


estn tabulados en k intervalos.
Ejemplo: En un estudio de consumo de frutas, se entrevist a 250 personas, una
de las preguntas realizadas fue aproximadamente, cuantas frutas consumes
diariamente? La informacin obtenida a esa pregunta se muestra
continuacin:
Cantidad de frutas
Xi

n de personas
ni

x i ni

0
1
2
3
4
5

22
50
90
49
26
13

0
50
180
147
104
65

Total
Cecilia Larran R.

n = 250
xini =
i

x =
= 2,184 frutas

n = 250
Estadstica Descriptiva

Pgina 38

Ejemplo: Datos agrupados en intervalos (datos secundarios)


Sueldo mensual (X) de un grupo de trabajadores textiles.
Sueldo
(miles de $)
300 350

Marca de clase
xi
325

N de trabajadores

350 400

375

18

400 450

425

24

450 500

475

20

500 550

525

15

7875

90

38550

ni
13

Total

x i ni
4225

X = Sueldo mensual
n
90

Total =

xn

i i

38550

38550
= 428,33
90

$428.333

Propiedades de la media aritmtica o promedio aritmtico:


i. mnimo < x < mximo
ii.
El promedio de una constante es la constante. (demostracin tarea)
iii. Si a los valores de una variable se les suma una constante, el promedio aumenta en
esa misma magnitud. (demostracin tarea)
iv. Si los valores de una variable son multiplicados por una constante, el promedio se
amplificarn en la misma magnitud constante.

Y = a + bX Y = a + bX ; a, b ctes.
(Demostracin tarea)

Del ejemplo anterior: Si a los trabajadores de la empresa textil le aumentan el sueldo en:

(Caso 1)

$50.000,0

Y(1) = X + 50

(Caos 2)

15%

Y(2) = 1,15X

Complete
(caso 3)

7% + un bono
fijo de $30.000

Sueldo actual

Y(3) = 1,07X + 30

x = 428,333 (m $)

Y(1) =

Y(3) =

Y(3) =
Y = Sueldo aumentado

Cecilia Larran R.

Estadstica Descriptiva

Pgina 39

Mediana (Me)
Mediana: es un valor tal que, ordenados en magnitud los n datos de una
variable X, el 50% es menor o igual que ella, y el 50% es mayor o igual.
Para el clculo de la mediana la variable debe ser por lo menos ordinal
En datos no agrupados (directos), con n impar, el valor central es la mediana.

Ejemplo: 3, 5, 7, 8, 9, 12, 13, 15, 20.

n = 9 datos.

La mediana es el valor 9.

Se puede observar que la mediana es el valor que ocupa el lugar

1+ n
2

En datos no agrupados con n par, el valor de la mediana ser el punto medio


entre los dos valores centrales.

Ejemplo: 5, 7, 9, 10, 14, 16, 17, 18.

n = 8 datos;

la mediana es el valor 12.

Es preciso ordenar los datos de menor a mayor para hacer el clculo.

Ejemplo: Datos tabulados. Variable discreta


"X: Nmero de avera diarias en un taller
Frec. abs.

Frec. abs. acum.

ni

Ni

0
1
2
3
4
5
6
Total

40
26
14
6
3
0
1
n = 90

40
66

Me es el valor que ocupa el


1+ n
lugar
= 45,5
2

Mediana = 1

avera.

Interpretacin:

El valor de la mediana en datos tabulados (agrupados) en intervalos


se analizar junto con el tema PERCENTILES. El clculo de la Me es
aproximado y se determina a travs de una frmula que se obtiene de
la tabla de distribucin de frecuencias acumuladas.

Cecilia Larran R.

Estadstica Descriptiva

Pgina 40

Comparacin entre

, Me y Mo

Desde un punto de vista descriptivo las tres medidas

proporcionan

informacin complementaria, sus propiedades son distintas:

Estadsticos de tendencia central


-

Media
aritmtica

x
x=

i =1

total
n

Mediana
Me

Es un valor tal que, ordenados


en magnitud los n datos de
una variable X, el 50% es
menor o igual que ella, y el
50% es mayor o igual.

Moda
Mo

Es el valor de la variable que


ocurre ms frecuentemente

Observaciones
El nivel de medicin de la
variable X sea por lo menos en
escala de intervalos.
La media es muy sensible
cuando existen datos atpicos
o extremos.
Es preferible utilizar el promedio
aritmtico
como medida de
resumen si los datos son
homogneos.
La mediana
utiliza menos
informacin que la media, ya
que solo tiene en cuenta el
orden de los datos y no su
magnitud, por lo tanto, para
poder calcular la mediana el
nivel de medicin de la variable
X debe ser por lo menos en
escala ordinal.
La mediana se ve menos
alterada por los datos atpicos o
extremos.
Para el clculo de la moda la
variable puede tener cualquier
nivel de medicin, luego es la
nica medida de tendencia
central que se puede calcular si
el nivel de medicin de la
variable X es en escala nominal.

X Mediana asimetra, lo que sugiere heterogeneidad en los datos.


en este caso la Mediana es la medida de tendencia central
adecuada para resumir los datos.

Cecilia Larran R.

Estadstica Descriptiva

Pgina 41

Simtrica

Asimetra positiva

Asimetra Negativa

10

10

Simtrica

8
10

8
6

6
4

4
4

2
2

0
2.5

7.5

12.5

17.5

22.5

27.5

32.5

0
2.5

7.5

12.5

17.5

22.5

27.5

32.5

2 .5

7.5

1 2 .5

1 7 .5

2 2. 5

2 7. 5

32 . 5

X = Me = Mo

Mo < Me < X

X < Me < Mo

Ejercicios III
Ejercicio III-1
Un fabricante de un dispositivo para cierto artculo electrnico informa en su propaganda
que la vida til de su producto es superior a 5 aos.
Una muestra aleatoria de 90 unidades vendidas hace 10 aos, revel la siguiente
distribucin de las duraciones:

Duracin
0- 2
24
46
68
8 10

Frecuencia
10
20
25
22
13

a. Determine la duracin promedio


b. Qu porcentaje de unidades duraron ms de 5 aos? Aprox.

Ejercicio III-2
En la fabricacin de semiconductores, a menudo se utiliza una sustancia qumica para
quitar el silicio de la parte trasera de las obleas antes de la metalizacin. En este proceso es
importante la rapidez con la que acta la sustancia. Se han comparado dos soluciones
qumicas, utilizando para ello dos muestras de obleas para cada solucin. La rapidez de
accin observada es la siguiente
Solucin 1:
Solucin 2:

9,9 9,4 9,3 9,6 10,2 10,6 10,3 10,0 10,3 10,1
10,2 10,6 10,7 10,4 10,5 10,0 10,2 10,7 10,4 10,3

a. Indique cuales son las variables involucradas en el problema y clasifquelas.


b. Complete el cuadro siguiente (realice comentarios):

Solucin

Promedio

Mediana

1
2

aaaaaaa

Cecilia Larran R.

Estadstica Descriptiva

Pgina 42

Ejercicio III-3
Media Ponderada o Promedio Ponderado

Sean x1 ,x2,....,xn , n datos y sea los nmero w1 ,w2,....,wn, los pesos correspondiente a
cada xi i = 1,2,....n; con a lo menos un wi > 0. Entonces el promedio ponderado de los

datos, est dado por:


Sii cada observacin tiene la misma ponderacin, entonces el promedio y el promedio
ponderado son iguales.

Ejemplo: Las notas parciales de Estadstica I de un alumno son:

P1 (25%)

P2 (35%)

P3 (40%)

4,2

5,7

2,1

Promedio =
Ejercicio III-4

Promedio estratificado
X = Sueldo mensual (miles de $)
Planta
Promedio
N de trabajadores

Santiago (1)
Concepcin (2)
x1 = 568,320
x 2 = 665,210
n1 = 215
n2 = 180
n = n1 + n2+ n3

Antofagasta (3)
x 3 = 480,715
n3 = 96

(suponga que se observ una muestra representativa de cada planta)


k

n x
i

X estr =

i=1

Cecilia Larran R.

Estadstica Descriptiva

Pgina 43

Cuartiles Quintiles Deciles - PERCENTILES


Son medidas estadsticas que dividen una serie ordenada de observaciones en
4, 5, 10, 100 partes iguales.
Si dividimos en 4 partes iguales, tenemos los cuartiles (Qk) 1, 2 y 3. Cada parte
le corresponde un 25%.

25%

25%

Mn

Q1

25%

25%

Q2

Q3

|
Mx

Si dividimos en 5 partes iguales, tenemos los quintiles (qk) 1, 2, 3 y 4. Cada


parte le corresponde un 20%.
20%
| 20%
| 20% | 20% | 20%
|
|
Mn

q1

q2

q3

q4

Mx

Si dividimos en 10 partes iguales tenemos los deciles (Dk)

Los Percentiles Pp son los valores que dividen un conjunto de datos


ordenados de menor a mayor en 100 partes con igual (aproximadamente)
nmero de datos.

|
x(1)

p%
|
Pp

(100 - p)%
|
x(n)

Mn

Mx

Si dividimos en 10 partes iguales tenemos los deciles (D) y en 100 partes


iguales, los percentiles (Pp).
p%

(100 - p)%

x(1)

Pp

x(n)

Mn.

Mx.

Entre mn y Pp se encuentra el p% de los datos

entre Pp y mx se

encuentra el (100 p)% de los datos.

Cecilia Larran R.

Estadstica Descriptiva

Pgina 44

Recordemos se dividimos la serie de datos ordenada en dos partes iguales, tenemos


la mediana (Me)
Tenemos: Q1 = P25

Me = Q2 = D5 = P50

Q3 = P75

q1 = D2 = P20
q2 =
q3 =
q4 =

Clculo de Percentiles (datos directos)


Ejemplo: Los siguientes datos corresponden a los puntajes obtenidos por 14
alumnos en un examen de Fsica II. (0 100 puntos)
84 52 85 61 74 77 65 63 57 64 72 55 68 76
Diagrama de puntos

Puntaje

Clculo percentiles Pp
En la definicin de percentil en un conjunto de datos es el valor tal que el p% de los
datos es menor o igual que l y el (100 p)% de los datos es superior o igual a l,
puede que ningn valor cumpla exactamente la definicin. Existen diversas formas de
interpolar para el clculo del Pp, en este curso vamos a utilizar el mtodo AEMPIRAL
explicado en la pgina 22 de texto Probabilidad y Estadstica. Douglas C. Montgomery
y George C. Runger (1996)

1ro) Se ordenan los n datos de menor a mayor


np
. El mtodo AEMPIRAL asigna la media
100
de x(j) y x(j+1) cuando j es un nmero entero, y asigna el valor que ocupa la
np
posicin siguiente a la parte entera de j cuando j =
es un nmero decimal
100

2do) Pp es el valor que ocupa el lugar j =

Del ejemplo:
lugar j=

14 50
100

P50
=7

n = 14

P50 =

p = 50 percentil 50 est se encuentra en el

65 + 68
= 66,5 = Me el 50% de los estudiante
2

obtuvieron puntaje entre 52 y 66,5 puntos


Cecilia Larran R.

Estadstica Descriptiva

Pgina 45

- Entre qu valores e encuentra el 25% de los mejores puntajes?


-

Determine el percentil 75 e interprete.

(Resp: P75 = 76 AEMPIRAL)

Clculo de percentiles datos tabulados en intervalos:


Los valores que toman los percentiles cuando tenemos la informacin agrupada
(intervalos reales) en una tabla de frecuencias de una variable cuantitativa son

aproximados.
Mediante interpolacin lineal en el grfico de frecuencias acumulada (ojiva) se
llega a la frmula del percentil.
Puntaje en un test de aptitud
Puntaje
X

15 20
20 25
25 30
30 35
35 40
40 45

N de
sujetos
ni
8
7
14
6
3
2
n = 40

Frecuencias acumuladas
Ni
Fi
(absoluta)

(relativa)

8
15
29
35
38
40

0,200
0,375
0,725
0,875
0,950
1,000

n = 40
lugar

np n 50
=
= 20
100 100

el percentil 50 o
mediana
aproximadamente se
encuentra en el lugar 20,
observando la columna Ni
de frec. acumuladas o el
grfico ojiva, el valor que
ocupa el lugar 20 se
encuentra en el tercer
intervalo.
P50 = Me [25, 30)

DISTRIBUCIN DE FRECUENCIA ACUMULADA

Puntaje
X
< 15
< 20
< 25
< 30
< 35
< 40
< 45

Cecilia Larran R.

Frec. Abs. Acumulada


Ni
0
8
15
29
35
38
40

Estadstica Descriptiva

Pgina 46

OJIVA (POLGONO DE FRECUENCIAS ACUMULADAS)

Interpolando
Linealmente, se
obtiene

Puntaje
P50 [25, 30) 25 es el lmite inferior del intervalo j
30 25 = 5 es la amplitud del intervalo j
intervalo j

Hay 14 sujetos (frec, abs.) con puntaje en el intervalo j


frec. abs. acumulada anterior al intervalo j es 15

La frmula que entrega la interpolacin lineal para el clculo de percentiles con


datos agrupados en intervalos reales es:

np
- N j-1

100

Pp = liminf j +amplitud j
nj

Se utiliza
cuando no se
tienen los
datos de cada
unidad de
observacin

Aplicando la frmula de percentil para datos agrupados

20 15
P50 = 25 + 5
= 26,79 puntos
14
Interpretacin .
-

Suponga que al 15% de los puntajes ms altos pasan a una segunda etapa,
a partir de qu puntaje se va a realizar el corte para seleccionar a dichos
sujetos?.

- Determine e interprete el valor del percentil 10.

Cecilia Larran R.

Estadstica Descriptiva

Pgina 47

Ejercicios IV
Ejercicio IV-1
El responsable en control de industrial de una empresa somete a un test de fiabilidad 150
dispositivos electrnicos idnticos y anota su duracin (tiempo hasta fallo en horas).

La recogida de datos lleva al histograma siguiente:

Histograma

N de dispositivos

60

51
50

40

30

27
21

21

20

18

10

6
3

0
0

200

400

600

800

1000

1200

1400

1600

1800

2000

Duracion

a. Indique la variable de inters y clasifquela segn naturaleza, tamao del recorrido


b.
c.
d.
e.
f.

y nivel de medicin.
Entre qu valores se encuentra el 30% de los dispositivos de mayor duracin?
Qu porcentaje de dispositivos tienen duracin entre 200 y menos de 1000
horas?
Qu porcentaje de dispositivos tienen duracin entre 600 y 950 horas?
Dibuje en el histograma el tiempo medio de fallo, la mediana y la moda.
El promedio es una medida adecuada para resumir la duracin de los
dispositivos? Justifique su respuesta.

Cecilia Larran R.

Estadstica Descriptiva

Pgina 48

Ejercicio IV-2
En una industria, se realizan peridicamente un anlisis de la medicin del trabajo con el
fin de determinar el tiempo requerido para generar una unidad de produccin. En una
planta de procesamiento se registr durante 20 das el nmero de horas-trabajador
horas
totales requeridass para realizar cierta tarea. Los datos recogidos son:
128 119 95 97 113 109 124 132 146 128 103
124 131 133 131 100 112 111 150

135

a) Determine las medidas de tendencia central. Interpreta resultados.


b) Cunto tiempo (horas-trabajador)
trabajador) requieren como mximo el 25% de los das que
demoraron menos en realizar la tarea?. Cunto tiempo (horas
(horas-trabajador)
trabajador) requieren
como mnimo el 25% de los das con mayor demora en realizar la tarea?
c) Indique qu medida de tendencia central puede ser representativa
d) Determine ell valor de (cuartil 3 cuartil 1). Cmo puede interpretar esa diferencia?
e) Construya un diagrama de caja (grfico basado en los cuartiles)

Grfico de cajas (Tukey fue su creador)


Es un grfico que suministra informacin sobre los valores mnimo y mximo, los
cuartiles de Tukey Q1, Q2 o mediana Q3, la existencia de valores atpicos y la
simetra de la distribucin.
Se sabe que un dato es atpico, si su
valor no se encuentra en el intervalo
(Q1 1,5RI , Q3 + 1,5RI)
RI = Q3 Q1

Es necesario tener datos directos (sin agrupar en intervalos) para realizar


el grfico de cajas.
Este grfico es til para hacer comparaciones rpidas entre 2 o ms
conjuntos de datos.
La primera bisagra de Tukey (similar al cuartil 1) es el valor que ocupa la
posicin intermedia entre la mediana el valor ms pequeo de la
distribucin; la segunda bisagra es la mediana; la tercera bisagra (similar
(sim
al cuartil 3) es el valor que ocupa la posicin intermedia entre la mediana y
el valor ms grande de la distribucin.
Cecilia Larran R.

Estadstica Descriptiva

Pgina 49

MEDIDAS DE DISPERSIN ( O VARIABILIDAD)


Las medidas de tendencia central (promedio, mediana, moda) y los percentiles,
dan informacin incompleta, acerca de las observaciones.
Ejemplo: Los puntajes (X) obtenidos en una Test que mide capacidad de
abstraccin por 2 grupos de alumnos son los siguientes:
Grupo 1
4
3
5
6
4
5
5
7
5
6
Grupo 2
1
4
3
5
6
8
2
7
5
9
En ambos casos el promedio aritmtico o media aritmtica es 5 (x = 5) , pero
sus grficos son distintos
Diagramas de puntos

Los diagramas de ambos grupos muestran que los puntajes se distribuyen


simtricamente respecto al 5, pero en el grupo 1 existe una menor dispersin
que en el grupo 2, es decir, los grupos tienen igual promedio pero la variabilidad
de los puntajes respecto a la media es distinta.
Las medidas de variabilidad indican la dispersin de los datos obtenidos por los
sujetos o las unidades de medicin. Cuando los datos estn con baja dispersin
se dice que es homogneo. Cuando estn altamente dispersos se dice que es
heterogneo.
Las medidas de dispersin ms utilizadas son las siguientes:
Amplitud o rango o recorrido, rango intercuartlico, desviacin estndar,
varianza y coeficiente de variacin.
Rango o recorrido: Es la distancia en la escala de medidas entre los valores
mayor y menor.
Rango = valor mximo valor mnimo
En el grupo 1: rango es 7 3 = 4 y en el grupo 2 rango es 9 1 = 8 lo que implica que
el segundo grupo tiene puntajes ms dispersos.

Cecilia Larran R.

Estadstica Descriptiva

Pgina 50

El rango utiliza poco debido a marcada inestabilidad. Si hay un valor extremo en la


distribucin se tendr la impresin de que la dispersin es grande, cuando en realidad
si omitisemos ese valor podramos concluir que es una distribucin compacta.

Rango Intercuatlico (RI): se define como la diferencia entre el tercer y el primer


cuartel, RI = Q3 Q1, es la longitud del 50% central de la distribucin de datos
Q3 = P75

Q1 = P25

RI se usa con mayor frecuencia acompaando a la mediana cuando la


presencia de valores extremos hace poco recomendable el uso del
promedio.
Defectos. No permite hacer una interpretacin precisa de un valor dentro de una
distribucin.
No interviene en relaciones matemticas importantes en la inferencia estadstica.

Desviacin estndar o desviacin tpica


(medida de dispersin asociada al promedio aritmtico)

Es la raz cuadrada de la media de las desviaciones al cuadrado.


Dado un conjunto (o muestra) de datos x1, x2, ,xn de una variable X con nivel
de medicin en escala de intervalos o de razn, se define la desviacin
estndar o desviacin tpica como el promedio de las desviaciones di de los
valores xi respecto a su promedio aritmtico.
n

Las desviaciones
di = (xi - x )
se elevan al cuadrado para
convertirlas
en
positivas,
adems recuerde que

(xi - x)2
Desviacin estndar: s =

i =1

La desviacin estndar toma valores no


negativos y mide la dispersin: a mayor
desviacin estndar mayor dispersin.

(x

- x) = 0

i =1

y se extrae la raz cuadrada


para que la medida resultante
tenga la misma unidad de
medicin de la variable.

El cuadrado de la desviacin estndar s2, se denomina varianza.


n

s2 =

Cecilia Larran R.

(x
i=1

x)2

Estadstica Descriptiva

Pgina 51

Del ejemplo Puntaje de un Test:


Grupo 1

Total

Grupo

10

10

Grupo 2

x-x

(x - x)

3
4
4
5
5
5
5
6
6
7
50

-2
-1
-1
0
0
0
0
1
1
2
0

4
1
1
0
0
0
0
1
1
4
12

Promedio

50
= 5 ptos
10
50
= 5 ptos
10

x-x

(x - x) 2

1
2
3
4
5
5
6
7
8
9
50

-4
-3
-2
-1
0
0
1
2
3
4
0

16
9
4
1
0
0
1
4
9
16
60

Desviacin
estndar

12
= 1,0954 ptos
10
60
= 2,4495 ptos
10

Varianza
(1,0954)2
(2,4495)2

Se observa que ambos grupos tienen igual promedio pero los datos del grupo dos tienen mayor
dispersin o variabilidad.

Ventajas de la desviacin estndar


- Permite una interpretacin precisa de los valores dentro de una distribucin.
- La desviacin como el promedio pertenece a un sistema matemtico que
permite su uso en mtodos estadsticos ms avanzados.

Propiedades de la desviacin estndar (demostracin tarea)


- Si se suman a todos los valores de la variable un valor constante, el
promedio queda aumentado en ese valor, pero la desviacin estndar
permanece igual.
- Si se multiplica cada valor original por una constante, tanto el promedio
como la desviacin estndar queda amplificados por ese valor.
- La desviacin estndar de una constante es cero.

Cecilia Larran R.

Estadstica Descriptiva

Pgina 52

Observaciones:
N

Notacin de la varianza poblacional 2 =

(x
i

)2

i=1

N
media de la poblacin, N tamao de la poblacin

- En algunos textos de Estadstica la frmula de la varianza (S2)


de la muestra viene dada por:
n

llamada varianza corregida o cuasivarianza y


se utiliza en Inferencia Estadstica como la
estimacin de la varianza poblacional 2, es

(xi -x)

= i=1

n -1

la frmula que vamos a utilizar en este


curso como varianza muestral.

s =
2

n
x
i=1 i

(xi -x)
i=1

n -1

2
i

i=1

n-1

Si los datos se encuentran tabulados


desviacin estndar son:

las frmulas de la varianza y

(x x) n
2

2
x

Varianza s =

i=1

n-1
k

(x -x) n
2

Desviacin estndar: s =

i =1

xi es el valor de la variable discreta en una tabla


intervalo i (datos agrupados en intervalos reales)

n-1
o la marca de clase en el

Ejemplo: Cierto tipo de resistencias de pelcula de xido metlico son agrupadas


en paquetes de 50 unidades. Se seleccionaron 60 paquetes y se cont el
nmero de resistencias que no cumplan con las especificaciones, resultando la
siguiente tabla

Cecilia Larran R.

Estadstica Descriptiva

Pgina 53

X = N de resistencia defectuosas en cada paquete


xi ni
ni
(x i - x) 2 n i

0
1
2
3
4
5
6

5
10
16
15
9
3
2

0
10
32
45
36
15
12

31,25
22,50
4,00
3,75
20,25
18,75
24,50

Total

n = 60

150

125,00

x=

150
60

s2 =

125
59

= 2,119 varianza

Desviacin estndar s =
=

varianza
2,119 = 1, 456

Varianza: Datos tabulados


k

s =
2

(x i -x) ni
i=1

n -1

2
i

ni -

x i ni

i=1

i=1

n-1

Desviacin estandar: Datos tabulados


k

s=

Cecilia Larran R.

(x i -x) ni
i=1

n -1

2
i

ni -

x i ni

i=1

i=1

Estadstica Descriptiva

n -1

Pgina 54

Del ejemplo de resistencia de pelcula de xido metlico:

s=

xn

i i

= 150 ;

x n
2
i

= 500

(150)2
60 = 1,456
59

500

Coeficiente de variacin (CV):


Es una medida relativa de variabilidad

CVX =

sX

Se utiliza para comparar la dispersin de variables que


|x|
aparecen en unidades distintas de medicin o que toman valores de
magnitudes muy diferentes, ya que no depende de la unidad de medicin
de las variables.
Ejemplo: La tabla siguiente muestra el peso en kg y la estatura en cm de 10 sujetos
sujeto
Peso (Y)
Estatura (X)

1
2
3
4
5
6
7
8
9
10
78 75 70 68 44 66 72 95 70 74
172 175 168 178 159 166 176 180 179 171

Para analizar cul distribucin de datos es ms homognea, se debe determinar los


coeficientes de variacin de cada variable
Variable

Media

Desv. tp.

CV

Peso (Y)
Estatura (X)

71,20
172,40

12,541
6,620

0,176
0,038

100*CV
(% de variabilidad)

17,614%
3,840%

Interpretacin: La variable estatura es ms homognea (menor % de variabilidad)

Cecilia Larran R.

Estadstica Descriptiva

Pgina 55

Ejercicios V
Ejercicio V-1
En un banco se realiz un estudio para medir el tiempo de atencin necesario para que un cliente
realice una transaccin entre las 12:00 y 14:00 horas. Durante una semana se tomaron los tiempos
de atencin de 10 clientes diariamente, obtenindose los siguientes datos:
Tiempo de atencin
(min)
Cantidad de
clientes

02

24

46

6 8

8 10

10 12

12 -14

17

11

a. Complete el siguiente cuadro interprete los resultados

Cuartil 1
b. Determine

(aprox.)

Mediana

Cuartil 3

RI

Moda

qu porcentaje de clientes demoraron a lo ms tres min en su atencin.


R e sp .:

50 p
- 17

3 = 2 + 100
11

p = 45%

c. Grafique adecuadamente la tabla de frec, y muestre la ubicacin del la mediana y

promedio (realice comentarios)

Ejercicio V-2
2

Si a es constante, demuestre que:

((x i a )) es mnimo para a = x

i=1

Ejercicio V-3
Se ha hecho un seguimiento durante una serie de das del nmero de mensajes spam al da
que un cierto usuario recibe en su correo electrnico. Los datos obtenidos se muestran a
continuacin:
N de spam diario
Frecuencia observada
a. n =

0
35

1
42

2
55

3
40

4
15

5
10

6
3

(interprete)

b. Determine e interprete las medidas de tendencia central


c. Determine una medida de dispersin adecuada
d. Realice un grfico adecuado

Cecilia Larran R.

Estadstica Descriptiva

Pgina 56

Ejercicio V-4
Se realiz un estudio sobre los costos operacionales (Y), en millones de dlares anuales, en
empresas de dos rubros distintos( A ; B ). Se tomaron muestras de 25 empresas de cada
rubro, obtenindose:
Rubro
5,3
4,4

4,4
8,2

2,8
1,5

7,5
6,2

8,5
4,8

4,2
7,2

3,9
6,4

5,3
5,4

2,7
7,1

8,2
5,9

3,9
6,4

4,2
7,5

3,5
6,1

4,5
4,0

4,1
4,8

3,6
5,4

5,2
3,5

4,6
5,4

2,9
4,3

4,0
4,8

4,7
2,6

5,5
5,4

2,9
3,5

5,9
3,8

5,2

4,9

Rubro A

Rubro B

Frecuencia Tallo & Hoja

Frecuencia Tallo & Hoja

1.
2.
3.
4.
5.
6.
7.
8.

5
78
99
22448
23349
244
1255
225

3,00
0,00
5,00
4,00
6,00
4,00
2,00
1,00

-1

2.
3.
3.
4.
4.
5.
5.
6.

2
i

1,00
2,00
2,00
5,00
5,00
3,00
4,00
3,00

137,1

833,9

109,9

505,4

699
55568
0013
567889
2444
59
1

-1

Multiplicar por 10

a.

Y = Costo operacional

Multiplicar por 10

Compare la dispersin de los costos de operacin, entre los dos rubros.


Rubro

CV

% de variabilidad

A
B
b.
c.

Comentarios:
Entre qu costos operacionales se ubica el 50% central de las empresas del rubro B?
Segn estimaciones, realizadas en las empresas del rubro A, los costos operacionales
aumentarn en un 3%. Determine e interprete la nueva mediana y la nueva desviacin
estndar.

Cecilia Larran R.

Estadstica Descriptiva

Pgina 57

Ejercicio V-5
Se toman muestras, de barras planas de dos tipos de acero, de tamao 80 y 100
respectivamente, para analizar la resistencia a la ruptura. Los siguientes grficos muestran los
tiempos mximos (Y), en minutos que soportan dichas barras antes de fragmentarse, cuando son
sometidos a la tensin:

Muestra 1

Muestra 2

minutos

minutos

a.

En base a la informacin contenida en los grficos, determine que distribucin es ms


homognea y que tipo de acero resisti en mejor forma la tensin aplicada. Justifique utilizando
medidas de resumen adecuadas.

b.

Si las barras de acero tipo 1, se clasifican de acuerdo a su resistencia en {RB, RM, RA}
Baja resistencia (RB)
: si soportan un tiempo mximo inferior a 5,5 minutos
Alta resistencia (RA)
: si soportan un tiempo mximo de por lo menos 14 minutos
Resistencia media (RM) : en otro caso.
Muestre grficamente la distribucin de las barras de acuerdo a la nueva clasificacin.

Medidas de Forma
Coeficiente de asimetra de Fisher

Apuntamiento o curtosis CAp

n
C A = g1 =

Mide lo puntiaguda que es la distribucin

(x i -x ) 3

n(n+1) (x i -x)4

i= 1

(n -1 )(n -2 )
s3

CA p = g 2 =

CA = 0; si la distribucin es perfectamente
simtrica
CA > 0; si hay asimetra positiva
CA < 0; si hay asimetra negativa
Un coeficiente de asimetra mayor que 1
en valor absoluto puede considerarse
alto.

Cecilia Larran R.

i=1

(n-1)(n-2)(n-3)s 4

(n-1) 2
-3
(n-2)(n-3)

Los
valores positivos de CAp
indicarn un fuerte
apuntamiento (leptocrtica),
valores negativos indican una
distribucin ms plana (platicrtica) y si los valores son
cercanos a cero el histograma o polgono de frecuencias
tiene una forma parecida a una campana (mesocrtica)

Estadstica Descriptiva

Pgina 58

Estadstica Descriptiva Bivariada


Los datos que tratamos de analizar pueden incluir valores de dos variables
relacionadas entre s, por lo que es interesante su estudio conjunto.
Los elementos de una muestra o de una poblacin pueden clasificarse con dos
criterios o variables diferentes.
Observacin: Se pueden analizar en forma conjunta ms de dos variables.

Caso 1: Descripcin conjunta de dos variables cualitativas


- Tabla de doble entrada o tabla de contingencia
Existen dos tipos de tablas de contingencia:
i)
Cuando el objetivo es analizar la posible relacin entre dos
variables cualitativas
ii)
Comparar dos o ms grupos en una variable cualitativa
- Grficos adecuados: Barras agrupadas, Sectorial, Barras divididas.
- Medidas de resumen: Asociacin (se estudiarn en la unidad de Inferencia)

Ejemplo i) La informacin que se presenta a continuacin en la tabla y grfico,


corresponde a una parte de un estudio realizado con una muestra de
400 trabajadores de una industria metalrgica con el objeto de
investigar si el desempeo en el programa de capacitacin y el
rendimiento en el trabajo estn relacionados.
Tabla 1
Desempeo en el
Calificacin
programa de capacitacin
Total
en el trabajo
Bajo
Medio
Alto
23
Deficiente
60
29
112
Promedio
28
79
60
167
Muy buena
9
49
63
121
60
400
Total
188
152
- De los trabajadores que obtuvieron bajo desempeo en el programa de
capacitacin, qu porcentaje tiene calificacin deficiente en el trabajo?
- De los trabajadores que obtuvieron un desempeo alto en el programa de
capacitacin, qu porcentaje tiene calificacin muy buena en el trabajo?
- De los trabajadores que obtuvieron un desempeo alto en el programa de
capacitacin, qu porcentaje tiene calificacin deficiente en el trabajo?

Cecilia Larran R.

Estadstica Descriptiva

Pgina 59

Ejemplo ii) Se desarrollan dos mtodos para fabricar discos de un material


superconductor. Se elaboran 50 discos con cada mtodo y se
comprueba su superconductividad al en
enfriarlos
friarlos con nitrgeno lquido.

Mtodo 1
Mtodo 2
Total

Cecilia Larran R.

Superconductores
(Si fallas)
31
42
73

Estadstica Descriptiva

Fallas

Total

19
8
27

50
50
100

Pgina 60

Caso 2:: Una variable cuantitativa y una variable cualitativa (grupo)


Tabla de de distribucin de frecuencias (si n es grande)
Grficos adecuados:
- Diagrama de puntos paralelos (muestras pequeas)
- Polgonos de frecuencias en un mismo grfico (hay que tener los
datos tabulados en intervalos, para comparar los grupos es
conveniente utilizar porcentaje)
- Diagramas de cajas paralelas (datos directos, es un grfico
basado en los cuartles)
Medidas de resumen: Tendencia central, Percentiles, Dispersin

Ejemplo: Los datos que se muestran a continuacin son los grados de dureza
Brinell obtenidos para muestras de dos aleaciones de magnesio:
Y = grado de dureza Brinell
Aleacin 1
66,3 63,5 64,9 61,8 64,3 64,7 65,1 64,5 68,4 63,2
Aleacin 2
71,3 60,4 62,6 63,9 68,8 70,1 64,8 68,9 65,8 66,2

ALEACION

1
2

Percentiles (bisagras de tukey)


25
50
75
63,5
64,6
65,1
63,9
66,0
68,9

RI
1,6

1,5RI
2,4

(P25 1,5RI, P75 + 1,5RI)

(61,1 ; 67,5)

Interpretacin: ___________________
__________________

Cecilia Larran R.

Estadstica Descriptiva

Pgina 61

ALEACION
1
2
Total

n
10
10
20

Informe: dureza Brinell


Media
Desv. tp. C. V.
64,670
1,787
66,280
3,484
65,475
2,818

Mn.

Mx.

Ejemplo: Una industria metalrgica compra grandes cantidades de alambre de


acero en rollos de 150 metros, hasta la fecha esta compra la realiza en
la empresa Alfha, otra empresa llamada Delta quiere tambin vender
sus productos y hace una oferta bastante interesante porque el precio
de cada rollo es muy inferior.
Sin embargo es importante considerar la resistencia a la traccin (Y).
Por ello se toman muestras al azar de rollos de acero provenientes de
ambas empresas.
Los resultados se presentan en la tabla siguiente:

Resistencia
(en Newton)
10,00 10,25
10,25 10,50
10,50 10,75
10,75 11,00
11,00 11,25
11,25 11,50
11,50 11,75

yi
10,125
10,375
10,625
10,875
11,125
11,375
11,625

Empresa
Alfha Delta

Y = resistencia a la traccin del alambre


Empresa

yn

i i

2
12
14
11
5
4
0

0
17
25
11
9
9
3

Alfha
Delta

48
74

514,25
799,00

y n
2
i

5514,5
8636,90625

- Grfico adecuado para representar la distribucin de la resistencia de los


alambres de acero fabricado por cada una de las empresas.
Polignos de frecuencias.

Cecilia Larran R.

Estadstica Descriptiva

Pgina 62

- Si la variabilidad de la resistencia del alambre de la empresa Delta no es


superior a la de la empresa Alfha y adem
adems
s la resistencia promedio es superior
en al menos 1,5
,5 Newton sera aconsejable cambiar de proveedor.
Qu decisin se debera tomar en base a la informacin obtenida?
Fundamente con clculo de medidas adecuadas.

EMPRESA
Alfha
Delta

Media
(promedio)

10,71354

n
48

Desv.
C.V.
estandar
0,32815 0,03063

% de variabilidad
3,063%

Respuesta: _______________

- Qu porcentaje de los rollos de alambre de acero de la empresa Delta


supera la resistencia media de los rollos de alambre de acero de la empresa
Alfha

Cecilia Larran R.

Estadstica Descriptiva

Pgina 63

Ejercicio:
Un Gerente de produccin de una gran industria automovilstica norteamericana
cree que los trabajadores de la planta A hacen un promedio salarial por hora
menor con una mayor variabilidad que los trabajadores de la planta B. Muestras
de 12 trabajadores de la planta A y 10 trabajadores de la planta B dieron los
siguientes valores:
Salario (um ) por hora de un trabajador (Y)
Planta A (1) 12.2 18.2 19.4 15.3 18.6 16.4 15.5 18.7 17.1 18.3 14.5 15.8
Planta B (2) 15.1 14.8 16.9 17.2 18.2 18.5 18.7 19.3 19.2 19.8

a. Apoyan los datos al Gerente de produccin? (utilice medidas de resumen)


n

Promedio

Desv. Estandar

C.V.

b. Corrobore la conclusin de (a) con Box-Plots paralelos (diagrama de caja)

c. Si a los trabajadores se les aumenta el sueldo hora de la siguiente forma:


Planta

Aumento

5% + 0.8 um

1,5 um

Determine (despus del aumento):


Promedio
Desviacin estndar
C.V
aritmtico
(sn-1)

. Caso 3 : 2 variables cuantitativas


Grfico adecuado: Diagrama de dispersin
Medida de resumen conjunta: Coeficiente de correlacin lineal de
Pearson

Cecilia Larran R.

Estadstica Descriptiva

Pgina 64

Descripcin conjunta de dos variables cuantitativas


Es frecuente que se pueda determinar el grado de relacin entre 2 (o ms)
variables cuantitativas, ya que al tener este conocimiento, se puede predecir una
variable a partir de la otra.
Para expresar cuantitativamente el grado en que dos variables estn
relacionadas, es necesario calcular un coeficiente de correlacin.
Coeficiente de correlacin lineal poblacional :
Coeficiente de correlacin lineal muestral: r

Un coeficiente de correlacin para variables cuantitativas: es un nmero


que indica el grado de asociacin y la direccin de esa asociacin. Indica
cmo vara o cambia una caracterstica cuando la otra caracterstica o
variable asociada cambia.
Sin el conocimiento de cmo una cosa vara con otra sera imposible hacer
predicciones. La prediccin slo es posible basndose en el conocimiento de la
relacin que hay entre 2 variables.
Un coeficiente de correlacin lineal (con variables por lo menos ordinales) nos
proporciona 3 datos principales:
- La existencia o no de una relacin entre las variables estudiadas.
- La direccin de la relacin.
- El grado de esta relacin.
Como por ejemplo:
estatura y peso
el ingreso familiar y los gastos en educacin
Para el clculo de r (correlacin muestral) es preciso tener 2 conjuntos de
medidas de los mismos individuos (o parejas de individuos que tengan alguna
forma de relacin)
Tabla de datos:
Sujeto 1
Variable X x1
Variable Y y1

2
x2
y2

3
x3
y3

n
xn
yn

La tabla contiene n
pares ordenados

Grfico adecuado: Diagrama de dispersin, muestra si hay relacin lineal entre


las variables

Cecilia Larran R.

Estadstica Descriptiva

Pgina 65

Ejemplos
a) Una correlacin lineal positiva perfecta
X
2
4
5
6
7
8
9
10
12
13

Y
4
6
7
8
9
10
11
12
14
15

r=1

b) Una correlacin lineal elevada positiva (+0,76) (relacin directa)


X
13
12
10
10
8
6
6
5
3
2

Y
11
14
11
7
9
11
3
7
6
1

En general, personas con alto puntaje en x tambin tendrn alto puntaje en y.

c) Una baja correlacin lineal positiva (+0,14)


X
13
12
10
8
7
6
6
4
3
1

Y
7
11
3
7
2
12
6
2
9
6

Cecilia Larran R.

Estadstica Descriptiva

Pgina 66

d) Un caso de alta correlacin lineal negativa (-0,70) (relacin inversa)


X
Y
12
7
10
3
9
8
8
5
7
7
7
12
6
10
5
9
4
13
2
11
El signo algebraico del coeficiente de correlacin tiene que ver, por lo tanto, con
la direccin de relacin entre dos cosas, ya sea directa o inversa.

Significado de la correlacin
El valor de de la correlacin puede variar desde -1 (lo que indica
correlacin negativa perfecta), pasando por el 0 (que indica independencia
completa o ninguna relacin), hasta +1 (que significa perfecta correlacin
positiva)
La magnitud se relaciona con la intensidad o estrechez de la relacin.
Coeficiente de correlacin lineal de Pearson

r=
n

sxy =

(x -x)(y -y)
i=1

n -1

s xy

; -1 < r < 1

sxs y

covarianza de una muestra (representativa de la


poblacin objeto), indica la direccin de la relacin.
X e Y variables cuantitativas

COVARIANZA

n n
xi yi
n
n
(xi -x)(yi -y) xi yi - i=1 i=1

n
sxy = i=1
= i=1
n -1
n-1

Cecilia Larran R.

Estadstica Descriptiva

Pgina 67

Ejemplo:
sujeto
1
2
3
4
5
6
7
8
9
10

x
13
12
10
10
8
6
6
5
3
2

(x - x )
5,5
4,5
2,5
2,5
0,5
-1,5
-1,5
-2,5
-4,5
-5,5

y
11
14
11
7
9
11
3
7
6
1

Total

75

80

promedio

x =7,5

y = 8,0

Desviacin estndar de Y: s y =

sxy =

(x - x )2 (y - y )2
30,25
9
20,25
36
6,25
9
6,25
1
0,25
1
2,25
9
2,25
25
6,25
1
20,25
4
30,25
49

124,5

Desviacin estndar de X: s x =

Covarianza de (x,y):

(y - y )
3
6
3
-1
1
3
-5
-1
-2
-7

(x - x)

n-1

(y - y)
n-1

(x -x)(y -y)
n-1

124,5
= 3, 719
9

144
= 4, 000
9

102
=
= 11,333
9

(x - x )(y - y )
16,5
27
7,5
-2,5
0,5
-4,5
7,5
2,5
9
38,5

144

102

Covarianza positiva
Interpretacin: si hubiese
relacin lineal, esta sera
directa

11,333
= 0,762
(3,719)(4,000)
Interpretacin: _________________________________________

Coeficiente de correlacin lineal de Pearson: rxy =

Cecilia Larran R.

Estadstica Descriptiva

Pgina 68

Ejercicios VI
Ejercicio VI-1
Para determinada tarea en una fbrica, donde se necesita mucha destreza, se quiere
investigar si
la productividad en el trabajo debe ser mayor al aumentar los aos de
experiencia. Se seleccionaron al azar diez empleados de entre lo que tienen ese trabajo.
Los datos de aos de experiencia y medicin de productividad son los siguientes:
Empleado
Aos de experiencia
Productividad

01
4
80

02
6
82

03
10
88

04
2
81

05
12
92

06
6
85

07
5
83

08
10
86

09
13
91

10
9
90

a. Realice el diagrama de dispersin y calcular el coeficiente r de Pearson.


b. Interprete los resultados.
Ejercicio VI-2
El tiempo de respuestas (en nanosegundos) de un circuito lgico en fro (X) y el tiempo de
respuesta tras una hora de uso intensivo (Y), para una muestra de 12 mquinas es el
siguiente:
Mquina
Tiempo de respuesta en fro (X)
Tiempo de respuesta tras una hora
de uso (Y)

1 2
6 5

3
8

4 5 6 7 8
14 7 4 5 9

4 8 15

9
6

9 6 9 6 11

10 11 12
5 7 6
7

a.

Se desea pronosticar el tiempo que tardar un determinado circuito lgico tras una hora
de funcionamiento intensivo, utilizando informacin del tiempo de respuesta en fro.
Para un pronstico fiable, las variables deben estar fuertemente relacionadas, utilizando
una mediada estadstica adecuada, qu concluira usted?

b.

Se sabe que un dato es atpico, si su valor no se encuentra en el intervalo


(Q1 1,5RI , Q3 + 1,5RI)
Detecte los posibles valores atpico en Y.
(Qk cuartil k

RI Amplitud (rango) intercuartlica)

Ejercicio VI-3
Se estn estudiando dos tipos de tubos para la utilizacin en cierta aplicacin industrial. Se
seleccionaron 12 ejemplares de cada tipo y se anot su duracin en semanas.
Tubo
Tipo 1
Tipo 2

Semanas de duracin
26,3 32,7 29,6 25,6 34,6 40,3 39,1 32,3 28,2 36,7 32,6 38,8
38,9 27,6 23,6 25,0 33,7 31,4 29,5 32,5 30,6 20,0 31,8 29,3

Analice en forma descriptiva ambos tipos de tubos e indique cul debera seleccionarse para la
aplicacin industrial (Justifique con medidas de tendencia central y de dispersin)

Cecilia Larran R.

Estadstica Descriptiva

Pgina 69

Ejercicio VI-4
Se est investigando la resistencia (en miles ohms) de cierto tipo de resistor. Para ello se probaron
80 resistores con el siguiente resultado:

Resistencia
(miles ohms)

N de resisteros

5,0 5,5
5,5 6,0
6,0 6,5
6,5 7,0
7,0 7,5
7,5 8,0
8,0 8,5

14
36
14
6
4
3
3
80

P75 = 6,36 (miles ohms)

Con la informacin de la tabla de frecuencias, determine el porcentaje de resistores con


resistencia atpica (outlier).

Ejercicio VI-5
En una empresa constructora se debe decidir por una de dos mezclas, para preparar concreto. Se
tiene una mezcla estndar que es la que se ha utilizado en los ltimos cuatro aos, pero debido a
nuevas exigencias para que las construcciones sean ms resistentes, por ejemplo a los terremotos,
es que los ingenieros a cargo experimentan con distintas mezclas y despus de meses de
experimentacin, al parecer logran una mezcla que cumple con los estndares exigidos. Por otro
lado, la mezcla estndar tiene costos de produccin muy inferiores a la nueva mezcla, razn por la
cual utilizarn la nueva mezcla solo si cumple de mejor manera con las exigencias mnimas
requeridas, las cuales son:

i.

ii.

La resistencia mnima a la compresin debe ser de 17,2 MN/m2. Esta


resistencia mnima a considerar debe ser superada por el 96% o ms de las
muestras de prueba.
La variabilidad de la resistencia debe ser inferior al 18%.

Se probaron 50 probetas con muestras de cada tipo de mezcla, las resistencias obtenidas se
presentan en la tabla siguiente.

Resistencia
MN/m2
14 17
17 20
20 23
23 26
26 29
29 32

N de probetas
Mezcla Estndar
Mezcla Nueva
1
9
13
18
7
2

2
8
19
14
5
2

a. Utilizando medidas estadsticas adecuadas pruebe si se cumplen las condiciones i) y ii)


adecuadas y en base a los resultados decida cul de las dos mezclas es ms adecuada.
b. Construya un grfico adecuado que permita comparar la resistencia del concreto para estos
dos tipos de mezclas.
Cecilia Larran R.

Estadstica Descriptiva

Pgina 70

Ejercicio VI-6
Se realizan mediciones del contenido de oxigeno en un una mina subterrnea, para
analizar la factibilidad de explotarla sin riesgos para los trabajadores. Se mide entonces el
contenido de oxigeno en miligramos/litro a diferentes profundidades (metros), obtenindose
la siguiente informacin:
Profundidad
Contenido O

15
6,5

20
5,6

30
5,4

40
6,0

50
4,6

25
5,0

35
5.0

45
4,8

65
1,0

60
1,4

70
0,1

a. Determine e interprete la intensidad de la relacin lineal entre las variables en estudio.


b. Introduciendo ciertos sondajes, mediante tuberas especiales, la cantidad de oxgeno
en cada punto observado aumenta en 10%. El costo de esta operacin es de 40 en
miles de $ por metro de profundidad. Cul es la media, mediana y varianza del
costo de la operacin para lograr este aumento de oxigeno?

Ejercicio VI-7
Se analizan dos catalizadores para determinar la forma en que afecta el rendimiento de un
proceso qumico. El catalizador 1 es el que se viene empleando en la fbrica y se quiere
averiguar si se puede sustituir por el catalizador 2, ms barato, pero que, segn el
fabricante provoca un descenso del rendimiento. Se llevan a cabo 24 reacciones
obteniendo para cada catalizador los rendimientos en porcentaje:
Catalizador

Y = rendimiento (%)

2
i

93,1
92,0
93,8

91,7
94,0
90,3

99,9
98,2
92,8

90,3
96,1
91,1

96,2
97,9
91,1

92,7
87,0
89,4

92,7
89,4
94,2

89,0
92,6
102,1

2237,6

208924,80

91,5
87,2
90,6

89,2
90,9
88,2

92,8
91,3
87,8

95,3
92,6
89,9

95,1
91,4
90,4

96,4
91,5
90,6

87,0
91,4
91,0

91,7
95,5
97,0

2196,3

201164,17

a.

Se aceptara el cambio de catalizador, si los resultados de la pruebas arrojan una


diferencia promedio de ambos catalizadores inferior a 4 (%) y el catalizador
alternativo debe tener rendimiento ms homogneo del que se utiliza actualmente.
Con los resultados muestrales, es aconsejable realizar el cambio?

b.

Sabiendo que el 75% de las reacciones obtenidas con el Catalizador 2 tienen un


rendimiento igual o superior a 90,15. Determine si existe algn resultado (reaccin)
atpica. Utilice regla de Tukey.

Cecilia Larran R.

Estadstica Descriptiva

Pgina 71

Ejercicio VI-8
En una planta embotelladora de bebidas de fantasa, utilizan envases fabricados
con 2 tipos de plstico, de similares condiciones. ( A y B ).
Con muestras de 25 botellas fabricadas con cada tipo de plstico se midi la
resistencia (en psi). Algunos resultados parciales se encuentran a continuacin:
Resist_A Stem-and-Leaf Plot

Resist_B Stem-and-Leaf Plot

Freq

Freq

Stem & Leaf

1,00
2,00
1,00
4,00
7,00
4,00
2,00
1,00
2,00
1,00

18 .
18 .
19 .
19 .
20 .
20 .
21 .
21 .
22 .
22 .

2
59
0
5679
1222234
5689
01
9
14
5

Stem & Leaf

1,00 Extremes (=<171)


2,00
17 . 38
3,00
18 . 349
11,00
19 . 22344556679
5,00
20 . 35668
2,00
21 . 05
1,00
22 . 4
Stem width:
10
Each leaf:
1 case(s)

Stem width:
10
Each leaf:
1 case(s)

Atpico = 171

X = Resistencia
Plstico A
Plstico A

5087
4898

1038093
963332

a.

Se estima que las botellas fabricadas con el plstico B presentan una


resistencia ms homognea, que las fabricadas con el plstico A. Utilizando
una medida estadstica adecuada, qu puede comentar de esta estimacin?

b.

Determine para cada tipo de envase entre que valores (psi) se encuentran el
50% de las botellas con mayor resistencia

Cecilia Larran R.

Estadstica Descriptiva

Pgina 72

Ejercicio VI-9
Se ha comprobado que las aleaciones amorfas tienen una excelente
resistencia a la corrosin. En Corrosin Science (septiembre 2007) se inform de la
resistividad de una aleacin amorfa de hierro, boro y silicio despus de la cristalizacin.
Se recocieron durante un cierto tiempo (X), expresado en minutos, una muestra de 100
especmenes de esta aleacin a 700C. Luego se midi el potencial de pasivacin, en
mV (una medida de la resistividad de la aleacin cristalizada) para cada espcimen.
Los resultados son los siguientes:

(Prueba 1 06/05/2010)

X tiempo de
recocido
(en minutos)

10-25
25-40
40-55
55-70
TOTAL

Y Potencial de pasivacin (en mV)


-420; -400

-400; -380

-380; -360

TOTAL

0
14
3
0
17

15
10
9
9
43

0
6
15
19
40

15
30
27
28
100

a.

Determine el grado de intensidad de la relacin lineal entre estas dos variables.


Interprete el valor obtenido en el contexto del experimento.

b.

Para los 72 especmenes, en que el tiempo de recocido es inferior a 55 minutos:


i.
Determine el porcentaje de especmenes comprendidos entre el promedio
y la mediana del potencial de pasivacin.
ii.
Marque y achure el rea comprendida entre el promedio y la mediana, en
el polgono de frecuencia de la distribucin del potencial de pasivacin.
Interprete la informacin contenida en el grfico.

c.

Compare el porcentaje de variabilidad del potencial de pasivacin, con el del


tiempo de recocido, cuando hay una reduccin en el tiempo del 5% y de 15
segundos para cada especimen Cul distribucin resulta ser ms homogenea?
Utilice propiedades.

Cecilia Larran R.

Estadstica Descriptiva

Pgina 73

Anexo 1
ROL DE LA ESTADSTICA EN LA INVESTIGACIN CIENTFICA
(Revista: Contribuciones Cientficas y Tecnolgicas, Junio 1985 pg. 7 9, USACH)

1.1.

PLANTEAMIENTO GENERAL
El hombre busca constantemente una explicacin racional para los fenmenos que
lo rodena. EL MTODO CIENTFICO le ayuda a organizar adecuadamente la
observacin de los hechos y a determinar las leyes que los rigen. En la gran mayora
de las situaciones reales la determinacin de tales leyes se complica por la
multicasualidad del fenmeno estudiado.

1.2.

MTODO CIENTFICO
El mtodo cientfico es un procedimiento que se aplica al ciclo completo de una
investigacin, desde el enunciado del problema hasta la evaluacin de los resultados
obtenidos. En forma esquemtica podemos distinguir las siguientes etapas en la
aplicacin del mtodo cientfico.

1.2.a.

Deteccin y Enunciado del Problema


Consiste en la descripcin de una situacin problema o en el planteamiento de una
pregunta.

1.2.b. Formulacin de una hiptesis


Es una posible explicacin al problema planteado, de acuerdo al conocimiento
cientfico existente.

1.2.c. Deduccin de una consecuencia verificable


Debido a que la hiptesis es una explicacin general puede, en algunos casos, no
ser posible investigar directamente su veracidad. Se procede en estos casos a
deducir, en forma lgica, consecuencias particulares de la hiptesis.

1.2.d. Verificacin de la consecuencia


En ciencias exactas se puede hacer mediante demostraciones tericas basadas en
relaciones aceptadas en el estado actual del conocimiento; en ciencias no exactas
(biolgicas, sociales, etc.) la verificacin se hace a travs de recoleccin de la
informacin, o de la observacin de los fenmenos, lo cual hace necesario la
aplicacin de una serie procedimientos estadsticos.

1.2.e. Conclusin
Puede consistir en una aceptacin, modificacin o rechazo de la hiptesis

Cecilia Larran R.

Estadstica Descriptiva

Pgina 74

ROL DE LA ESTADSTICA EN LA INVESTIGACIN CIENTFICA


(Revista: Contribuciones Cientficas y Tecnolgicas, Junio 1985 pg. 7 9, USACH)

1.3.

MTODO ESTADSTICO
Al aplicar el mtodo cientfico nos proponemos verificar la hiptesis inicial,
investigando si las consecuencias deducidas de ella se comprueban o no al recoger,
en forma sistemtica, nuevas observaciones. Es el mtodo estadstico el que nos
proporciona las tcnicas necesarias para recolectar y analizar la informacin
requerida. Podramos distinguir una fase de planificacin y otra de ejecucin.

1.3.a. Planificacin
En esta fase debemos considerar

a.1. Definicin de los objetivos


Corresponde formalmente a la descripcin del problema que da origen a la
investigacin. Se debe sealar detalladamente lo que se pretende investigar, el qu,
donde, cundo y por qu.

a.2. Definicin del universo (poblacin objeto)


Se debe definir el grupo del cual se extraer la informacin y al cual se generalizarn
las conclusiones que se obtengan en la investigacin y al cual se generalizarn las
conclusiones que se obtengan en la investigacin.

a.3. Diseo de la muestra


La teora de Muestreo o de Diseo de Experimentos pueden garantizarnos que la
informacin que generamos nos permitir proyecciones vlidas al universo de inters.

a.4. Definicin de las unidades de observacin, escalas de clasificacin y unidades de


medidas

En una misma investigacin puede haber varios objetivos parciales que requieren
estudiar unidades de observacin diferentes. La eleccin de unidades de medida es
crucial ya que una equivocacin puede resultar en un exceso de informacin o en
una perdida irrecuperable de ella.

a.5. Preparacin del plan de tabulacin y anlisis


El cuidado puesto en este aspecto nunca podra considerarse excesivo, debera
llegarse, tal vez, hasta considerar alternativas de anlisis adecuadas para compensar
algunas alteraciones accidentales del plan de trabajo.

Cecilia Larran R.

Estadstica Descriptiva

Pgina 75

ROL DE LA ESTADSTICA EN LA INVESTIGACIN CIENTFICA


(Revista: Contribuciones Cientficas y Tecnolgicas, Junio 1985 pg. 7 9, USACH)

1.3.b. Ejecucin
En esta fase podemos reconocer:
b.1. Recoleccin de la informacin.
b.2. Elaboracin de la informacin.
b.3. Anlisis de lo resultados
Un esquema til en la aplicacin de mtodo cientfico y que destaca un paralelismo con el
mtodo estadstico se resume en el diagrama siguiente:

Diagrama del mtodo cientfico y del mtodo estadstico

Cecilia Larran R.

Estadstica Descriptiva

Pgina 76

Anexo 2
Muestreos aleatorios
Se seleccionan los elementos de la muestra por un procedimiento de azar (un sorteo).
El investigador no decide que elementos van a tomar parte de la muestra, aunque debe
conocer la probabilidad de seleccin de cada elemento. Estos tipos de muestreo
permiten aplicar las tcnicas de inferencia estadstica.
Entre ellos se usan los siguientes:

Muestreo aleatorio simple con y sin reemplazamiento: Todos los elementos de la


Poblacin tienen la misma probabilidad de ser incluido en la muestra y la seleccin de
cada uno de los elementos es independiente de la seleccin de otro. Si cuando se
extrae un elemento de la Poblacin para formar parte de la muestra, ya no puede
extraerse de nuevo (no se reemplaza en la Poblacin) el muestreo se llama Muestreo
aleatorio simple sin reemplazamiento. Si por el contrario se devuelve a la Poblacin y
puede formar de nuevo parte de la muestra, el muestreo se dice Muestreo aleatorio
simple con reemplazamiento.
Muestreo estratificado: Este muestreo requiere que la Poblacin est dividida en
grupos ms o menos homogneos con respecto a la caracterstica que se investiga. A
cada uno de estos grupos se le llama clase o estrato.
Dentro de cada uno de estos estratos se selecciona la muestra con un muestreo
aleatorio simple. La muestra que resulta se llama una muestra estratificada.
Muestreo por conglomerados o Agrupado: Consiste en dividir la poblacin en grupos
parecidos entre s y seleccionar aleatoriamente un conjunto de estos grupos. Para que
sea eficiente los grupos han de ser bastante parecidos entre s, ya que todos ellos han
de ser modelos en miniatura de la poblacin. La diferencia de un grupo con un estrato
consiste en que los estratos han de ser diferentes entre s, aunque homogneos
interiormente. Sin embargo, los grupos son parecidos entre s, pero interiormente
reflejan la variabilidad de la poblacin de la que proceden.
Muestreo Sistemtico: Se supone que los elementos de la poblacin estn ordenados
con arreglo a algn criterio. Se seleccionan sucesivamente los elementos de k en k,
comenzando por un elemento seleccionado aleatoriamente.
Muestreo Doble Mltiple y Secuencial: Este tipo de muestreo se usa principalmente
en Control de Calidad. El muestreo Doble es un procedimiento mediante el cual se
selecciona en primer lugar una muestra pequea. Si la informacin obtenida con esta
muestra nos parece suficiente, hemos terminado. Si esto no fuera as se procede a
tomar una segunda muestra, normalmente ms grande con la que completaremos la
informacin. En el muestreo mltiple este procedimiento se repite sucesivamente un
nmero finito de veces. Una modificacin de este tipo de muestreo mltiple consiste en
decidir para cada elemento que se incorpora a la muestra si tomamos un siguiente
elemento o ya la muestra extrada es suficiente para nuestro propsito. El nmero de
elementos de la muestras no es conocido a priori, ya que depender de la propia
muestra ya extrada y de la regla de decisin empleada para cerrar la muestra o seguir
muestreando.
Cecilia Larran R.

Estadstica Descriptiva

Pgina 77

Muestreos no Aleatorios
Este tipo de muestreo no permite, rigurosamente hablando, aplicar tcnicas de
inferencia estadsticas, ya que la formulacin de estas tcnicas se realiza bajo la
hiptesis de la aleatoriedad de las muestras.
Muestreo Dirigido o Adaptado: Se seleccionan para formar parte de la muestra
elementos, que segn la opinin de los encuestadores, sean representativos.
Se suele emplear en las primeras fases del estudio para construir una muestra piloto.
Muestreo por cuotas: Cada encuestador debe entrevistar a un cierto nmero de
personas de unas caractersticas definidas. Por ejemplo: 15 hombres solteros con
edades comprendidas entre 25 y 30 aos, 22 mujeres casadas de edades
comprendidas entre 30 y 50 aos, 20 personas con hijos en edad escolar, etc.
Muestro deliberado: Se selecciona la muestra en un sector de la Poblacin por
comodidad de acceso. Por ejemplo cuando se dispone fcilmente de una lista de
personas, como la gua de telfono, las matrculas de los automviles, etc.

Cecilia Larran R.

Estadstica Descriptiva

Pgina 78

Das könnte Ihnen auch gefallen