Sie sind auf Seite 1von 145

Universidad Tcnica Federico Santa Mara Renato Allende Olivares

Departamento de Matemticas Humberto Villalobos Torres


1
2. INTRODUCCIN


En un mundo orientado a la globalizacin, se presentan - segundo a segundo-
millones de datos que desean ser interpretados. La estadstica es una ciencia que nos
permite pensar en forma clara y disciplinada, y ofrece diversas tcnicas, cuya
correcta aplicacin, reduce la complejidad presente en los datos, para que estos
puedan ser interpretados.

El presente apunte est orientado al conjunto ms sencillo, pero no menos til,
de tcnicas de anlisis estadstico. En su primer mdulo est destinado a reconocer
las races mismas del dato, caractersticas de ste, cmo y cuntos datos obtener para
poder obtener conclusiones cientficamente vlidas.

En el segundo y tercer mdulo, se enfatiza el anlisis exploratorio de datos y
estadstica descriptiva, como un primer paso en todo resumen de datos, utilizando
para ello la disponibilidad de ordenadores, software estadstico con posibilidades de
representacin grfica y tratamiento conjunto de datos multivariados.

Las posibilidades didcticas del anlisis exploratorio de datos se deben
principalmente a la sencillez del aparato matemtico requerido, la importancia dada
hoy da en estadstica a los sistemas de representacin mltiple, las conexiones de
carcter transversal en todas las reas del quehacer humano, el trabajo en equipo y la
posibilidad de desarrollo de proyectos por parte de los profesionales que requieren de
informacin para sus proyecciones futuras.

En el cuarto y quinto mdulo, con la experiencia y visin obtenida en los
mdulos anteriores, se comienza a estructurar la idea de leyes probabilsticas, para la
presentacin de modelos que habitualmente se utilizan en ingeniera y que suelen ser
usados en la teora de decisiones.

Se podra, desde un punto de vista ms amplio, definir la estadstica como la
ciencia que estudia cmo debe emplearse la informacin y cmo dar una gua de
accin en situaciones prcticas que entraan incertidumbre.






Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
2
3. PRIMER MDULO


3.1 Proceso de Medicin

En todo mbito de la vida del hombre, constantemente los medios de
comunicacin invaden las percepciones de la gente con todo tipo de indicadores, tales
como: cantidad de libros que en promedio leen alumnos de enseanza media,
porcentaje de mujeres que sufren de maltrato psicolgico, variaciones de precios
(IPC), ndices de delincuencia o seguridad ciudadana, niveles de aceptacin respecto
a la gestin realizado por funcionarios pblicos, etc.

En la empresa, estos indicadores han surgido como un eficaz medio para
evaluar y controlar su desempeo, en fenmenos que a juicio de los ejecutivos son de
inters para la viabilidad de sta, es as como, en empresas productivas el porcentaje
de bienes defectuosos son un indicador importante, mientras que en empresas de
servicio, el nmero promedio de reclamos, son un indicador del buen o mal servicio
que se est prestando.

Todos estos indicadores que irrumpen en la vida moderna de las personas, son
producto de mediciones realizadas con algn instrumento. Sin embargo, el concepto
mismo medicin ha sido apartado de los indicadores, dando por hecho que stos
son un reflejo puro de la realidad, en el instante donde se produce la medicin, lo cual
puede considerarse como un ideal, pero no necesariamente real..

La medicin es la asignacin de smbolos (nmeros) a sucesos, hechos u
objetos del mundo emprico, sobre la base de reglas y procedimientos de un mundo
abstracto como es la matemtica, que se basa en una serie de restricciones propias de
su disciplina. Es por esta razn, que en general, toda investigacin debe tener claro la
seleccin y diseo de la tcnica de medicin, para estar seguro de que estas
mediciones son eficientes para cumplir con el objetivo de aclarar el suceso, hecho u
objeto en investigacin, con limitaciones propias de la relacin propuesta entre el
mundo emprico y el mundo abstracto.

Lo ms comn, cuando se habla de mediciones, es pensar en nmeros, por
ejemplo, en el sistema numrico de base diez, que se compone por los smbolos: 0, 1,
2, 3, 4, 5, 6, 7, 8, 9; se construyen todos los nmeros que manejamos comnmente,
pero tambin es cierto, que estos podran ser representados- las mismas mediciones-
en el sistema binario, como es en informtica.

A modo de ejemplo, cuando se desea conocer la opinin que tienen los
clientes de una empresa, se procede a la creacin de un cuestionario el instrumento
de medicin que el cliente debe contestar. A partir del conjunto de cuestionarios ya
completados, se obtienen los indicadores mundo abstracto pero, estn
representando estos indicadores lo que realmente piensan los clientes de la empresa?
mundo emprico .
Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
3
En la creacin del cuestionario surgen los primeros problemas, ya que se debe
tener especial cuidado en la formulacin de las preguntas, a modo de ejemplo:

1. Deben ser simples, directas y familiares para todos los entrevistados,
evitando modismos propios de algunos sectores.
2. Deben ser claras y lo ms especifica posible, evitando ambigedades o
palabras que pueden tener muchas interpretaciones.
3. Deben satisfacer los objetivos con preguntas unidimensionales, con el
fin de evitar respuestas donde no se sabe a que sector se refiere.
4. No ser muy extenso, con el fin de no abusar del tiempo del entrevistado
que a mitad del cuestionario se aburra y decida contestar al azar o
simplemente dejar de contestar.
5. Evitar estilos de pregunta persuasivas, ya sea por implicacin o
intencionalidad. etc.

Posteriormente al llegar a la aplicacin del cuestionario se debe responder:

1. Cuntos clientes sern necesarios encuestar?.
2. Cmo acceder a los clientes para realizar la encuesta?.
3. Qu pasa cuando un cliente seleccionado se niega a responder?.
4. Sern validas las respuestas de los clientes?.
5. Estarn siendo estas respuestas fiel reflejo de lo que se piensa?, etc.


Caractersticas de las mediciones

En el sistema numrico de base tradicional, compuesto por: 0, 1, 2, 3, 4, 5, 6,
7, 8, 9; se deben distinguir las caractersticas esenciales de estos smbolos que se
extrapolan al fenmeno de medicin.

En primer lugar, debemos notar que cada uno de estos smbolos es nico,
aquella medicin a la cual se le asigne el smbolo 0 deber cumplir con distintas
caractersticas que aquella a la cual se le asigne el smbolo 1. A modo de ejemplo,
se desea medir la caracterstica comuna de ubicacin de un cliente, aquellos que
pertenezcan a la comuna de Villa Alemana, cumplirn todos con ser clientes cuya
ubicacin es Villa Alemana (smbolo 0), y sern distintos a aquellos clientes cuya
comuna de ubicacin sea Quilpu (smbolo 1).

En segundo lugar, podremos percibir que aquella medicin que asigna un
2 es menos, en cuanto a la cantidad de la caracterstica medida que aquella que se
asigna 4, se visualiza que existe un orden establecido propio de la caracterstica que
se est midiendo. A modo de ejemplo, si se desea medir los hbitos de pago de los
clientes, claramente un cliente cuya clasificacin sea de deficiente, es menos en
cuanto a su capacidad de pago dado los antecedentes de ste, que aqul que sea
clasificado como bueno. A su vez aquel cliente que se clasifica como bueno es menos
en cuanto a su capacidad de pago de aquel clasificado como excelente, pero en
ningn caso implica que un cliente clasificado como excelente sea n veces ms que
Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
4
uno clasificado como deficiente, pues slo se ha agregado la nocin de orden a los
smbolos del sistema numrico, es decir, 1 < 2 < 3 ... etc.

Hasta este momento, se puede apreciar que las mediciones realizadas tienen
un carcter cualitativo y su riqueza informativa es limitada. En general cuando se
desea aumentar el nivel informativo de los datos, ste debe ser cuantitativo, pues
datos de este tipo, agregan nuevas propiedades.

Cuando los datos son de carcter cuantitativo, se agrega una tercera
caracterstica, pues adems de existir las propiedades de unicidad y orden antes
establecidas, se aade la nocin de distancia, pues existen entre los datos obtenidos
diferencias equitativas, es decir la distancia entre el smbolo 6 4 es igual a la
distancia entre los smbolos 9 7. A manera de ejemplo, variaciones en montos de
pago por consumo de energa de los clientes entre los meses estivales e invernales, el
cliente A tuvo una variacin del 4% mientras que el cliente B tuvo una variacin del
7%. En este caso se puede decir, la variacin, en el consumo, porcentual, de energa
entre el cliente A y B es del 3%, es decir, no slo 4% es menor que 7%, sino que
adems la distancia entre un cliente y otro es del 3%.

Con la nocin de distancia ya disponible, nos permite la creacin de medidas
de incertidumbre, riesgo o variabilidad en la medicin, que representan los
indicadores ms deseados a manejar y controlar, que adems son la principal fuente
para establecer la nocin de precisin de la medicin.

Finalmente la cuarta caracterstica, definida como proporciones equitativas,
requiere garantizar que se mantengan las proporciones en los mensurando. La
existencia de proporciones equitativas en la medicin, la cual se garantiza con la
asignacin de cero en la ausencia de la caracterstica medida, permite la comparacin
de las mediciones en distintos grupos,

La utilizacin de los nmeros en estadstica comprende la utilizacin de una o
ms de estas cuatro caractersticas, el problema consiste en distinguir, en las
mediciones de las variables investigadas, cuales son las caractersticas que se
cumplen en los mensurando. Las escalas numricas utilizadas en estadstica, se han
establecido en trminos de estas cuatro caractersticas del sistema numrico, a saber:
Nominal, Ordinal, Intervalar y Razn.

Tipos de Escala

Escala Nominal.- Es aquella en que los nmeros sirven solamente como etiqueta para
catalogar o identificar los objetos o sucesos.

Ejemplos:
- Regiones, Comunas, Marcas, Tipos de almacenes, sexo, etc.

La escala nominal es la ms pobre en cuando a informacin, pues slo se
encarga de la identificar y/o clasificar, con el fin de obtener informacin rpida y
Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
5
completamente dirigida. La regla general, es asignar igual nmero a objetos o sucesos
que pertenezcan al mismo dominio, es decir, las categoras en que se clasifiquen los
elementos deben se mutuamente excluyentes y, en su conjunto, exhaustivas para los
elementos considerados.

En clasificaciones nominales no se puede establecer prioridad alguna de las
categoras asignadas. Una proporcin importante de los fenmenos de mercadeo
requiere una medicin en escala nominal, en situaciones tales como medir: marcas,
tipos de almacenes, tipos de clientes, etc. Es muy raro que en estudios de
investigacin de mercados no se incluya informacin de esta naturaleza.

La utilidad de estas categorizaciones nominales en los elementos, es que
permite destacar ciertas conexiones entre categoras, y de ah entre variables. As
pues cruzando categoras de, por ejemplo, regin con marca de automviles ms
vendidos, se pueden establecer posicionamientos de ciertas marcas en regiones
especficas.

Escala Ordinal.- Adems de lo anterior, se define una relacin ordenada entre los
sucesos y/o objetos que comprenden la caracterstica de orden. En este tipo de escala,
se mide si hay ms o menos de la caracterstica, en relacin con los otros objetos, sin
embargo, no suministra informacin si la cantidad, mayor menor, de la
caracterstica que poseen varios objetos o sucesos.

Ejemplo:
- Aptitudes, preferencias, etc.
- Grupo Social; 1 Bajo, 2 Medio, 3 Alto. No se puede decir
que 2 es el doble de 1, slo que 2 tiene ms que 1.

En este nivel tienen sentido los conceptos del conteo de elementos, de tal
forma que, ordenados puedan ir acumulando, lo que da origen a medidas de posicin
basadas en los llamados "cuantiles" o clase cuantil. A modo de ejemplo, un cuartil
divide la poblacin en cuatro segmentos, de tal forma que bajo un cuartil especifico
se encuentra un porcentaje conocido de datos observados..

Escala Intervalar.- Adems de todo lo anterior, comprende la utilizacin de los
nmeros para clasificar objetos o sucesos de manera que la distancia entre los
nmeros corresponde a la distancia entre los objetos o sucesos en relacin con la
caracterstica que se est midiendo.

Ejemplo:
- Escala de temperatura (C, F);
0 C punto de congelacin del agua 32 F.
- Nmeros ndices; IPC, IPM, PIB, etc.

Las mediciones que disfruten de esta caracterstica, poseen todas las
cualidades de la escala ordinal, adems de la caracterstica de igual diferencia propia
del sistema numrico. La libertad en la asignacin de los nmeros, se reduce a la
Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
6
seleccin arbitraria de la unidad de medicin y un origen. Por ejemplo, los nmeros:
0, 1, 2, 3 representan una asignacin arbitraria de cero, a uno de los objetos y una
diferencia de una unidad entre los objetos adyacentes, mientras que una asignacin
alternativa de nmeros podra ser: 7, 9, 11, 13. Ambas asignaciones numricas son
aceptables y no se puede decir que una es mejor que la otra.

Escala de Razn.- Tiene todas las propiedades de la escala de intervalos, adems del
cero absoluto. En esta escala slo se puede asignar arbitrariamente la unidad de
medicin o distancia, pues una vez determinado este nmero, se establecen
completamente las asignaciones numricas restantes.

Ejemplo:
- Ventas pesos, dlares, etc.
- Estatura unidad
- Peso unidad

En una escala de razn indica que las proporciones iguales entre los valores de
la escala corresponden a las proporciones iguales, entre los fenmenos que se estn
midiendo. Afirmar que las ventas en el sector A, son el doble de las ventas del sector
B es perfectamente legtimo, si se utilizan datos cuya escala de medicin sea de
razn.

Todas las mediciones realizadas, se encuentran en el marco de una de estas
escalas, pero en muchas ocasiones, el trabajo y anlisis del dato obtenido es
complejo, con lo cual se recomienda alguna transformacin adecuada, que depender
del tipo de escala.

Todas estas transformaciones se esquematizan y muestran en la Figura 2.1.


Figura 2.1 : Transformaciones posibles segn tipo de escala.


Adems de la clasificacin de las mediciones segn escala, que es una
caracterstica propia del dato, ste tambin puede ser clasificado como un dato
cualitativo cuantitativo. Los datos cualitativos, se asocian siempre a datos cuya
Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
7
medicin sea en escala nominal u ordinal, mientras que los datos cuantitativos, se
relacionan siempre a datos cuya medicin sea en escala intervalar o de razn, ya sean
discretos o continuos.

Hasta el momento, de lo presentado del proceso de medicin, la medicin de
peso, altura, tiempo, temperatura, longitud, etc., es generalmente una tarea fcil, que
comprende la utilizacin de una escala al menos intervalar. El punto cero y la
igualdad de diferencias son aspectos aparentemente naturales, en las reas donde
ocurren estas mediciones, que estn ms bien relacionadas con las ciencias fsicas que
con ciencias sociales.

En las ciencias sociales, por lo general, se debe recurrir a escalas de medicin
ms bajas en cuanto a la riqueza informativa del dato, pues en el rea del
comportamiento humano, el instrumento ms usado es el de la encuesta, el cual debe
manifestar su percepcin del tema ante la encuesta.

Tal como se ilustra en la Figura 2.2, la dificultad de realizar mediciones
respecto a un fenmeno de estudio, es directamente proporcional con la riqueza
informativa de dato, pues mientras ms difcil es obtener informacin, ms pobre es
la escala de medicin.


Figura 2.2 : Relacin Tipo de escala de medicin con el rea de investigacin.


Error de Medicin

Por lo visto la medicin es tan slo la relacin entre el mundo emprico y un
mundo abstracto, que como hemos podido apreciar, es en realidad un proceso de
medicin, que comienza con la idea de representar un suceso, hecho u objeto a travs
de algn smbolo y termina con la representacin del hecho. Cuando esta relacin
entre el sistema emprico corresponda directamente a las verdaderas reglas del
Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
8
sistema numrico creado, se hablar de una medicin efectiva., sin embargo, es
comn que en todo proceso de medicin, el valor de la medicin obtenida
probablemente discrepar del valor verdadero debido a diversas causas.

El llamado valor verdadero es en realidad un concepto puramente terico y
absolutamente inaccesible en la mayora de los casos. En el proceso de medicin
nicamente pretendemos estimar de forma aproximada el valor del suceso, hecho u
objeto medido. Para ello debemos dar un nmero con sus unidades y una estimacin
del error. Dicho de otra manera el resultado de cualquier medida es siempre incierto y
a lo ms que podemos aspirar es estimarlo razonablemente bien.

Es comn que estos errores se agrupen en subconjuntos, los ms comunes son
los errores sistemticos, los cuales seran debidos a causas que podran ser
controladas o eliminadas. Por ejemplo medidas realizadas con un aparato averiado, o
mal calibrado. La fuente del error podra eliminarse usando un aparato que funcione
correctamente o calibrndolo adecuadamente antes de medir. Sin embargo, tambin
se pueden encontrar errores aleatorios, que son fruto del azar o de causas que no
podemos controlar. Como consecuencia de ello, si repetimos una experiencia cierto
nmero de veces en condiciones reproducibles, es altamente posible que no se
obtenga siempre el mismo valor, sino que un conjunto de valores que seran deseables
modelar. Esta modelacin de valores puede ser analizada por mtodos estadsticos y
permite determinar rangos de valores ms probables y una medida de la
incertidumbre.

Con el fin de controlar efectivamente el error de medicin se deben tener en
cuenta tres aspectos importantes:

1. Una clara especificacin de las necesidades de informacin, con el fin
de reconocer el grado de dificultad en la obtencin de medidas validas.
2. Especificar procedimientos alternativos de medicin en la obtencin de
informacin.
3. Evaluar los costos de la medicin, en contraposicin con la precisin de
la misma


Toda medicin se puede ser representada por la observacin misma del
fenmeno (O
i
), factor compuesto por tres elementos: el primero, el valor real de la
medicin (R
i
); el segundo, el error sistemtico asociado a la medicin (S
i
); y
finalmente, el error aleatorio asociado a la medicin (A
i
). Formalmente, y en una
primera aproximacin, se puede representar una relacin de la forma:

O
i
= R
i
+ S
i
+ A
i
.

La validez de una medida se refiere al grado con el cual el proceso de
medicin se encuentra libre tanto de errores sistemticos como de errores aleatorios.
La fiabilidad es una medida que se relaciona con el grado en el que el proceso de
Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
9
medicin se presenta libre de errores aleatorios. La fiabilidad est relacionada con la
consistencia y la capacidad de prediccin de los resultados obtenidos. La validez est
relacionada con la siguiente pregunta, Se est midiendo lo que pensamos que se est
midiendo?, por lo cual la validez es un concepto mucho ms extenso y difcil, que la
fiabilidad.

Para resumir, una medida debe de ser fiable, para que se le considere vlida y
para que se considere vlida el error sistemtico como aleatorio deben ser lo ms
pequeos posibles. Sin embargo, si una medida no es fiable no puede ser vlida,
mientras que una medida fiable tiene la posibilidad de ser valida. La fiabilidad es una
condicin necesaria pero no suficiente para la validez. Por consiguiente, la validez de
una medida es de gran importancia, ya que trata no solamente del error sistemtico
sino tambin del error aleatorio. La fiabilidad es un concepto ms dbil ya que
solamente trata del error aleatorio.


3. 2 Estad sti ca y Ci enci a

Se dice que los cientficos usan el mtodo cientfico, sin embargo, sera difcil
definir la expresin mtodo cientfico, dado que los cientficos usan cuantos mtodos
o medios puedan concebir, sin desprenderse del objetivo fundamental del mtodo
cientfico que es producir conocimiento cientfico. Ahora bien, para que se produzca
este conocimiento cientfico, se requiere partir de algn tipo de interrogantes que
puedan ser respondidos con fundamentos cientficos. Precisamente, descubrir
respuestas a dichas interrogantes a travs de procedimientos cientficos, es el objetivo
del proceso de investigacin cientfica.

De la gran variedad de procedimientos cientficos, vinculados a distintas
tcnicas de metodologa de investigacin se pueden destacar puntos esenciales en
comn, que son:

1. Revisin de los hechos y teoras propuestas.
2. Formulacin de hiptesis sujetas a pruebas.
3. Evaluacin objetiva de las hiptesis y conclusiones.

Las respuestas a interrogantes relacionadas con el problema a investigar, por
lo general, se hacen mediante una descripcin de; las relaciones, los hechos, los
procesos relacionados del problema. Procedimiento descriptivo, que por siglos se ha
utilizado y que se sigue utilizando para dar explicacin a algn problema o fenmeno,
cuya caracterstica esencial es que el investigador es considerado independiente del
fenmeno que est estudiando, y ste realiza su investigacin a travs de cambios
realizados en el ambiente o entorno del cual el fenmeno en estudio debiera ser
dependiente. Esta postura cientfica clsica, trata la investigacin como una triloga
entre: el observador (investigador) problema de investigacin ambiente.

Esta forma de explicar un problema a investigar (Organismo Observado) de la
investigacin cientfica clsica arraigada por la influencia cartesiana tiende a hacer
Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
10
un anlisis fragmentado de los elementos que componen el problema a investigar y
sobre la base de sta elaborar una explicacin del problema en su globalidad, que en
una gran cantidad de problemas, est muy lejos de una verdadera explicacin. Por
esto, en las ltimas dcadas han surgido nuevas tendencias, especficamente aquellas
que se fundamentan en la Teora General de Sistemas (T.G.S.), como la
Ciberntica, orientada a aspectos de cmo mirar, describir y comprender los
problemas en su globalidad. Ahora se debe proceder en un anlisis, en donde los
observadores del fenmeno (problema a investigar) forman parte del problema a
travs de una investigacin operacional experimental perceptual. Es decir, la
respuesta al fenmeno se realiza a travs de un modo particular e individual de
conocer del observador, y su validez depende de la coherencia operacional en un
dominio especificado. Ambas metodologa son representadas respectivamente en la
Figura 2.3.



Figura 2.3 : Metodologas de investigacin cientficas


La estadstica proporciona una forma de pensar clara y disciplinada,
especialmente cuando se trata de recolectar e interpretar informacin (tcnicas
estadsticas), la estadstica como ciencia, es la actividad organizada en virtud de la
cual se procura, a travs del estudio objetivo, descubrir, dominar y comprender los
fenmenos que ocurren en la naturaleza y la sociedad, siendo un pilar fundamental en
el proceso de investigacin cientfica

La Estadstica, se ocupa de los mtodos y procedimientos para recoger,
clasificar, resumir, hallar regularidades y analizar los datos, siempre y cuando la
variabilidad e incertidumbre sea una causa intrnseca de los mismos; as como de
realizar inferencias a partir de ellos, con la finalidad de ayudar a la toma de
decisiones y en su caso formular predicciones.

Podramos por tanto clasificar la estadstica en descriptiva, cuando las
conclusiones de los resultados del anlisis no pretenden ir ms all del conjunto de
datos, sta describe, analiza y representa un grupo de datos utilizando mtodos de
organizacin de stos, grficos y medidas de desempeo que resumen y presentan la
informacin contenida en ellos.
Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
11
Sin embargo, al catalogar la estadstica como inferencial, es cuando el
objetivo del estudio es derivar las conclusiones obtenidas de un conjunto de datos
resumidos a uno ms amplio, es decir, la inferencia estadsticas: La cual se apoya en
el clculo de probabilidades y a partir de datos mustrales, efecta estimaciones,
decisiones, predicciones u otras generalizaciones sobre un conjunto mayor.


3. 3 Introducci n al Muestreo

El mundo emprico est compuesto por un sin fin de conjuntos de elementos;
tales como: personas, animales, objetos, etc., habitualmente de cantidades
suficientemente grandes, cuyo trabajo de recopilacin y posterior anlisis para
obtener alguna informacin de inters de sta, resulta impracticable en tiempos
reales. Estos conjuntos de elementos son llamados poblacin o poblacin objeto,
que en una investigacin, debe quedar claramente acotada, geogrficamente o en el
tiempo,

Un mecanismo, quizs el ms apropiado para poder obtener informacin, es la
extraccin de un subconjunto de unidades o elementos a la cual realizar el anlisis y
obtener un diagnstico de la poblacin. Este subconjunto de unidades o elementos es
llamado muestra, cuyas principales razones para su uso, es llegar a obtener
estimaciones de las caractersticas de inters de una poblacin en forma ms rpida y
econmica.

Los mtodos o tcnicas de muestreo son un pilar fundamental dentro de los
mtodos estadsticos, pues dependiendo de una buena y adecuada tcnica de
muestreo, se puede determinar hasta dnde abarcan los anlisis y conclusiones que se
realizan como referencia futura de un marco establecido.

Teniendo una muestra de una poblacin, esperamos que sta sea
representativa de esa poblacin, es decir, que todas las caractersticas de la poblacin
que se estn analizando estn reflejadas en la muestra. Mientras mejor se reflejen las
caractersticas de la poblacin en la muestra, mayor es la confiabilidad de cualquier
conclusin que se haga de la poblacin.

En una investigacin se pueden obtener observaciones, bsicamente, desde
dos perspectivas dadas por: Obtencin de observaciones a travs del tiempo
Obtencin de observaciones a travs de un diseo de muestreo. Las tcnicas de
muestreo se preocupan esencialmente de las observaciones procedentes a travs de
un diseo de muestreo. El diseo de muestreo, proporciona los principios
fundamentales para abordar de manera eficiente la seleccin de muestras
representativas de la poblacin bajo estudio y estimaciones de las caractersticas de
inters de la forma ms confiable y al ms bajo costo posible.

El concepto fundamental que se utiliza, es la aleatorizacin de las unidades
muestreadas, que se traduce en que las muestras sean tomadas efectivamente al azar,
y no mediante procedimientos subjetivos. Ver Figura 2.4.
Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
12
La presencia ausencia de aleatorizacin en el diseo de muestreo permite
clasificar los mtodos de muestreo en: Muestras probabilstica, es decir, que sus
elementos de alguna manera capturen las caractersticas esenciales de la poblacin, y
Muestras no probabilsticas, es decir, las conclusiones obtenidas de la muestra slo
representan o capturan las caractersticas esenciales de esos elementos y no de la
poblacin.

Muestreo no Probabilstico: Es el tpico muestreo que se realiza a la
salida de un centro comercial, salida o ingreso del metro, en una
esquina de una calle, etc., en donde los resultados obtenidos slo
representan el pensamiento de los encuestados, pero no el de la
poblacin en estudio.

Muestreo Probabilstico: La aleatorizacin es vital, pues, las
inferencias que se realicen abarcarn al comportamiento de la
poblacin total. Es por ello, que una mala aleatorizacin o el no
cumplimiento de lo establecido por la aleatorizacin, puede llevar a
obtener conclusiones errneas, al considerarse estas muestras como
sesgadas. En este muestreo cada uno de los elementos de la
poblacin de inters, o poblacin objeto, tiene una probabilidad
conocida, y frecuentemente igual, de ser elegido en la muestra. A las
muestras aleatorias se les denomina tambin muestras
probabilsticas o muestras cientficas.



Figura 2.4 Las encuesta de opinin pblica son aleatorias


En el muestreo probabilstico se utilizan bsicamente cinco tcnicas de
muestreo:

1. Muestreo Aleatorio Simple (m.a.s.).
2. Muestreo Aleatorio Sistemtico (m.a.st.).
3. Muestreo Aleatorio Estratificado (m.a.e.).
4. Muestreo Aleatorio por Conglomerado (m.a.c.).
5. Muestreo Aleatorio Multietpico o con Sub-Muestreo (m.a.pe).

Encuesta Opinin Pblica

Est el comercio regional
deprimido?

1. Salida Mall Marina Arauco
2. Calle Valparaso
Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
13
Deberemos aclarar que en ningn caso, los mtodos y tcnicas presentadas,
son rgidas en su aplicacin, sin embargo, queremos entregar una visin globalizada
de lo que debe tenerse en cuenta en una muestra estadstica, que permita conocer y
entender los factores fundamentales que influyen en cada tcnica de muestreo.

La eleccin de una tcnica de muestreo, se basa en el grado de conocimientos
que se tenga del comportamiento de la caracterstica de inters dentro de la poblacin
objeto, el grado de precisin que se desea obtener en los estimadores utilizados,
costos asociados a su aplicacin, etc.,.


3. 3. 1 Ti pos de Muestreos

Muestreo aleatorio simple, tambin llamado muestreo al azar irrestricto, los
elementos se escogen en forma individual y al azar de la totalidad de la poblacin, es
decir, se escogen sin ningn privilegio y cada uno posee la misma probabilidad de
formar parte de la muestra en cada una de las posibles muestras.
A modo de ejemplo: Es recomendado cuando la caracterstica de inters se encuentra
distribuida de forma homognea dentro de los elementos de la poblacin, como se
muestra en la Figura 2.5.


Figura 2.5 Representacin esquemtica del muestreo aleatorio simple.


Las situaciones propicias para aplicacin de este plan de muestreo es cuando: la
lista de elementos de la poblacin est disponible o es de fcil acceso; los
elementos de la poblacin no presentan grandes variaciones entre grupos naturales
que pudiesen formarse en sta. La importancia relativa de los diferentes elementos de
la poblacin tienen el mismo peso a la hora de determinar indicadores de la poblacin
bajo estudio.

La seleccin al azar es similar a la que se realiza en la extraccin aleatoria de
nmeros en una lotera. Sin embargo, en el muestreo estadstico, por lo general se
utiliza un programa computarizado de nmeros aleatorios o un generador de
nmeros aleatorios para identificar los elementos numerados de la poblacin que se
eligen para la muestra.
Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
14
Muestreo aleatorio sistemtico, es un plan de muestreo al azar, en la cual se
eligen los elementos de la poblacin a intervalos uniformes, a partir de un listado
(ordenado), tal como elegir cada k-simo elemento despus de un arranque aleatorio.
A modo de visualizacin esquemtica, suponga una poblacin de N elementos de
los cuales se desea obtener una muestra de n elementos, entonces la cantidad de
intervalos o grupos k, que en que se divide la poblacin, est dada por k = N / n.
Luego del primer grupo de k elementos se escoge un elemento al azar, mientras que
los n 1 elementos faltantes en la muestras, se escogen a intervalos regulares de k
elementos, despus del primer escogido, como se muestra en la Figura 2.6.



1 . r . k 1 . r . k 1 . r . k 1 . r . k
1 k + 1 (g 1)k + 1 (n 1)k + 1
k 2k (g 1)k + k nk = N
1 2 g n

Figura 2.6: Esquematizacin Muestreo Aleatorio Sistemtico


Las razones principales por la que utiliza el muestreo sistemtico, es: su
sencilla aplicacin y supervisin., a prueba de errores y flexible

Este plan de muestreo presenta falencias, que aunque son superables,
presentan molestias en su aplicacin, como por ejemplo, que el tamao de poblacin
N no sea mltiplo de k, que la lista de la poblacin puede tener muchos elementos
blancos o extraos, tambin puede presentar errores sistemticos, producto que el
azar slo se encuentra en la seleccin de la primera muestra y puede existir un factor
peridico o cclico en la lista de la poblacin que pudiera conducir a un error
sistemtico en los resultados mustrales,etc.


Muestreo aleatorio estratificado, la caracterstica que se est midiendo en la
poblacin objetivo, presenta mucha dispersin en grupos identificados de la sta, por
los tanto, lo primero que se debe hacer es estratificar los elementos de la poblacin en
subgrupos separados y excluyentes de acuerdo al comportamiento que presenta la
caracterstica dentro de estos grupos. Esquemticamente, esta situacin se refleja en
la Figura 2.7, donde la caracterstica a medir se presenta notoriamente distinta lo cual
es reflejado por la densidad y colores de la figura.

Posterior a la clasificacin de los elemento de la poblacin en grupos, se
obtiene por separado una muestra aleatoria simple o sistemtica de cada estrato.
Puede utilizarse este tipo de muestreo para asegurar una representacin proporcional
de diversos subgrupos en la muestra,. Por lo general el tamao de la muestra que se
requiere para lograr determinado nivel de precisin en el muestreo estratificado es
menor que con muestreo aleatorio simple, con la consiguiente reduccin en los costos
del muestreo.
Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
15
Hablar de muestreo estratificado, en trminos generales, se puede decir que
consiste en la realizacin de las siguientes etapas:

1. Identificacin de los estratos excluyentes dentro de la poblacin objeto.
2. Dividir los elementos de la poblacin en las subpoblaciones distintas que
llamamos estratos.
3. Dentro de cada estrato se selecciona una muestra separada a partir de
todas las unidades distintas que componen ese estrato.


Figura 2.7 Representacin esquemtica del muestreo aleatorio estratificado.


Se pueden establecer, al menos tres razones, por las cuales se recomienda la
estratificacin de una poblacin, estas son:

1. Para disminuir la variabilidad de la caracterstica a medir en la muestra.
El tamao de la muestra en cada estrato es idealmente proporcional al
tamao de la poblacin del estrato. La variabilidad disminuye segn el
grado que difieran las medias de cada estrato y de la homogeneidad que
exista en cada estrato. En caso de utilizar un tamao de muestra distinto
a la proporcin de la poblacin en cada estrato, esto se debe a que
existen otros intereses que estn influyendo en la determinacin del
tamao de la muestra (como por ejemplo; costos).

2. Para utilizar distintos mtodos o procedimientos dentro de cada estrato.
Se debe abandonar la simplicidad de algunos procedimientos debido a
las caractersticas particulares de la poblacin, estas caractersticas
pueden ser: la distribucin fsica de las subpoblaciones es totalmente
diferente; puede haber diferencias entre las listas disponibles, o
preferidas para diversas partes de la poblacin, etc.

3. Porque las subpoblaciones se definen como dominios de estudio en si
mismo Se llama dominio a cualquier subdivisin acerca de la cual se
planea un estudio para proporcionar informacin numrica de precisin
conocida de esta subpobalcin.
Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
16
Muestreo aleatorio por conglomerados, es un muestreo aleatorio en el cual la
unidad de muestreo, que es la unidad de seleccin, contiene ms de un elemento de la
poblacin, por lo tanto la unidad de muestreo es un grupo de elementos tambin
llamados conglomerados. En este caso cada elemento de la poblacin debe estar
identificado unvocamente con una, y slo una, unidad de muestreo.

En la aplicacin de este tipo de muestreo, lo habitual es que los elementos de
la poblacin se agrupan en forma natural en subgrupos de tal manera que forman una
masa que es difcil descomponer no se puede acceder directamente a ellos. As, se
eligen al azar en primer lugar los conglomerados, y luego los elementos dentro de
ste. Una manera de esquematizar este plan de muestreo, se muestra en la Figura 2.8,
donde se pueden observar que existen conjuntos de elementos, difciles de separar.


Figura 2.8 Representacin esquemtica del muestreo aleatorio por conglomerados.


Lo que constituye un conglomerado como aceptable es asunto que depende de
las condiciones prcticas, que a su vez depende del instrumento de medicin de la
caracterstica en estudio, su configuracin fsica en el dominio de estudio y de los
recursos disponibles.

El nmero de elementos asociados a un conglomerado se llama tamao del
conglomerado. Los conglomerados pueden ser de igual tamao, que suelen ser por lo
general producto de condiciones planeadas, que se dan por ejemplo, en procesos
manufactura, paquetes, cajas de exportacin o importacin, etc. Sin embargo, en su
mayora de las poblaciones, lo ms comn es trabajar con conglomerados de tamao
desigual; por ejemplo si se desea medir la cantidad de elementos en reas, lo comn
que en reas de igual o distinto tamao, existan distinto nmero de elementos.

An en los diseos que empiezan con conglomerados de igual tamao, a
menudo terminan en una muestra real de conglomerados que son desiguales, debido
a: marcos mustrales imperfectos, elementos no encontrados y el uso de subclases
para anlisis.

La seleccin de conglomerados en primer lugar y de elementos dentro de stos
Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
17
a continuacin, requiere de dos etapas de seleccin, aunque puede extenderse
rpidamente a ms etapas, es conocido como muestrea aleatorio polietpico, que
consiste en una jerarqua de diferentes tipo de unidades; cada unidad de primera etapa
se divide, o es potencialmente divisible, en unidades de segunda etapa, etc. Las
unidades de muestreo de la primera etapa se llaman unidades de muestreos primarias,
mientras que en las etapas siguientes se llaman de segunda, tercera, etc. Etapa.

Generalmente, el submuestreo se utiliza para dividir conglomerados en
unidades menores, que sin lugar a dudas, se solucionara al utilizar y seleccionar
unidades finales, las de la ltima etapa, como unidades primarias, y aplicar
directamente un muestreo en una sola etapa, sin embargo, los principales
inconvenientes que presenta esta alternativa son: los conglomerados pueden existir
naturalmente como, unidades convenientes de muestreo, sin embargo ser mayores
que el tamao econmico deseado para su anlisis; no evita el costo de formacin de
conglomerados menores en la poblacin completa; aumente generalmente, el efecto
de la asociacin que pueda existir entre los conglomerados suele ser menor los grupos
de mayor tamao.






























Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
18
4. SEGUNDO MDULO


4.1 Resumen de Datos

En estadstica descriptiva, a partir de un conjunto de datos, se busca encontrar
resumes sencillos, que permitan visualizar las caractersticas esenciales de stos. En
una experiencia, un dato por si slo, es informativo del resultado de un ensayo en
particular, pero para obtener un patrn de esta experiencia, es necesario contar con un
conjunto de datos, que por s solos no entregan informacin, de ah la necesidad de
encontrar resmenes apropiados que muestren, de existir, patrones en los datos.

En el resumen de datos se siguen dos enfoques: el primero, ms orientado al
anlisis exploratorio de datos, con un conjunto de tcnicas encaminadas a la
visualizacin de los datos mediante tablas o grficos que permitan realizar un
diagnstico de ellos; el segundo desarrolla un conjunto de indicadores descriptivos de
diversas caractersticas importantes de los datos, cuyo fin es complementar el
diagnstico de stos.


4. 2 Organi zaci n de Datos

La organizacin de datos trata de acomodar stos, para que puedan revelar sus
caractersticas informativas fundamentales y de esta manera simplificar los anlisis
para la obtencin de conclusiones. Los datos no organizados tambin se denominan
datos no agrupados, del mismo modo, los datos ya organizados son llamados datos
agrupados.

Una manera de acomodar los datos es construir un arreglo ordenado; esto es,
organizando los datos con un orden natural- cuando la escala de medicin lo permite.

Si el nmero de datos es grande, el arreglo puede ser difcil de manejar y poco
til en cuanto a la informacin que pueda entregar; por eso a menudo se utilizan
tablas de frecuencia como una primera aproximacin general a la organizacin de
datos.

El uso de frecuencia es ms natural en datos cualitativos o discretos, pues en
estos casos es sencillo contar el nmero de veces que aparece un mismo dato en la
poblacin (muestra) de stos, en este caso se habla de tablas de frecuencia no
agrupadas. Sin embargo, cuando se trabaja con datos cuantitativos en escala
continua, es muy posible que exista un conjunto de nmeros distintos lo
suficientemente grande, como para hacer impracticable lo anterior, en este ltimo
caso se procede a crear agrupaciones convenientes para los datos observados, este
caso se habla de tablas de frecuencia agrupadas.


Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
19
4. 2. 1 Tabl as de Frecuenci a

En las tablas de frecuencias cada categora tiene una frecuencia observada,
este clculo es siempre posible en datos cualitativos, sin embargo, si la cantidad de
categoras distintas es grande, deja de ser un resumen adecuado para los datos.

Las respuestas observadas en la poblacin (muestra), se denominaran clases,
las cuales se simbolizan por: C
1
, C
2
,..., C
k
, donde k es la cantidad de categoras
(respuestas) distintas. En la construccin de tablas se utilizan las clases junto con dos
frecuencias asociadas a stas, estas son:

Frecuencia Absoluta: Se llama frecuencia absoluta de la clase C
i
, al nmero de
elementos en la poblacin (muestra) que pertenecen a la clase C
i
. Este nmero lo
denotaremos por n
i
y cumplen la propiedad:

n n
i
i

k
1
=

=


Frecuencia Relativa: Se llama frecuencia relativa de la clase C
i
, a la cantidad de
elementos en la poblacin (muestra) que pertenecen a la clase C
i
, relativo al total de
elementos en la poblacin (muestra).Este nmero lo denotaremos por f
i
y cumplen la
propiedad:
1.0
k
1
k
1
= = =

= = i
i
i
i
i
i
n
n
f
n
n
f

APLICACIN 4.1 Suponga el caso que es de inters determinar la frecuencia de las
facturas que llegan a la empresa producto de trabajos realizado por los contratistas de
obras menores, donde los datos son:

Emis Ltda. Baker & Jones Smith y CIA. Emis Ltda.
Emis Ltda. Baker & Jones Baker & Jones Smith y CIA.
Brown e Hijos Emis Ltda. Smith y CIA. Baker & Jones
Emis Ltda. Baker & Jones Smith y CIA. Brown e Hijos
Baker & Jones Smith y CIA. Brown e Hijos Baker & Jones
Baker & Jones Emis Ltda. Baker & Jones Emis Ltda.
Smith y CIA. Emis Ltda. Baker & Jones Emis Ltda.
Brown e Hijos Emis Ltda. Emis Ltda. Emis Ltda.

Tabla 4.1 Frecuencias de facturas entregadas por empresas contratistas
Empresa Frecuencias Absoluta Frecuencias Relativa
Baker & Jones 10 31,25%
Brown e Hijos 4 12,50%
Emis Ltda. 12 37,50%
Smith y CIA. 6 18,75%
Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
20
Estas dos frecuencias asociadas a la organizacin (resumen) de datos son
comunes e independientes de la escala de medicin , es lo mnimo que una tabla de
frecuencia puede tener, sin embargo, cuando se trabaja con datos en escala al menos
ordinal, se pueden agregar otras frecuencias adicionales, a saber:

Frecuencia Absoluta Acumulada: Se llama frecuencia absoluta acumulada hasta la
clase C
i
, al nmero total de elementos en la poblacin (muestra) que pertenecen a las
clases C
1
, C
2
,..., C
i
. Este nmero lo denotaremos por N
i
y cumplen la propiedad:

N
i
= n
1
+ n
2
+... + n
i
=

=
i
j
j
n
1
, j = 1, 2,..., i, i = 1, 2,..., k

N
k
= n
1
+ n
2
+... + n
i
+... + n
k
= n

Frecuencia Relativa Acumulada: Se llama frecuencia relativa acumulada hasta la
clase C
i
, a la cantidad de elementos en la poblacin (muestra) que pertenecen a las
clases C
1
, C
2
, ... , C
i
, con respecto al total de elementos en la poblacin (muestra).
Este nmero lo denotaremos por F
i
y cumplen la propiedad:

F
i
= f
1
+ f
2
+... + f
i
=

=
i
j
j
f
1
, j = 1, 2,..., i, i = 1, 2,..., k

F
k
= f
1
+ f
2
+ ... + f
i
+ ... + f
k
= 1.0

APLICACIN 4.2 En un conjunto de clientes, el inters es determinar la
clasificacin de stos segn su cumplimiento en el pago. Estos son clasificados
como: Malos (M), Regulares (R), Buenos (B) y excelentes (E). Los datos son :

B R B E E E M B E R
R M M R R M R B B B
B B E B B B E B E R
E M B B E B B B B B
M R M B B B B E M R

Tabla 4.2 Clasificacin de clientes por su cumplimiento en el pago.

Frecuencias Frecuencias Acumuladas
Clasificacin Absoluta Relativa Absoluta Relativa
Malo 8 16% 8 16%
Regular 9 18% 17 34%
Buenos 23 46% 40 80%
Excelentes 10 20% 50 100%
Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
21
Las aplicaciones anteriores estn orientadas a la organizacin de variables
cualitativas, en una primera aplicacin en datos nominales, y en un segundo caso, a
datos en escala ordinal. Sin embargo, estos mismos conceptos pueden ser aplicados a
variables discretas, siempre que en nmero de datos tomando distintos valores no sea
excesivamente grande.

APLICACIN 4.3 Suponga que en un conjunto de clientes, el inters es determinar el
nmero de veces que stos se han atrasado en el pago de su cuenta. Los datos son los
siguientes:

0 0 2 4 4 7 0 1 4 0 0 0 0 0 0
0 0 0 2 0 0 0 4 1 1 0 7 3 8 0
7 0 3 3 7 1 0 3 0 3 0 0 0 0 1
2 0 8 0 0 0 4 0 0 3 2 3 3 0 0


Tabla 4.3 Nmero de veces que un cliente se ha atrasado en el pago de su cuenta.

Nmero de Frecuencias Frecuencias Acumuladas
Atrasos Absoluta Relativa Absoluta Relativa
0 32 53,4% 32 53,4%
1 5 8,3% 37 61,7%
2 4 6,7% 41 68,4%
3 8 13,3% 49 81,7%
4 5 8,3% 54 90,0%
5 0 0,0% 54 90,0%
6 0 0,0% 54 90,0%
7 4 6,7% 58 96,7%
8 2 3,3% 60 100,0%


En variables continuas, la organizacin de datos es un poco ms compleja, se
dividen los datos en k grupos o segmentos disjuntos, como se muestra Figura 4.1.
Estos grupos representan las clases y se determina la frecuencia de datos asociado a
cada grupo, conformando una tabla de frecuencia agrupada.


Figura 4.1 Segmentacin en grupos de datos continuos.
Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
22
En este tipo de datos las clases estn compuestas por intervalos, luego es
necesario buscar un representante de la frecuencia asociada a este intervalo, el cual se
conoce como marca de clase. Es comn utilizar como marca de clase al valor medio
del segmento (intervalo).

Construccin de la Tabla de Frecuencia

En la construccin de una tabla de frecuencia, lo primero que se tiene que
tener claro es la cantidad de segmentos (intervalos) a considerar. Lo ms comn es
utilizar como una primera aproximacin la regla de Sturges.

Regla de Sturges: El nmero de clases k = 3,3 log(n) + 1 , donde n es la cantidad de
datos que se desea organizar. Nosotros recomendamos utilizar un nmero impar de
clases, por consideraciones que se explicarn ms adelante.

Amplitud: Para determinar a, la amplitud de las clases, se debe calcular el rango
(R
D
), que es la diferencia entre el dato mayor (mx. {x
i
}) y el menor (min. {x
i
}).
Tambin es necesario determinar u, la unidad mnima de conteo de los datos. La
amplitud est dada por:

R
D
+ u
Amplitud (a) =
k


Rango de la Tabla: Una vez determinada la amplitud a, la cual se recomienda con un
decimal ms que los datos originales, se procede a determinar el rango de la tabla
(R
T
), que es la multiplicacin entre la cantidad de clases que se estn utilizando y la
amplitud. La inclusin de u en el clculo de a, puede que no garantice que el R
T
sea
mayor que el R
D
, es por esta razn que se recomienda utilizar una aproximacin
conveniente en a.

Para la determinacin de los lmites tericos de las clases, se comienza con el
lmite Inferior de la primera clase, LI
1
, el cual se calcula como:

D
LI
1
= Mnimo {x
i
}
2

donde la diferencia, D= R
T
- R
D
, en el caso que el ltimo digito de D no sea par, sea
realiza un ajuste conveniente.


Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
23
Posteriormente, se suma la amplitud a LI
1
obtenindose el lmite superior de
esta clase, LS
1
, el que tambin ser el lmite inferior de la segunda clase, LI
2
= LS
1.

LS
1
se considera abierto para su clase y cerrado para la segunda clase. Los siguientes
lmites se obtienen sumando la amplitud hasta completar las k clases a utilizar. La
tabla de frecuencia genrica resultante queda:

Tabla 4.4 Tabla de frecuencia genrica.

Frecuencias Frecuencia Acumulada
Clases Absoluta Relativa Absoluta Relativa
| LI
1
LS
1
| n
1
f
1
N
1
F
1

| LI
2
LS
2
| n
2
f
2
N
2
F
2

| LI
3
LS
3
| n
3
f
3
N
3
F
3

.

| LI
k
LS
k
| n
k
f
k
N
k
F
k



APLICACIN 4.4 Suponga que los datos representan tiempos de espera (en
segundos) para la lnea telefnica de atencin al cliente.

Tiempos (Segundos)
47 43 33 52 70 24 55 48 52 52 49 47
34 48 42 57 65 45 48 63 54 54 46 55
55 65 36 47 66 51 39 11 44 44 45 44
53 45 44 43 56 59 56 54 23 23 32 49
55 49 57 57 55 46 42 52 56 56 42 53
61 46 53 57 54 49 49 45 36 36 47 52
25 66 44 54 52 41 54 54 57 57 45 46
42 54 70 41 49 51 44 52 58 58 44
55 70 34 68 29 36 52 32 45 45 52
52 57 41 39 42 37 43 35 38 57 69


N de Clases (k): 1 + 3,322
x
log (n) = 1 + 3,322
x
log (117)
8 (Impar cercano 7)

Rango de la Muestra: R
M=
Mximo {x
i
}Mnimo {x
i
} = 7011 = 59

R
M
+ 1 59 + 1
Amplitud: a =
7
=
7
8,6

Rango de la Tabla : R
T
: k
x
a = 7
x
8.6 = 60.2

Diferencia : D = R
T
R
M
= 60.2 59 = 1.2
Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
24
Lmite Inferior y Superior de la primera clase:

D
LI
1
= Mnimo {x
i
}
2
= 11 0,6 = 10,4

LS
1
= LI
1
+ a = 10,4 + 8,6 = 19,0

Tabla 4.5 Tiempo de espera antes de ser atendido.

Frecuencia Frecuencia Acumulada
Tiempos (seg.)
Marca
de Clase
Absoluta Relativa Absoluta Relativa
| 10,4 19,0 | 14,7 1 0,85% 1 0,85%
| 19,0 27,6 | 23,3 4 3,42% 5 4,27%
| 27,6 36,2 | 31,9 11 9,40% 16 13,67%
| 36,2 44,8 | 40,5 22 18,80% 38 32,47%
| 44,8 53,4 | 49,1 39 33,33% 77 65,80%
| 53,4 62,0 | 57,7 30 25,64% 107 91,44%
| 62,0 70,6 | 66,3 10 8,56% 117 100,00%


4. 2. 2 Di agramas de Tallo y Hoja

El uso de tablas de frecuencias agrupadas tiene una desventaja bastante obvia,
los datos originales se pierden en el proceso de organizacin. La Figura 4.2 muestra
algunas situaciones que pueden darse:


Figura 4.2 Representacin de la distribucin de los datos en rangos de intervalos.

Otra forma de presentar tablas de frecuencias agrupadas, es la utilizacin de
un diagrama de Tallo y Hoja, que ofrece una forma sencilla de exhibir los datos, sin
que en stos se pierda la nocin de distancia.

En el diagrama de tallo y hoja, el tallo -la primera parte de nmero-, es el que
presenta menor variacin, mientras que la hoja, esta formado los dgitos restantes. A
modo de ejemplo, supongamos el dato es 548, entonces se puede descomponer en un
tallo y una hoja de las siguiente manera:

5 48 54 8


tallo hoja tallo hoja
Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
25
La utilizacin de diagramas de tallo y hoja es de gran utilidad cuando se
cuenta con un nmero pequeo de datos, digamos menos de 30, pues la construccin
de un histograma de frecuencia en este caso es de poca ayuda.


APLICACIN 4.5 Los datos observados representan la proporcin de reclamos, por
pagos incorrectos, en las cuentas del consumo mensual de electricidad, en los dos
ltimos aos:

7,12 7,89 10,12 8,88 10,02 9,91 9,95 9,90
10,23 9,12 9,99 12,40 8,65 10,05 10,50 9,87
8,54 9,72 11,09 11,52 12,30 11,53 16,40 13,24


Los datos se mueven entre 7,12 a 16,40. En esta aplicacin se usa como tallo
7, 8, ... 16, y el diagrama resultante es:


Tallo Hoja

7 12 89

8 54 65 88

9 12 72 87 90 91 95 99

10 02 05 12 23 50

11 09 52 53

12 03 40

13 24

14

15

16 40


Otra forma de representar los datos, destaca su carcter decimal y omite los
tallos de frecuencia cero que se encuentren cercanos a los extremos, mostrando la
discontinuidad que se ha creado, como se muestra en la figura siguiente.


Tallo Hoja

7, 12 89

8, 54 65 88

9, 12 72 87 90 91 95 99

10, 02 05 12 23 50

11, 09 52 53

12, 03 40

13, 24

=== =========

16, 40


Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
26
Ciertas caractersticas relevantes de los datos pueden volverse ms evidentes,
si cada tallo puede dividirse en dos o ms tallos, llamado subtallos que contienen en
su conjunto el mismo nmero de valores correspondientes a su hoja. El diagrama de
tallo, donde el tallo se ha divido en: dos, tres, etc., es conocido como diagrama de
tallo y hoja de; doble, triple, etc. tallo.

En el caso anterior, si se realiza un diagrama de doble tallo y hoja, donde el
tallo se diferencia por a, cuando la parte decimal es menor a 50, y b, cuando la
parte decimal es mayor o igual que 50, el diagrama resultante es:


Tallo Hoja

7,a 12

7,b 89

8,a

8,b 54 65 88

9,a 12

9,b 72 87 90 91 95 99

10,a 02 05 12 23

10,b 50

11,a 09

11,b 52 53

12,a 03 40

12,b

13,a 24

=== =========

16,a 40


Una utilidad adicional de los diagramas de tallo y hoja es que permite
comparar, cuando tiene sentido hacerlo, como en el caso de la aplicacin anterior si
deseamos comparar entre los dos aos, como se muestra en el diagrama:

Hoja (Ao 1) Tallo Hoja (Ao 2)
89 12 7
88 8 65 54
99 12 90 95 91 9 87 72
23 02 12 10 05 50
11 09 52 53
40 12 30
13 24

16 40



Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
27
4. 2. 3 Grfi cos

Un grfico es otra forma de representar y resumir datos, en el grfico se
pueden se hacer evidentes ciertas caractersticas que en una tabla de frecuencias
pueden pasar inadvertidas.

La representacin grfica de los datos ha logrado un uso creciente en los
medios de comunicacin y eso se debe en gran parte, a la popularidad y uso de
software con amplias representaciones grficas. Hay disponibilidad de grficas de
muchos tipos, desde aquellas para datos agrupados en tablas de frecuencias hasta
datos no agrupados, donde su uso depende en gran medida del tipo de escala
empleada. En adelante se ilustran distintos tipos de grficos comnmente utilizados.

Grficos de barras y la grfica de pastel (circular), son los grficos ms
comunes y sencillos, usualmente utilizados en datos categricos. Cuando los datos se
presentan en escala nominal, la secuencia en que se presentan las clases es totalmente
arbitraria, sin embargo, cuando los datos se presentan en escala ordinal, las clases
deben mantener el orden de la escala. A continuacin se presentan dos aplicaciones
que exponen una serie de grficos y variaciones de estos.


APLICACIN 4.6 La tabla muestra la proporcin de clientes asociados sector de
ubicacin. .

Tabla 4.6 Sector de ubicacin del cliente.

Sector 1 2 3 4 5 6
Proporcin(%) 10% 15% 40% 20% 10% 5%


Figura 4.3: Grficas de barra asociada de ubicacin del cliente.


Las grficas de barras anteriores son dos variantes, la primera (de
izquierda a derecha), es un grfico de barra habitual donde se sigue la secuencia del
Sector de Cliente
10%
15%
40%
20%
10%
5%
1 2 3 4 5 6
Sector
P
o
r
c
e
n
t
a
j
e
Sector de Cliente
40%
20%
15%
10%
10%
5%
3
4
2
1
5
6
S
e
c
t
o
r
Porcentaje
Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
28
sector, en la segunda forma, ahora escrito en el eje de las abscisas, se escriben los
sectores de acuerdo a su importancia relativa.

Los grficos circulares, son otra opcin para los datos anteriores, En estos
grficos, el ms comn es el primero (de izquierda a derecha), por su sencillez y fcil
interpretacin, sin embargo en los ltimos tiempos, particularmente en peridicos de
economa y negocios se ha popularizado el segundo, por su atractivo visual, posee la
desventaja que en la tercera dimensin, sobredimensiona los sectores frontales y
subdimensiona los sectores del fondo de la grfica.


Figura 4.4: Grficas circulares asociadas al sector del cliente



APLICACIN 4.7 Suponga que estamos interesados en el grado de satisfaccin de
los clientes con respecto a los servicios adicionales que presta la empresa. En este
caso a una muestra de 77 clientes se pide que califiquen el grado de satisfaccin
como: Insatisfecho (I), Indiferente (II), Normal (N), Satisfecho con reparos (SR) y
Totalmente Satisfecho (TS). Los datos son:

Tabla 4.7 Grado de satisfaccin por servicios adicionales de la empresa.

Frecuencia
Grado Absoluta Absoluta Acumulada
Insatisfecho (I) 19 19
Indiferente (II) 21 40
Normal (N) 33 73
Satisfecho con Reparos (SR) 2 75
Totalmente Satisfecho (STS) 4 77


En la Figura 4.5, se muestran dos grficas asociadas, con la particularidad que
la variable cualitativa bajo estudio est en escala ordinal, razn por la cul, existe un
Sector de Cliente
5%
10%
14%
19%
24%
28%
1
2
3
4
5
6
Sector de Cliente
5%
19%
24%
28%
14%
10%
1 2 3 4 5 6
Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
29
orden en la distribucin del grado de satisfaccin.


Figura 4.5: Grficas circulares asociadas al sector del cliente.

En la representacin grfica de la tabla de frecuencia de datos cuantitativos
(continuos), existen cuatro grficos habituales El primero, los constituye el
histograma de frecuencia junto con el polgono de frecuencia, el segundo, lo


Figura 4.6: Histograma de frecuencia y polgono de frecuencia para los tiempos de espera.


constituye grfica de frecuencias acumuladas junto con la ojiva. Se muestra a
continuacin estas graficas para los datos de tiempos de espera (Tabla 4.5).

La ltima representacin grfica es utilizada en particular cuando la variable
bajo estudio se ha medido en el tiempo (datos longitudinales). Est grfica, llamada
diagrama de dispersin, es de gran utilidad en series de tiempo y control estadstico
de la calidad, tiene la particularidad que puede mostrar tendencias de los datos en el
Grado de Satisfaccin
19
21
33
2
4
0 10 20 30 40
I
II
N
SR
TS
Frecuencia
Grado de Satisfaccin
24%
27%
41%
3%
5%
I
II
N
SR
TS
Histograma de Frecuencia
0
10
20
30
40
50
10,4 -19,0 19,0 - 27,6 27,6 - 36,2 36,2 - 44,8 44,8 - 53,4 53,4 - 62,0 62,0 - 70,6
Tiempos [seg.]
F
r
e
c
u
e
n
c
i
a
Polgono de Frecuencia
Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
30

Figura 4.7: Grfica de frecuencia acumulada y ojiva para los tiempos de espera antes de su
atencin.


tiempo. Consideremos los datos de la aplicacin 4.5, pero adems agreguemos el
tiempo como referencia.

Ao
Mes 1 2
Enero 7,12 8,65
Febrero 7,89 10,05
Marzo 10,12 10,5
Abril 8,88 9,87
Mayo 10,02 8,54
Junio 9,91 9,72
Julio 9,95 11,09
Agosto 9,9 11,52
Septiembre 10,23 12,3
Octubre 9,12 11,53
Noviembre 9,99 16,4
Diciembre 12,4 13,24


4.3 Medidas de Desempeo

Los indicadores de desempeo han adquirido gran importancia a partir del
establecimiento de la filosofa de gestin, calidad total y la aplicacin de normas
nacionales o internacionales. Son herramientas para la evaluacin de la gestin, que
proveen valores de referencia con el cual se puedan comparar o proponer metas.

Las medidas de desempeo son otro medio con el cual se resumen los datos,
ya que a travs de ellos se establece una medida resumen de alguna particularidad en
los datos. Estos indicadores se dividen en tres tipos: medidas de posicin, resumen de
F re c ue nc ia Ac umula d a
0
20
40
60
80
100
120
10,4 -19,0 19,0 - 27,6 27,6 - 36,2 36,2 - 44,8 44,8 - 53,4 53,4 - 62,0 62,0 - 70,6
Ti e mpos [s e g .]
F
r
e
c
u
e
n
c
i
a
Ojiva

Diagrama de Dispersin
6
8
10
12
14
16
18
Tiempo
P
o
r
c
e
n
t
a
j
e

d
e

R
e
c
l
a
m
o
s


Figura 4.8: Diagrama de Dispersin Porcentaje de
reclamos el tiempo.
Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
31
los datos que representa un lugar definido importante dentro de ellos; medidas de
variabilidad o riesgo, que como se podr apreciar son muy importantes ;y medidas de
forma, que tienen una importante relacin con un grupo de medidas de posicin.


4.3.1 Medidas de Posicin

Una medida de posicin es un valor simple que se calcula para un grupo de
datos y que se utiliza como una manera de resumir a estos un valor dentro del rango
de los datos. Normalmente se desea que el valor sea representativo de todos los
valores incluidos en el grupo, estos valores pueden estar relacionados con posiciones
de particular inters como los extremos, los cuales se asocian a cuantiles, o valores
del centro, llamados de tendencia central.

La Media Aritmtica: La media aritmtica, o promedio, se define como el cociente
de la suma de todos los valores entre el nmero total de valores. En estadstica, un
"promedio es una medida de Tendencia central para un conjunto de datos.

En estadstica es normal representar una medida descriptiva de una poblacin,
(o parmetro poblacional), mediante letras griegas, en tanto que se utilizan letras
romanas para las medidas descriptivas de estadsticas muestrales. As, la media
aritmtica para una poblacin de valores se presenta mediante el smbolo , en tanto
que la media aritmtica de una muestra se representa mediante el smbolo X. Las
expresiones para el clculo de la media de una poblacin y de una muestra son:

N
X
N
1

=
=
i
i

n
n
i
i

=
=
1
X
X


APLICACIN 4.8: Los pagos de consumo, en una muestra de 15 cuentas en un
restaurante, fueron: $1000, 1000, 2500, 2500, 2500, 3500, 4000, 5300, 9000,12500,
13500, 24500, 27500, 30900, y 41000.

El promedio muestral es:
15
X
X
15
1

=
=
i
i
= $ 12.080.

Cuando se agrupan datos en una distribucin de frecuencias, se utiliza el
punto medio de cada clase como aproximacin de todos los valores contenidos en
ella. El punto medio o marca de clase se representa con el smbolo m
i
, en donde el
subndice i indica la "clase i", y se utiliza la letra n
i
para representar la frecuencia
absoluta observada en la clase respectiva.
Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
32
Las frmulas para la media de la poblacin y de la muestra para datos
agrupados son:

=
=
k
i
i i
N
m n
1

=
=
k
i
i i
n
m n
1
X


APLICACIN 4.9: Considerando los datos del tiempo de espera (en segundos) antes
de ser atendido se tiene:

Frecuencia
Tiempos (seg.) Marca de Clase Absoluta Relativa
| 10,4 19,0 | 14,7 1 0,85%
| 19,0 27,6 | 23,3 4 3,42%
| 27,6 36,2 | 31,9 11 9,40%
| 36,2 44,8 | 40,5 22 18,80%
| 44,8 53,4 | 49,1 39 33,33%
| 53,4 62,0 | 57,7 30 25,64%
| 62,0 70,6 | 66,3 10 8,56%

=
=
k
i
i i
n
m n
1
X
14, 7 1 23, 3 4 . . . 66, 3 10
117
+ + +
= = 48,4 [segundos]

La gran desventaja de este indicador es su gran sensibilidad a la presencia de
datos extremos. Un dato extremo se manifiesta inmediatamente en el promedio,
poniendo en duda el ser un valor representativo del centro de los datos.

La Mediana: La mediana de un conjunto de datos es el valor que ocupa el lugar
central de estos cuando se ordenan en orden de magnitud. Para conjunto de datos, con
un nmero par de elementos, la mediana se calcula como el promedio de los valores
centrales.

En el caso de estar trabajando con datos dispersos, la expresin para determinar
la posicin de la mediana en el conjunto (ordenado) es:

Me =
( ) ( )

+
|
.
|

\
| +
+ par es si
impar es si
) X (X
2
1
X
1
2 2

2
1
n
n
n n
n


En las expresiones anteriores, X, representa el valor de dato, mientras que el
parntesis en el subndice, muestra el lugar que ocupa la mediana dentro del conjunto
Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
33
de datos ordenados.

APLICACIN 4.10: Considerando los pagos de consumo, en una muestra de 15
cuentas en un restaurante: $1000, 1000, 2500, 2500, 2500, 3500, 4000, 5300,
9000,12500, 13500, 24500, 27500, 30900, y 41000.

Me =
|
.
|

\
| +
2
1
X
n
=
|
.
|

\
| +
2
1 15
X = $ 5.300


Para datos agrupados, en primer lugar es necesario determinar la clase que
contiene el valor de la mediana, para despus determinar la posicin de la mediana
dentro de la clase mediante interpolacin. La clase que contiene la mediana es la
primera clase cuya frecuencia acumulada es mayor o igual a la mitad de los datos.
Una vez que se identifica esta clase, se determina el valor interpolado de la mediana,
empleando la siguiente expresin:

1
2
M L
i
i i
i
n
N
e a
n

| |

|
= +
|
|
\ .


L
i
= Lmite inferior de la clase que contiene la mediana.
n = nmero total de observaciones en la distribucin de frecuencias.
a
i
= Amplitud de clase.
N
i - 1
= La frecuencia acumulada anterior a la clase que contiene la mediana.
n
i
= Nmero de observaciones en la clase que contiene la mediana.


Los fundamentos de esta expresin estn en la ojiva y la interpolacin lineal.

APLICACIN 4.11: Para los datos agrupados de la Tabla 4.5, la mediana del tiempo
de espera (en segundos) antes de ser atendido es:

Frecuencia
Tiempos (seg.)
Marca de
Clase Absoluta Acumulada

| 10.4 19.0 | 14.7 1 1
.
.
.

.
.
.

.
.
.

.
.
.


| 44.8 53.4 | 49.1 39 77 Clase Mediana
.
.
.

.
.
.

.
.
.

.
.
.



117
38
2
M 44,8 8,6
39
e
| |

|
= + =
|
|
\ .
49,3 [segundos]
Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
34
La mediana es otra medida de tendencia central, este indicador no es afectado
por datos extremos (indicador robusto).


La Moda: Medida de tendencia central, que est dada por el valor o clase que se
presenta con mayor frecuencia. A una distribucin que tiene una sola moda se le
denomina unimodal.

Cuando dos valores no adyacentes tienen frecuencias mximas similares, se
dice que la distribucin es bimodal.

Para datos agrupados, primero se identifica la clase que contiene la moda,
determinando la clase que tiene el mayor nmero de observaciones (clase modal).
Algunos autores consideran que la moda es el punto medio de la clase modal (marca
de clase), otros, interpolan dentro de la clase modal, de acuerdo con la siguiente
expresin:

i
2 1
1
i
a
d d
d
L Mo
|
|
.
|

\
|
+
+ = , donde
2 1
1
d d
d
+
es un factor de ponderacin.

L
i
= Lmite inferior de la clase que contiene la moda.
d
1
= Diferencia entre la frecuencia de la clase modal y la frecuencia de la clase
que le precede.
d
2
= Diferencia entre la frecuencia de la clase modal y la frecuencia de la clase
que le sigue.
a
i
= Amplitud del intervalo de clase.

La deduccin de la expresin es clara con la ayuda de la Figura 4.9. Como se
puede apreciar en esta figura d
2
es menor que d
1
, por esta razn el factor de
ponderacin es mayor que 0.5, que multiplicado por la amplitud permite que la moda
se encuentre ms cerca del limite superior de la clase modal.

Figura 4.9. Esquema de localizacin de la moda.


En caso que d
2
sea mayor que d
1
, el factor de ponderacin es menor que 0.5,
que multiplicado a la amplitud permite que la moda se encuentre ms cerca del limite
inferior. Cuando d
2
es igual a d
1
, el factor de ponderacin es 0.5, que multiplicado a
Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
35
la amplitud permite que la moda se encuentre justo en la marca de clase modal.

En tablas de frecuencia es posible encontrar dos o ms clases con igual
mxima frecuencia, en este caso se dice que la poblacin es: bimodal, trimodal, etc.

APLICACIN 4.12: Para los datos agrupados de la Tabla 4.5, la moda de los tiempos
de espera (en segundos) es:

Frecuencia
Tiempos (seg.)
Marca de
Clase Absoluta Acumulada

.
.
.

.
.
.

.
.
.

.
.
.


| 36,2 44,8 | 40,5 22 38
| 44,8 53,4 | 49,1 39 77 Clase Modal
| 53,4 62,0 | 57,7 30 107
.
.
.

.
.
.

.
.
.

.
.
.



39 22
M 44,8 8,6
39 30 34 22
o
| |
= + =
|
+
\ .
50.4 [segundos]


Existen otras medidas de tendencia central, utilizadas en situaciones ms
especficas como una solucin al problema de la alta sensibilidad del promedio
aritmtico, alguna de ellas son:

Media Geomtrica: Se utiliza principalmente para promediar proporciones de
variaciones, en datos econmicos y se define como la raz n-sima del producto de
los n valores.

M
G
=
n
n
x x x . . .
2 1


Media Armnica: Se define como el recproco de la media de los recprocos de las
medias, es decir:

M
H
=

=
n
i
i
x
n
1
1


Media Recortada: Se define como el valor medio excluyendo un porcentaje de datos
en el extremo inferior y superior del conjunto de observaciones. Existen medias
recortadas al 90%, 80%, etc. Por ejemplo, en la media recortada al 90%, no se
consideran en el clculo de la media el 5% de los datos ms pequeos y el 5% de los
datos ms grandes.
Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
36
Cuantiles: Los cuantiles son medidas de posicin que dividen los datos en grupos
bajo los cuales se encuentra una determinada proporcin de stos, por lo se requiere
que los datos se encuentren en al menos escala

La mediana es un cuantil que divide la distribucin de los datos en dos partes
de igual frecuencia acumulada, y luego bajo/sobre la mediana se encuentra
acumulado el 50% de los datos. Los cuartiles, la dividen en cuatro cuartos; los
quintiles, dividen la poblacin en cinco; los deciles, la dividen en diez dcimos; y los
puntos percentiles, la dividen en cien partes. Estos, en el caso de datos dispersos, son
expresados por:

X ) (
4
1) (
|
.
|

\
| +
=
n i
i cuartil Qi i : 1, 2, ... , 4

X ) (
5
1) (
|
.
|

\
| +
=
n i
i quintil Ki i : 1, 2, ... , 5

|
.
|

\
| +
=
10
) 1 (
X ) (
n i
i dencil Di i : 1, 2, ... , 10

|
.
|

\
| +
=
100
) 1 (
X ) (
n i
i percentil Pi i : 1, 2, ... , 100


Estas expresiones son exactas en la medida que los factores de proporcin:

4
1) (
|
.
|

\
| + n i
;
10
1) (
|
.
|

\
| + n i
;
100
1) (
|
.
|

\
| + n i
sean nmeros enteros, en caso contrario una
buena aproximacin (aunque no la nica) la entrega el promedio entre el entero
superior e inferior de la respectiva fraccin, tal como se presenta en la aplicacin
siguiente.


APLICACIN 4.13: Considerando los pagos de consumo: $1000, 1000, 2500, 2500,
2500, 3500, 4000, 5300, 9000,12500, 13500, 24500, 27500, 30900, y 41000.

Q
3

= X
4
1) 3(15
|
.
|

\
| +
= X
(12)
= $ 24.500

Luego, el 75% de los pagos por consumo son menores o iguales a $ 24.500.


Algunos casos en que el factor de proporcin no resulta un nmero entero,
como por ejemplo, el decil 4 el percentil 68. En el primero, el valor se encuentra
entre los valores sexto y sptimo del grupo ordenado, cuya interpretacin sera que el
40% de los importes de consumo de las 15 cuentas del restaurante son menores o
Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
37
iguales a $ 3.750.

D
4

= X
10
1) 4(15
|
.
|

\
| +
= X
(6,4)
=
2
X X
(7) (6)
+
= $ 3.750

En el segundo cuantil, el valor se encuentra entre los valores 10 y 11 del grupo
ordenado.

P
68
= X
100
1) 68(15
|
.
|

\
| +
= X
(10,88)
=
2
X X
(11) (10)
+
= $ 13.000

Para datos agrupados, la frmula se modifica de acuerdo con el punto
fraccionario de inters. Para utilizar esta expresin modificada, en primer lugar se
determina la clase que contiene el punto de inters, de acuerdo con las frecuencias
acumuladas, y despus se lleva a cabo una interpolacin como en el caso anterior de
la mediana. Ahora un anlisis ms exhaustivo de estas expresiones se obtiene a
travs del segmento de la lnea recta en la ojiva, recordemos la Figura 4.4 de los
tiempos de espera, donde a partir de 117 datos, se construye la grfica, de la Figura
4.10 y supongamos que estamos interesados en el percentil 78, por lo tanto debemos
determinar, de acuerdo con las frecuencias acumuladas la clase que contiene el punto
de inters, como se muestra en la Figura 4.10, este punto se encuentra en la
penltima clase.


Figura 4.10: Grfica para la determinacin de percentiles.


Si se recuerda la ecuacin de la lnea de la recta, dada por:

1 2
1


y y
y y

=
1 2
1


x x
x x


Frecuencia Acumulada
0
60
120
Tiempos [seg.]
F
r
e
c
u
e
n
c
i
a
x
1
x
2
y
2
y
1
y
P
78
Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
38
En este caso se observa que:

1. y = y
2. x = P
78

3. x
2
x
1
= Ls LI = a
4. y
2
y
1
= N
i
N
i 1
= n
i


Luego despejando x = P
78
, se obtiene una expresin para el clculo de
percentiles en datos agrupados:

x = P
78
= x
1
+
|
|
.
|

\
|

1 2
1


y y
y y
(x
2
x
1
) = LI +
|
|
.
|

\
|

i
i
n
y
1
N
a


En el futuro se debe notar que y no es otra cosa que
100
j n
, donde j es el
percentil j-simo.

Luego, la expresin general para el clculo de percentiles, utilizando
frecuencias absolutas como relativas est dada por:

P
j
= LI +
|
|
|
|
.
|

\
|

i
i
n
j n
1
N
100
a = LI +
|
|
|
|
.
|

\
|


i
i
f
j
1
F
100
a


Esta expresin claramente permite el clculo de deciles, quintiles o cuartiles.


APLICACIN 4.14: Para los datos agrupados en Tabla 4.5, el percentil 80 de los
tiempos de espera (en segundos) es:

Frecuencia
Tiempos (seg.)
Marca de
Clase Absoluta Acumulada

.
.
.

.
.
.

.
.
.

.
.
.


| 44,8 53,4 | 49,1 39 77
| 53,4 62,0 | 57,7 30 107 Clase Percentil 80
| 62,0 70,6 | 66,3 10 117

P
80
= 53,4 +
|
|
|
|
.
|

\
|

30
77
100
80 117
8,6 = 58,2 [segundos]
Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
39
Luego, el 80% de los tiempos de espera es menor o igual a los 58,2
segundos.

Otra utilidad, de la expresin anterior, permite determinar que porcentaje de
los datos se encuentra bajo (o por defecto sobre) un determinado valor, como por
ejemplo, Qu porcentaje de las veces, los tiempos de espera fueron superiores a 47
segundos?. En este caso se conoce el percentil, pero no el porcentaje, luego:

47 = 44,8 +
|
|
|
|
.
|

\
|

39
38
100
117 j
x 8,6 j = 41,01 %

Por lo tanto, el (100 40,01)%= 58,99%. son superiores a 47 segundos.

Tambin se puede determinar el porcentaje de tiempos de servicio que se
encuentra en el intervalo [47; 63] segundos. Como se sabe el porcentaje que se
encuentra bajo los 47 segundos (40,01%),y determinando el % que estn bajo los 63
segundos.

63 = 62,0 +
|
|
|
|
.
|

\
|

10
107
100
117 j
x 8,6 j = 92,45 %

Obtenindose que el porcentaje de tiempos de servicio en el intervalo deseado
es de (92,45 40,01)% = 51,44%.


4.3.2 Medidas de Variabilidad

Las medidas de tendencia central de posicin que se presentaron son tiles
para identificar un valor tpico particular de un conjunto de datos, las medidas
de variabilidad se ocupan de describir la dispersin (riesgo, precisin) de los datos
con respecto a una medida del centro o un valor particular.

A modo de ejemplo, suponga que dos mquinas empacadoras dan como
resultado productos con un peso promedio de 10 gramos, pero que en un caso los
productos se encuentran dentro de un rango de 0,1 gramos con respecto a este peso
promedio, en tanto que en el otro los pesos pueden variar hasta en un gramo. Como se
observa en la Figura 4.11, en el primer caso los datos son menos dispersos respecto al


Figura 4.11: Visualizacin de la variabilidad en un conjunto de datos
Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
40
valor de 10 gramos que en el segundo caso, lo que implicara que suposiciones
realizadas al primer caso seran de menor riesgo que las del segundo.

Existen varios indicadores para medir la magnitud de la variabilidad en
conjuntos de datos. Las que se describen a continuacin son: rango, rango
modificado, desviacin media, varianza, desviacin estndar y coeficiente de
variacin.

El Rango: El rango (R), es la diferencia entre el mayor y menor valor del conjunto
de datos. S Mx.{x
i
} representa el mayor, y Min.{x
i
} representa el menor, el rango
de los datos est dado por:

R =

agrupados datos L L
dispersos datos } Min{ } Max{
1
I
k
S
i i
x x


APLICACIN 4.15: Considerando los pagos de consumo, en una muestra de 15
cuentas en un restaurante: $1000, 1000, 2500, 2500, 2500, 3500, 4000, 5300,
9000,12500, 13500, 24500, 27500, 30900, y 41000, el rango est dado por:

R = Mx.{x
i
} Min.{x
i
} = 41000 - 1000 = $ 40.000

APLICACIN 4.16: Para los datos agrupados de la Tabla 4.5, el rango de los tiempos
de espera (en segundos) es:

Frecuencia
Tiempos (seg.)
Marca de
Clase Absoluta Acumulada
| 10,4 19,0 | 14,7 1 1
.
.
.

.
.
.

.
.
.

.
.
.

| 62,0 70,6 | 66,3 10 117

R = LS
7
LI
1
= 70,6 10,4 = 60,2 [segundos]


Rangos Modificados: Un rango modificado es un rango para el cual se elimina cierto
porcentaje de los valores en cada uno de los extremos de la distribucin y es
simbolizado por R
Mod
(j% central). Algunos rangos modificados tpicos son: el 50%
central, el 80% central y el 90% central.

Para determinar el rango modificado, primero se debe ubicar los dos puntos
percentiles de inters para, despus, calcular el rango entre ellos. Por ejemplo, para el
rango del 80% central, los puntos percentiles de inters son el dcimo percentil y el
nonagsimo percentil, porque el 80% central de esos valores se ubica entre esos dos
puntos.
Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
41
APLICACIN 4.17: Considerando los pagos de consumo, en una muestra de 15
cuentas en un restaurante: $1000, 1000, 2500, 2500, 2500, 3500, 4000, 5300,
9000,12500, 13500, 24500, 27500, 30900, y 41000, el rango modificado al 50%
central est dado por:

P
75
=
|
.
|

\
| +
100
1) ( 75
X
n
= X
(12)
= $ 24.500.

P
25
=
|
.
|

\
| +
100
1) ( 25
X
n
= X
(4)
= $ 2.500.

R
Mod
(50% central) = P
75
-

P
25
= 24500 2500 = $ 22.000.


El rango modificado al 50% central, tambin es conocido como rango
intercuartilico, mientras que el rango modificado al 80% es conocido como rango
interdecil. Los rangos modificados, en general, buscan anular el efecto de valores
extremos de los datos, que produciran un fuerte efecto en el rango tradicional, como
medida de variabilidad.


APLICACIN 4.18: Para los datos agrupados de la Tabla 4.5, el rango modificado al
90% central de los tiempos de espera (en segundos) es:

P
5
= 27,6 +
|
|
|
|
.
|

\
|

11
5
100
5 117
x 8,6 = 28,3 [seg.]

P
95
= 62,0 +
|
|
|
|
.
|

\
|

10
107
100
95 117
x 8,6 = 65,6 [seg.]

R
Mod
(90% central) = P
95
-

P
5
= 65,6 28,3 = 37,3 [segundos].


La Desviacion Media: La desviacin media (DM) es la media (promedio) del valor
absoluto de la diferencia entre cada uno de los datos y el promedio del grupo.

1
k
1

datos dispersos
DM
datos agrupados
n
i
i
i i
i
x x
n
f m x
=
=


Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
42
Nota: Algunos autores utilizan la diferencia entre cada valor y la mediana).

Es comn tambin utilizar indicadores como la desviacin mediana (DMe) o
la desviacin modal (DMo), como indicadores de variabilidad alternativos a la
desviacin media. La utilizacin de estos indicadores, es debido a la alta sensibilidad
del promedio a valores extremos, que tambin se hereda en indicadores que utilizan
este indicador, como es el caso de la desviacin media. Tambin debe notarse, que la
desviacin modal, slo es posible cuando la moda se determina a partir de datos
cuantitativos, ya que es una medida de dispersin que no tiene sentido en datos
cualitativos donde no existe la nocin de distancia.

APLICACIN 4.19: Considere que las ventas (por vendedor) de aparatos elctricos
fueron las siguientes: 5 8 8 11 11 11 14 16. La media aritmtica es 10,5. y
la desviacin media es:

x x x
|x x |
5 -5,5 5,5
8 -2,5 2,5
8 -2,5 2,5
11 0,5 0,5
11 0,5 0,5
11 0,5 0,5
14 3,5 3,5
16 3,5 3,5
Total 21,0

=
8
1


DM
i
i
n
x x
= 21/ 8 = 2,625 = 2,6 unidades

As, puede decirse que, en promedio, las ventas de aparatos elctricos por
vendedor difieren en 2,6 unidades de la media del grupo,


APLICACIN 4.20: Para los datos agrupados de la Tabla 4.5, para los tiempos de
espera, la media aritmtica es 48,4 segundos, la desviacin media est dada por:

f
i
m
i
m
i
x m
i
x f
i
m
i
x
0,009 14,7 -33,7 33,7 0,3033
0,034 23,3 -25,1 25,1 0,8534
0,094 31,9 -16,5 16,5 1,551
0,188 40,5 -7,9 7,9 1,4852
0,333 49,1 0,7 0,7 0,2331
0,256 57,7 9,3 9,3 2,3808
0,086 66,3 17,9 17,9 1,5394
Total 8,3462
Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
43

=
=
k
1
DM
i
i i
x m f = 8,4 [segundos].


La Varianza y la Desviacin Estndar: La varianza es similar a la desviacin
media porque se basa en la diferencia entre cada uno de los valores del conjunto de
datos y la media del grupo, La diferencia consiste en que, antes de sumarlas, se eleva
al cuadrado cada una de las diferencias, Para una poblacin, se representa la varianza
mediante V(X) o, tpicamente por la letra
2
; la frmula de clculo es:

=

= =
N
1
2
2
N
) (
V(X)
i
i
x


A diferencia de otras estadsticas muestrales que se han analizado, la varianza
de una muestra no es, en trminos de clculo, completamente equivalente a la
varianza de la poblacin, La varianza muestral se representa mediante S
2
, y est dada
por:

S
2
=

n
i
i
n
x x
1
2
1
) (


Se utiliza con mayor frecuencia la raz cuadrada de la varianza, representada
mediante la letra griega para el caso poblacional y S para una muestra, y se le
denominada desviacin estndar, Las frmulas son:

= V(X) S = muestral Varianza

Estas medidas (muestrales) tambin tienen su representacin en datos
agrupados, la cual est dada por:


k
1 =
2 2
k
1 =
2 2
x - = ) - (
1
=
i
i i
i
i i
m f x m n
n
S

La desviacin estndar, adems de ser una medida de dispersin que utiliza
toda la informacin (en contraposicin con los rangos) y ser expresada en igual
unidad de medida que los datos originales, es especialmente til cuando se le utiliza
junto con la denominada distribucin normal.


APLICACIN 4.21: Para los datos de ventas de aparatos elctricos: 5 8 8
11 11 11 14 16. , la media aritmtica es 10,5 unidades. Considerando estos
datos mensuales de ventas como la poblacin estadstica de inters, se determina la
Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
44
desviacin estndar:

= V(X) = 8 / 86 = 10,75 =3,3 unidades


APLICACIN 4.22: Para los datos agrupados de la Tabla 4.5 (tiempos de espera), la
media aritmtica es 48,4 segundos, la desviacin estndar es:

f
i
m
i
m
i
x (m
i
x )
2
f
i
(m
i
x )
2

0,009 14,7 -33,7 1135,7 10,2212
0,034 23,3 -25,1 630,0 21,4203
0,094 31,9 -16,5 272,3 25,5915
0,188 40,5 -7,9 62,4 11,7331
0,333 49,1 0,7 0,5 0,1632
0,256 57,7 9,3 86,5 22,1414
0,086 66,3 17,9 320,4 27,5553
Total 118,826

S = V(X) = 118,826 = 10,9


4.3.3 Medidas de Forma

Los indicadores de forma de las distribuciones de frecuencias asociadas a un
conjunto de datos, son medidas que se agrupan en : asimetra y curtosis.

Las medidas de asimetra centran su inters en la tendencia de los datos a
concentrarse en los valores ms pequeos, que se conoce como asimetra positiva;
valores ms grandes, que conoce como asimetra negativa; o simplemente en el
centro, que se denomina como simtrica .

En la Figura 4.12, se observan las posibilidades de asimetra, en conjuntos de
datos que presentan slo una cima. En estos casos observar tendencia de los datos
resulta fcil, sin embargo cuando se presenta ms de una cima en una grfica (no
necesariamente ms de una moda), determinar la asimetra de los datos es ms
riesgoso, con lo cual se recomienda el uso de indicadores para una mayor certeza de
la situacin. La figura muestra adems, el caso de datos simtricos de un conjunto de
datos bimodales.

Las medidas de curtosis centran su atencin en la tendencia de los datos en el
grado de concentracin que estos poseen alrededor de puntos centrales, en este caso
se dice que los datos tienen una concentracin mesocrtica cuando el grado de
concentracin se acerca a lo ideal, mientras que, se habla de letocrtica o
platicrtica, si el grado de concentracin es menor o mayor a lo ideal,
respectivamente.

El concepto de ideal asociado a esta medida, tiene su fundamento en la
Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
45
comparacin de la curtosis muestral (mediante el uso de indicadores), con el de un
modelo de probabilidad muy importante en estadstica clsica que posee un valor
terico fijo con el cual es comparado.


Figura 4.11: Representacin de simetra en conjunto de datos.


En la Figura 4.13, se muestran las tres situaciones de curtosis, en conjuntos de
datos que presentan tan slo una cima. Se puede apreciar, que en el caso de
distribuciones leptocrticas, la menor variabilidad es evidente en comparacin a las
otras formas. La distribucin mesocrtica, representa el caso de una distribucin con
variabilidad ideal, en comparacin con el modelo probabilstico Normal. Finalmente



Figura 4.13: Representaciones de curtosis en conjunto de datos.
Simetra
Asimetra Positiva
Simetra
Asimetra Negativa
Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
46
la distribucin platicrtica, representa la mayor variabilidad en comparacin con la
distribucin ideal.

Sin embargo, mediante un anlisis grfico es muy difcil poder visualizar que
un conjunto de datos posee alguno de estos patrones.,

Los indicadores asociados a curtosis, ayudan a la comparacin de la
variabilidad en los datos, pues justamente la variabilidad mide el grado de no
concentracin de estos. Adicionalmente, se pueden emplear como un criterio para
determinar la existencia de datos extremos, es decir, muy grandes muy pequeos,
con respecto al comn de los datos observados, que causaran un efecto devastador en
algunos indicadores, bien, como una seal de la existencia de dos estratos dentro de
los datos que se analizan, como en el caso de la Figura 4.12, donde se muestra un
conjunto de datos bimodales, donde perfectamente, se podra suponer que en la
caracterstica de la poblacin en estudio se presenta concentrada en dos grupos, que
afectaran los resultados de algunos indicadores.

A continuacin se presentan una serie de indicadores asociados a
caractersticas de forma, en el primer caso se muestran indicadores de asimetra dados
por los coeficientes de: Yule, Simetra, Pearson y Fisher; para finalizar con les
coeficientes de curtosis: K
2
y Fisher.

Coeficiente de Yule y Simetra: Estos son dos indicadores de simetra, que se basan
en cuantiles centrales, como lo son: cuartil 1, cuartil 3 y la mediana. Las expresiones
de clculo de Yule y Simetra son:

I
Y
=
2
2 1 3
2
2
Q
Q Q Q

+
I
S
=
1 3
2 1 3
2
Q Q
Q Q Q

+


Estos indicadores (adimensionales) son de fcil clculo, tanto para datos
dispersos como agrupados, tienen la ventaja de no ser afectados por observaciones
aberrantes, que siempre se encuentran sobre Q
3
o bajo Q
1
, razn por la cul se puede
apreciar que ambos indicadores muestran la simetra en el centro de los datos y no en
la totalidad de stos.

Coeficiente de Pearson: El coeficiente de Pearson, se basa en tres indicadores de
usual uso en estadstica y mide la asimetra, como la diferencia entre la media y la
mediana con respecto a la desviacin estndar. Este coeficiente poblacional y
muestral se encuentran dados respectivamente por:

x
s
S
x
A
) M - 3(
e
= A
S
=

) M ( 3
e



El promedio y la mediana, que son dos medidas de tendencia central, que
cuando hay simetra siempre son iguales, y la desviacin estndar, que es una medida
de riesgo que estandariza el indicador, hacen de ste, un indicador ms completo.
Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
47
Coeficiente de Simetra de Fisher: Es el indicador de simetra ms fiable de los
presentados anteriormente, se basa en el tercer momento de la distribucin de los
datos, y que para datos dispersos y agrupados se obtiene mediante:

=
n
i
i
n
x x
m
1
3
3
) (

=
=
k
1
3
3
) (
i
x m f m
i i



Estas medidas se ven fuertemente afectadas por las unidades de medida de los
datos en estudio, por lo tanto se estandariza para medir la asimetra estandarizada,
cuya expresin queda:

3
3
3

x
S
m
=

En su clculo poblacional, al igual que en el coeficiente de Pearson, basta con
el reemplazo de los indicadores muestrales: x y s, por sus respectivos clculos
poblaciones y .

El punto de comparacin terico de estos indicadores es el cero, pues en
distribuciones simtricas todos los indicadores resultan ser cero, mientras que si el
indicador en negativo o positivo, se dice que la asimetra es negativa o positiva,
respectivamente. Sin embargo, en la prctica en el anlisis de datos reales, nunca se
obtienen coeficientes cero, por lo cual es bueno recomendar un intervalo en torno al
cual se aceptar la simetra.

Para una distribucin simtrica el valor del coeficiente de asimetra es cero,
porque el promedio y la mediana son iguales, mientras que para una distribucin con
asimetra positiva la media es siempre mayor que la mediana y, por ello el valor del
coeficiente es positivo, como se muestra en la Figura 4.14, donde adems se muestra
el caso de que en una distribucin con un coeficiente de asimetra negativa, la media
es siempre menor que la mediana.



Figura 4.14: distribucin de las medidas de tendencia central en curvas unimodales.
Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
48
APLICACIN 4.23: Para los datos de ventas de aparatos elctricos: 5 8 8 11 11
11 14 16. La media aritmtica, la mediana, el primer y tercer cuartil, adems de la
desviacin estndar estn dadas por: 10.5; 11.0; 8.0; 12.5 y 3.3 unidades,
respectivamente. Considerando que estos datos mensuales de ventas son la poblacin
estadstica de inters, se tiene que:

I
Y
=
2
2 1 3
2
2
Q
Q Q Q

+
= -0,07. I
S
=
1 3
2 1 3
2
Q Q
Q Q Q

+
= -0.33.

A
s
=
3.3
11.0) 3(10.5
= -0.45. m
3
= 1.5.

Luego, si consideramos I
Y
, I
S
y A
s
, la distribucin tiene una ligera asimetra
negativa es decir, esta sesgada hacia la izquierda, sin embargo si usamos m
3

muestra el caso contrario. Esto se debe que tanto I
Y
, I
S
y A
s
, a perdido informacin al
resumir los datos, por esta razn el m
3
un coeficiente ms confiable en establecer el
tipo de asimetra de los datos.


APLICACIN 4.24: Para los datos agrupados de la Tabla 4.5 (tiempos de espera), la
media aritmtica es 48,4 segundos, se obtienen los siguientes resultados:

f
i
m
i
m
i
x (m
i
x )
3
f
i
(m
i
x )
3

0,009 14,7 -33,7 -38272,75 -344,45
0,034 23,3 -25,1 -15813,25 -537,65
0,094 31,9 -16,5 -4492,13 -422,26
0,188 40,5 -7,9 -493,04 -92,69
0,333 49,1 0,7 0,34 0,11
0,256 57,7 9,3 804,36 205,92
0,086 66,3 17,9 5735,34 493,24
Total 697,79

Utilizando las medidas calculadas anteriormente como:

1. x = 48.4 [segundos]
2. Me = 49.3 [segundos]
3. s
2
= 118.3 [segundos]
2
s = 10.9 [segundos]
4. Q
1
= 41.4 [segundos]
5. Q
3
= 56.5 [segundos]

Por lo tanto se tiene:

I
Y
= 0.01 I
S
= 0.05 A
s
= 0.25
m
3
= 697.79
3
= 0.54
Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
49
Coeficiente K
2
: Este indicador de curtosis, que se basan en cuantiles extremos, como
lo son: decil 1 y decil 9. Las expresiones de clculo estn dadas por:

K
2
=
9 1
1 2
D D
1.9 ( ) Q Q


1

Estos indicador de fcil clculo, tanto para datos dispersos como agrupados,
tienen la ventaja de no ser afectados por observaciones aberrantes, que en la mayor
parte de los casos se siempre se encuentran sobre el D
9
o bajo el D
1
. K
2
, se encuentra
divido por el factor 1,9 veces el rango intercuartlico que es la distancia que existe
tericamente entre los deciles 9 y 1, en la curva ideal estandarizada.


Coeficiente de Curtosis de Fisher: Es el indicador de curtosis ms, que se base en el
cuarto momento de la distribucin de los datos, que se encuentra dado para datos
dispersos y agrupados por:

=
n
i
i
n
x x
m
1
4
4
) (

=
=
k
1
4
4
) (
i
x m f m
i i


Al igual que en el caso de m
3
, esta medida se ven fuertemente influenciadas
por las unidades de medida de los datos en estudio, por lo tanto, esta medida de
desempeo para medir la curtosis se estandariza, cuya expresin queda de la siguiente
manera:

4
4
4

x
S
m
= 3

En su clculo poblacional, basta con el reemplazo de los indicadores
muestrales: x y s, por sus respectivos clculos poblaciones y .

El punto de comparacin terico de estos indicadores es el cero, pues en
distribuciones absolutamente mesocurticas todos los indicadores resultan ser cero,
mientras que si el indicador en negativo o positivo, se dice que la curtosis es
platicurtica o leptocurtica, respectivamente. Sin embargo, en anlisis de datos
continuos en la prctica, nunca se obtienen coeficientes cero, por lo cual es bueno
recomendar un intervalo en torno al cual se acepta la distribucin de los datos como
mesocurtica.


APLICACIN 4.25: Para los datos de ventas de aparatos elctricos que fueron: 5 8
8 11 11 11 14 16. Donde el primer y noveno decil, junto con el primer y
tercer cuartil estn dados por: 5; 16; 8 y 12.5 unidades, respectivamente.
Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
50
Considerando que estos datos mensuales de ventas son la poblacin estadstica de
inters, se determina los coeficientes de curtosis:

K
2
=
16 5
1
1.9 (12.5 8)



= 0.29 m
4
= 257.31
4
= 0.83

Luego, si consideramos K
2
, la distribucin tiene un agudamiento que se podra
considerar mesocrtico, sin embargo si usamos m
4
muestra una clara tendencia
platicrtica. Esto se debe que K
2
, a perdido informacin al resumir los datos, por esta
razn el m
4
un coeficiente ms confiable en establecer el tipo de curtosis de los datos.


APLICACIN 4.26: Para los datos agrupados de la Tabla 4.5, para los tiempos de
espera, donde la media aritmtica es 48,4 segundos, la desviacin estndar est dada
por:

f
i
m
i
m
i
x (m
i
x )
4
f
i
(m
i
x )
4

0,009 14,7 -33,7 1289791,78 11608,13
0,034 23,3 -25,1 396912,60 13495,03
0,094 31,9 -16,5 74120,06 6967,29
0,188 40,5 -7,9 3895,01 732,26
0,333 49,1 0,7 0,24 0,08
0,256 57,7 9,3 7480,52 1915,01
0,086 66,3 17,9 102662,57 8828,98
Total 43546,78

Utilizando las medidas calculadas anteriormente como:

1. Q
1
= 41.4 [segundos]
2. Q
3
= 56.5 [segundos]
3. D
1
= 32.8 [segundos]
4. D
9
= 70.1 [segundos]

Por lo tanto se tiene:

K
2
= 0.30 m
4
= 43546.78
4
= 0.08








Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
51
5. TERCER MDULO


5.1 Resumen de Datos Mul ti vari ados

En el caso de estadstica multivariada ya no se mide una sola caracterstica por
cada elemento o unidad poblacional (muestral), sino un conjunto de p
caractersticas, como se muestra en la Figura 5.1, en la cual se descubre una matriz de
datos.


Figura 5.1 Matriz de datos multivariados.


En este contexto, el anlisis exploratorio de datos, es de vital importancia para
poder observar los patrones de comportamiento de los datos en su conjunto. Un
anlisis grfico de las variables que se estn midiendo en cada uno de los elementos
suele ser de gran ayuda, pues a travs de estos se pueden establecer grupos de
elementos donde el comportamiento de las variables es similar. Sin embargo, cuando
la cantidad de elementos que se tienen para anlisis es grande, estos anlisis pueden
llevar a tener un conjunto de grficas igualmente grande, que puede entorpecer la
generosa ayuda de estas grficas. Esta dificultad puede resolverse mediante la
utilizacin de una muestra de los datos que se desean analizar, aunque la
recomendacin general es utilizar dos o tres muestras, que de presentar rasgos
similares, se puedan extender a la poblacin total.

Las grficas ms comunes utilizadas en estos anlisis son, la de matriz de
asociaciones en los datos, que muestra la asociacin entre pares de variables, con la
particular restriccin que los datos deben ser cuantitativos para que tenga sentido su
utilizacin. Sin embargo, cuando los datos no presentan esta caracterstica tan
deseable, existen alternativas, entre las que se destacan: las caras de Chernoff,
grficas de perfiles, graficas de barras, etc.

Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
52
APLICACIN 5.1 Considere el caso de una muestra de clientes, a los cuales se han
medido caractersticas como: Pago de cuenta de consumo de luz, Pago de consumo de
cuenta de Agua, Pago de consumo de cuenta de Telfono, Porcentaje de los ingresos
mensuales destinados al pago de los servicios anteriores y Porcentaje del sueldo
destinado al pago de vivienda y locomocin, donde se obtienen los siguientes datos:

V1 V2 V3 V4 V5 V1 V2 V3 V4 V5
19,16 60,98 94,44 31,43 52,86 98,69 97,60 12,16 10,00 25,59
19,45 9,97 110,75 18,18 46,55 90,60 70,39 22,80 3,45 17,20
14,04 12,98 105,36 21,62 46,14 103,20 59,03 12,15 9,20 25,30
18,89 44,70 94,11 23,95 51,89 121,85 68,82 27,65 7,68 16,55
79,41 61,52 36,39 24,15 19,21 110,07 60,33 15,78 7,14 14,17
79,37 109,30 31,23 27,89 24,07 110,70 63,81 19,70 8,15 17,00
111,98 87,74 18,42 22,09 35,48 91,72 55,78 16,78 5,11 9,82
96,90 88,12 30,58 13,35 27,60 44,87 36,15 70,53 36,73 56,47
94,43 94,00 27,38 12,37 35,83 44,45 35,30 74,55 36,72 48,45
106,59 112,44 19,09 16,89 38,09 48,67 39,79 75,33 30,83 49,67
105,75 87,28 22,89 18,03 31,15 54,49 45,22 78,51 40,25 56,49
111,32 87,97 23,58 25,61 27,42 19,25 59,08 88,56 38,13 56,25
95,25 81,55 11,75 8,62 23,25 48,70 43,29 77,30 34,35 53,70

En la Figura 5.2, se presenta una matriz de grficas de asociaciones, en la
diagonal de la matriz estn los histogramas de frecuencia de cada variable, mientras
que el extremo inferior (o superior), se muestran las grficas de dispersin para cada
par de variables.


Figura 5.2 Matriz de asociaciones de caractersticas de consumo.
Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
53
En esta figura, en cada grfica de dispersin se destacan dos claros conjuntos,
que lleva a suponer que efectivamente podran existir dos grupos de elementos cuyas
observaciones dentro de cada grupo presentaran caractersticas similares y entre los
grupos caractersticas dismiles.

Las conclusiones anteriores tambin se ven apoyadas por las grficas de la
Figura 5.3, que son conocidas como caras de Chernoff, en las cuales se representan
las cinco caractersticas que se midieron en la unidad muestral. En estas figuras se
aprecian -a grandes rasgos-, dos tipos de caras, un grupo estara compuesto por las
unidades: 1, 2, 3, 4, 21, 22, 23, 24, 25 y 26.


Figura 5.3 Grfica de caras de chernoff de datos de consumo.


Las figuras anteriores, presentan con bastante claridad la presencia de dos
grupos dentro de las observaciones. Sin embargo, las grficas de perfiles, que se
muestran en la Figura 5.4, aportan un margen de duda y pareciera visualizarse la
existencia de otros grupos adicionales, por ejemplo:

1.- Los casos 5 al 12, hay un aumento en la variable V5 (el extremo derecho de
la grfica de cada caso) a diferencia de los casos 13 al 20.

2.- Tambin se puede observar que los casos 1 y del 21 al 26, difieren en su
forma (a pesar de la tendencia mencionada en principio del inciso) de los
casos 2 al 4.

stos ltimos antecedentes entregan la creencia a priori de que pueden existir
4 conjuntos o grupos dentro de las observaciones.
Caso 1 Caso 2 Caso 3 Caso 4 Caso 5 Caso 6
Caso 7 Caso 8 Caso 9 Caso 10 Caso 11 Caso 12
Caso 13 Caso 14 Caso 15 Caso 16 Caso 17 Caso 18
Caso 19 Caso 20 Caso 21 Caso 22 Caso 23 Caso 24
Caso 25 Caso 26
Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
54

Figura 5.4 Grfica de perfiles de los datos de consumo.


5. 2 Organi zaci n de Datos

A medida que la cantidad de caractersticas aumenta, es prcticamente
imposible lograr organizacin efectiva de los datos, y se dificulta percibir de manera
clara aspectos relevantes de stos, tanto por separado como en conjunto. Una de las
formas de lograr extraer informacin destacable de los datos es realizar agrupaciones
de stos en tablas de doble entrada, como se muestra en la Figura 5.5, donde se
escogen pares de caractersticas que se midieron, tal vez las de mayor inters para el
investigador, para organizarlas como se muestra en la figura siguiente.


Caracterstica A
A
1
A
2
............................................. A
r

B
1
n
11
n
12
............................................. n
1r

B
2
n
21
n
22
............................................. n
2r



.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.


.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
C
a
r
a
c
t
e
r

s
t
i
c
a


B

B
k
n
k1
n
k2
............................................. n
kr


Figura 5.5 Frecuencias en tablas de doble entrada.
Caso 1 Caso 2 Caso 3 Caso 4 Caso 5 Caso 6
Caso 7 Caso 8 Caso 9 Caso 10 Caso 11 Caso 12
Caso 13 Caso 14 Caso 15 Caso 16 Caso 17 Caso 18
Caso 19 Caso 20 Caso 21 Caso 22 Caso 23 Caso 24
Caso 25 Caso 26
Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
55
donde:

n
ij
= cantidad de unidades poblacional (muestral) que pertenecen a la clase i-
sima de la caracterstica B y pertenecen a la clase j-sima de la
caracterstica A.

Las clases de las caractersticas estudiadas se realizan de acuerdo al tipo de
variable que se estudia (continua discreta), y son temas ya tratados.

Ahora bien como se habr notado n
ij
representan las frecuencias absolutas de
una tabla de doble entrada, por lo tanto, la tabla anterior tambin puede ser expresada
en trminos de frecuencias relativas, como se muestra en la Figura 5.6:


Caracterstica A
A
1
A
2
............................................. A
r

B
1
f
11
f
12
............................................. f
1r

B
2
f
21
f
22
............................................. f
2r



.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.


.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
C
a
r
a
c
t
e
r

s
t
i
c
a


B

B
k
f
k1
f
k2
............................................. f
kr


Figura 5.6 Frecuencias relativas en tablas de doble entrada.


APLICACIN 5.2 Supongamos la siguiente situacin. Se realiza una encuesta a
profesionales que se desempean en cierta regin, en la cual se miden las siguientes
caractersticas: Cargo que ocupa, Sueldo que percibe y valor del automvil que posee,
en miles de pesos, los datos obtenidos fueron los siguientes:

1 Gerente $ 8.800 $ 18.500
2 Sub-Gerente $ 1.600 $ 9.500
4 Ejecutivo $ 670 $ 3.500
5 Ejecutivo $ 640 $ 7.100
6 Administrativo $ 342 $ 4.500
8 Ventas $ 630 $ 3.900
.
.
.
.
.

.
.
.
.
.


.
.
.
.
.

.
.
.
.
.

198 Ventas $ 780 $ 2.500
199 Otros $ 320 $ 2.100
200 Otros $ 250 $ 2.150
Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
56
Si se consideran las variables ingreso y cargo, se tiene que para la variable
cargo, no existe problema en agrupar ya que es cualitativa, sin embargo, la variable
ingresos, por ser continua, se debe agrupar creando clases como fue analizado en
mdulo dos. En la Tabla 5.1, se muestran los datos organizados en una tabla de doble
entrada (bivariada) considerando las frecuencias absolutas, para cada celda (i, j).

Tabla 5.1 Tabla de frecuencia absolutas para las variables Ingreso.

Cargos
Ingresos [pesos] Otros Ventas Adm. Ejecut. Sub-G. Gerente
[ 119 514 [ 8 7 8 30 0 0
[ 514 909 [ 14 7 21 26 0 0
[ 909 1.303 [ 4 3 8 16 4 0
[ 1.303 1.698 [ 0 10 0 1 2 0
[ 1.698 2.092 [ 0 6 0 0 12 0
[ 2.092 2.487 [ 0 2 0 0 4 0
[ 2.487 8.810 ] 0 0 0 0 0 7


Sin embargo, como la variable ingreso se agrupa en clases de distinta
amplitud, el grfico bivariado tambin debe ser ajustado de acuerdo a la amplitud de
estas clase, como se muestra en Figura 5.7. Esta figura es particularmente til en el
caso de tratar el comportamiento(modelar) de la variable sueldo, en los distintos
cargos:

Figura 5.7 Histograma bivariado Sueldo v/s Cargo.


La Tabla a continuacin muestra las frecuencias relativas conjuntas.
Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
57
Tabla 5.2 Tabla de frecuencias para las variables Ingreso/Cargo.

Cargos
Ingresos [pesos] Otros Ventas Adm. Ejecut. Sub-G. Gerente
[ 119 514 [ 0,041 0,036 0,041 0,155 0,000 0,000
[ 514 909 [ 0,072 0,036 0,109 0,134 0,000 0,000
[ 909 1.303 [ 0,021 0,016 0,041 0,083 0,021 0,000
[ 1.303 1.698 [ 0,000 0,052 0,000 0,005 0,010 0,000
[ 1.698 2.092 [ 0,000 0,031 0,000 0,000 0,062 0,000
[ 2.092 2.487 [ 0,000 0,010 0,000 0,000 0,021 0,000
[ 2.487 8.810 ] 0,000 0,000 0,000 0,000 0,000 0,002


Frecuencias Marginales

Adems de la informacin conjunta que se puede deducir de una tabla
bivariada, se puede obtener informacin marginal de cada una de las variables, las
cuales cumplen pueden ser frecuencias absolutas relativas, segn sea el caso.

Las frecuencias marginales, se obtienen para cada clase de una caracterstica
sumando sobre todas las clases de la otra caracterstica, como se muestra en la Figura:


Caracterstica A
A
1
A
2
........... A
r

Frecuencia
Marginal de
Caracterstica B
B
1
n
11
n
12

...........
n
1r
n
1

B
2
n
21
n
22

...........
n
2r
n
2



.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

C
a
r
a
c
t
e
r

s
t
i
c
a


B

B
k
n
k1
n
k2

...........
n
kr
n
k


Frecuencia
Marginal de
Caracterstica A
n
1
n
2

........... n

r

n

= n

Figura 5.8 Frecuencias marginales en tablas de doble entrada.

donde:

=
=
r
1
1

j
j
n n
1

=
=
r
1
2

j
j
n n
2

=
=
r
1
k

j
j
n n
k

=
k
1
1
i
i
n = n
1

=
k
1
2
i
i
n = n
2

=
k
1
r
i
i
n = n
1

= =
=
k
1
r
1


i j
ij
n n


Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
58
Tambin es posible calcular las frecuencias relativas marginales expresadas en
funcin de las frecuencias absolutas marginales, como se muestra a continuacin:

=
=
=
=

k

2
1

k
2
1
i
n
n
i
n
n
i
n
n
f
i

=
=
=
=

r

2
1

r
2
1
j
n
n
j
n
n
j
n
n
f
j




APLICACIN 5.3 De los datos de la encuesta, en la cual se consideran las
caractersticas: sueldo y cargo que ocupa. Se presentan en la Tabla 5.3 la distribucin
de frecuencias marginales de ambas variables, donde se puede observar la
importancia de ajustar las frecuencias por la amplitud, pues la frecuencia marginal de
la variable ingreso, esta claramente afectado por la gran amplitud del ltimo
intervalo.

Tabla 5.3 Tabla de frecuencias conjunta y marginales para variables Ingreso/Cargo.

Cargos
Ingresos [pesos] Otros Ventas Adm. Ejecut. Sub-G. Gerente
Marginal
Ingreso
[ 119 514 [ 8 7 8 30 0 0 53
[ 514 909 [ 14 7 21 26 0 0 68
[ 909 1.303 [ 4 3 8 16 4 0 35
[ 1.303 1.698 [ 0 10 0 1 2 0 13
[ 1.698 2.092 [ 0 6 0 0 12 0 18
[ 2.092 2.487 [ 0 2 0 0 4 0 6
[ 2.487 8.810 ] 0 0 0 0 0 7 7
Marginal Cargo 26 35 37 73 22 7 200


APLICACIN 5.4 Cierta empresa tiene datos sobre horas de trabajo semanal y
desempeo laboral de sus trabajadores. Esta ltima variable se ha medido en escala
de 1 9. Los resultados se muestran en la Tabla 5.4.

Tabla 5.4 Tabla de frecuencia conjunta para las variables hora/desempeo.

Horas de trabajo semanal
Desempeo 15 25 25 35 35 45
1 3 16 18 12
4 6 11 14 9
7 9 9 7 4
Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
59
La Tabla 5.5, muestra las frecuencias conjuntas relativas, adems de sus
respectivas marginales, en las cuales se aprecia la clara asimetra que presenta la
variable desempeo.

Tabla 5.5 Tabla de frecuencia relativas conjunta y marginales para las variables
hora/desempeo.


Horas de trabajo semanal
Marginal de
Desempeo

Desempeo 15 25 25 35 35 45 f i
j

1 3 0,16 0,18 0,12 0,46
4 6 0,11 0,14 0,09 0,34
7 9 0,09 0,07 0,04 0,20
Marginal de
Horas de trabajo
f
i
j 0,36 0,39 0,25 1,00


Frecuencias Condicionales

En muchas ocasiones una vez organizados los datos en tablas de doble entrada
el inters se centra en determinar las frecuencias de una variable condicionada a una
determinada clase de inters de la otra variable en estudio, como se muestra en la
Figura 5.9, donde se destaca, por ejemplo, las frecuencias de la caracterstica A,
condicional a que la caracterstica B se encuentra en la segunda clase, o bien
determinar las frecuencias de la caracterstica B, condicional a que la caracterstica A
se encuentra en la segunda clase


Caracterstica A
A
1
A
2
........... A
r

Frecuencia
Marginal de
Caracterstica B
B
1
n
11
n
12

...........
n
1r
n
1

B
2
n
21
n
22

...........
n
2r
n
2



.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

C
a
r
a
c
t
e
r

s
t
i
c
a


B

B
k
n
k1
n
k2

...........
n
kr
n
k


Frecuencia
Marginal de
Caracterstica A
n
1
n
2

........... n

r

n

= n

Figura 5.9 Frecuencias condicionales en tablas de doble entrada.


Estas frecuencias, en trminos relativos a la condicin, se expresan para el
Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
60
primer caso condicionada a la segunda clase de la caracterstica B y luego
generalizando a cualquier clase de la caracterstica B, como se muestra a
continuacin:

21
2
22
2
2r
2
2
1
2


r
j
i
n
j
n
n
j
n
f
n
j
n


1
2
r

1
2
, 1, ... , k

r
j
i
n
j
n
n
j
n
f
n
j
n

= =




Con las distribuciones de frecuencias marginales como condicionales, se
pueden obtener todos los indicadores conocidos para una la variable. Particularmente,
en el caso de distribuciones de condicionales, se pueden llegar a tener hasta grados de
asociacin entre variables cuantitativas (ingresos) y variables cualitativas ordinales
(cargo), utilizando precisamente las distribuciones condicionales de la variable
cuantitativa respecto a las clases de la variable cualitativa y determinando indicadores
apropiados para cada condicin, como se muestra en la aplicacin 5.5.


APLICACIN 5.5 Utilizando los datos de la encuesta en las variables, ingreso y
sueldo. La Tabla 5.6 muestra la distribucin de frecuencias condicionales a cada
cargo.

Tabla 5.6 Tabla de frecuencias relativas condicionales a cada cargo.

Cargos
Ingresos [pesos] Otros Ventas Adm. Ejecut. Sub-G. Gerente
[ 119 514 [ 0,308 0,200 0,216 0,411 0,000 0,000
[ 514 909 [ 0,538 0,200 0,568 0,356 0,000 0,000
[ 909 1.303 [ 0,154 0,086 0,216 0,219 0,182 0,000
[ 1.303 1.698 [ 0,000 0,286 0,000 0,014 0,091 0,000
[ 1.698 2.092 [ 0,000 0,171 0,000 0,000 0,545 0,000
[ 2.092 2.487 [ 0,000 0,057 0,000 0,000 0,182 0,000
[ 2.487 8.810 ] 0,000 0,000 0,000 0,000 0,000 1,000
Promedio 651 1.184 711 647 1.787 5.649


Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
61
Ahora, si se acepta que la variable cargo se encuentra en una escala ordinal, se
podra obtener una grfica de los promedios asociados al cargo como se muestra en la
Figura 5.10, donde se aprecia claramente que el sueldo promedio de los cargos siguen
una tendencia al aumento.


Figura 5.10 Grfica de cargos v/s sueldos promedios de los cargos.


5. 3 Asoci aci n de Vari abl es

Recordemos que en estadstica descriptiva multivariada se trabaja con un
vector de informacin para cada un de las n unidades, a las cuales se les miden p
caractersticas o variables.

Si se consideran pares de variables que al menos se encuentren en escala
ordinal, una de las grficas ms tiles para observar el tipo de asociacin que existe
entre un par de variables, son las llamadas grficas de dispersin, que consiste en
tomar los pares ordenados de las variables, los cuales son grficos en el plano
cartesiano x e y.

A modo de ejemplo, supongamos que interesa ver el tipo de asociacin que
existe entre dos caracterstica, digamos 3 y 4 de una matriz de datos, entonces los
pares ordenados asociados a la grfica estn dados por:

(x
13
, x
14
), (x
23
, x
24
), (x
33
, x
34
), ... , (x
n3
, x
n4
),

que tambin pueden ser expresadas en trminos de x e y como las mediciones de la
caracterstica 3 y 4 respectivamente, es decir:

(x
1
, y
1
), (x
2
, y
2
), ... , (x
n
, y
n
),
Grfica de Dispersin
Cargo
P
r
o
m
e
d
i
o

C
o
n
d
i
c
i
o
n
a
l

a
l

C
a
r
g
o
0
1e6
2e6
3e6
4e6
5e6
6e6
Otros Ventas Administrativo Ejecutivo Sub-Gerente Gerente
Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
62

donde el diagrama de dispersin se muestra en la Figura 5.11.

Una de las medidas de asociacin ms comunes y tiles, cuando se consideran
pares de variables es el coeficiente de correlacin lineal de Pearson, que mide el
grado de asociacin lineal entre un par de variables, que se encuentren en escala al
menos intervalar.

Figura 5.11 Grfica de dispersin de pares ordenados.


La deduccin y propiedades de este coeficiente, tiene sus fundamentos
matemtica vectorial. El clculo de este coeficiente se obtiene mediante:




n
i i
i
n n
i i
i i
y y x x
r
y y x x
=
= =
=


1
2 2
2 2
1 1
( - ) ( - )
( - ) ( - )


2 2 2 2



n
i i
i
n n
i i
i i
y x n y x
r
y n y x n x
=
= =
=


1
2 2
1 1
-
- -



Este coeficiente tiene la propiedad que se encuentra intervalo de 1 a 1,
considerndose que existe una buena asociacin lineal positiva negativa, si el valor
de r est cercano a 1 1 respectivamente. Una manera muy prctica de ver la
existencia de asociacin entre un par de variables, es mediante las grficas de
dispersin.

Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
63
Las siguientes figuras, muestran algunos casos tpicos de asociacin con las
respectivas mediciones del coeficiente de asociacin de Pearson. Las dos primeras
grficas muestran una asociacin lineal perfecta entre las variables (situacin que es
muy poco probable en datos muestrales). Las siguientes dos grficas muestran
asociaciones lineales bastantes buenas, a pesar de no ser perfectas. Finalmente el
ltimo par de grficos, se observa la ausencia total de asociacin lineal, sin embargo,
en el primer caso, si se observa un tipo de asociacin clara (cuadrtica), que no es
detectada por Pearson por no ser lineal.


Grfica de Dispersin
X
Y
r = -1
Grfica de Dispersin
X
Y
r = 1
Grfica de Dispersin
X
Y
r = 0
Grfica de Dispersin
X
Y
r = 0
Grfica de Dispersin
X
Y
r -1
Grfica de Dispersin
X
Y
r 1
Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
64
Este indicador r
P
, tambin tiene su expresin para datos organizados en tablas
de doble entrada, y est dado por:





1
P
2
1
2
2
1
2
1
) - ( ) - (
) - ( ) - (


=

=

= =

=
q
j
j j
k
i
i i
k
i
q
j
j i ij
x m f y m f
x x y m f
r

2
1
2
1
1
- -
-



2 2 2 2
1

P


=

=

=

=
=
q
j
j j
k
i
i i
k
i
j i ij
q
j
x m f y m f
x y m m f
r



APLICACIN 5.6 Una importante multitienda est interesada en la demanda anual
de artefactos y su relacin con el precio de los artefactos, ingresos del consumidor y
precio de la mercanca sustituta. Para esto se seleccion una muestra azar de clientes,
obtenindose los siguientes datos:

Demanda
Precio de artefactos
($)
Ingreso Medio
($)
Precio de mercanca
Sustituta ($)
40 9 400 10
45 8 500 14
50 9 600 12
55 8 700 13
60 7 800 11
70 6 900 15
65 6 1.000 16
65 8 1.100 17
75 5 1.200 22
75 5 1.300 19
80 5 1.400 20
100 3 1.500 23
90 4 1.600 18
95 3 1.700 24
85 4 1.800 21

Como en todo estudio, un anlisis marginal de cada variable es siempre til,
pues permite distinguir caractersticas particulares en cada una de las variables. En la
tabla siguiente se muestran algunas medidas de resumen de estas variables.
Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
65


Media Mediana Rango
Desviacin
Estndar
Asimetra Curtosis
Precio Artefacto 5,51 5 6 1,95 0,36 -1,10
Ingreso Medio 1202,47 1250 1400 414,45 -0,29 -1,07
Precio Sustituto 16,97 18 14 4,21 -0,27 -1,08


De la tabla anterior se pueden deducir caractersticas de forma interesantes,
como la asimetra negativa mostrada por las variables ingreso medio y precio de
mercadera sustituta, junto con que todas muestran una forma platicrtica. Adems
del alto valor promedio de la mercadera sustituta.

En el anlisis de correlaciones, el uso del diagrama de dispersin es til, pero
no concluyente, ya que pueden ser fcilmente mal interpretados, como por ejemplo en
el caso de los diagramas de dispersin de las variables Precio del Artefacto y
Demanda del Artefacto, que se muestran en las figuras, en ambos se utilizaron los
mismos datos y variables. Muchas veces un uso inadecuado (por error o
manipulacin) de los ejes de las variables (en este caso el del precio del artefacto) es
un elemento nocivo para una interpretacin adecuada del tipo de relacin existente
entre las variables en estudio.



La tabla siguiente muestra los clculos de los coeficientes de correlacin
lineal de Pearson para cada par de variables, las cuales confirman las apreciaciones de
las grficas, pues todas las medidas (r
P
) son bastante cercanas a 1 - 1.

r
Pij

Precio
Artefacto
Ingreso
Medio
Precio
Sustituto
Precio Artefacto 1,0000 -0.9096 -0,8830
Ingreso Medio -0,9096 1,0000 0,8681
Precio Sustituto -0,8830 0,8681 1,0000

Demanda del Artefacto
P
r
e
c
i
o

d
e
l

A
r
t
e
f
a
c
t
o
30 40 50 60 70 80 90 100 110
Demanda del Artefacto
P
r
e
c
i
o

d
e
l

A
r
t
e
f
a
c
t
o
30 40 50 60 70 80 90 100 110
Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
66
6. CUARTO MDULO


6.1 Elementos de Probabilidad

En la investigacin cientfica, por lo general, se requiere de modelos que
ayuden a comprender el fenmeno bajo estudio. En un amplio campo, no es posible
contar con modelos exactos, tambin conocidos como modelos determinsticos. En
tales situaciones, las mediciones obtenidas presentan perturbaciones no controlables,
lo que lleva a que la observacin presente variabilidad en los resultados, para
experimentos en condiciones supuestamente idnticas, por ende, existe una especie
de azar o aleatoriedad en el resultado de la medicin, lo que termina por dificultar la
posibilidad de predecir el resultado con certeza.

Por ejemplo, en el problema de determinar la resistencia a la ruptura de una
barra de acero (con alguna especificacin de la misma), es muy creble, que en la
medicin de diez barras, ninguna resulte igual, luego, si se quiere ofrecer una
especificacin de la resistencia de las barras que se producen: cul es el valor de la
resistencia de las barras que se ofrecera?, la resistencia de la barra 1, 2, 3, ... , 10?,
la mnima resistencia?, la mxima resistencia?. Posiblemente una respuesta comn
sera, la resistencia media, aunque tal vez, ste no sea el mejor indicador.

En el campo de investigaciones, donde no es posible utilizar modelos
determinsticos, es natural esperar que en la prediccin no sea exacta, sin embargo,
por ms que no sea posible prever el resultado con certeza en cada medicin, cuando
se est en presencia de fenmenos aleatorios o estocsticos, no significa que dichas
mediciones no posean ninguna regularidad, el objetivo de determinar el patrn de
dicha regularidad, es lo que en el futuro conoceremos como ley de probabilidad.

Nuestro primer objetivo es repasar el concepto de probabilidades, siguiendo
los diversos enfoques de esta medida de incertidumbre.


Enfoque Clsico

El enfoque apriorista o clsico, tiene la caracterstica esencial, que basa en la
asignacin de medida de ocurrencia para un resultado, sobre los antecedentes que
aporta un experimento que se realiza de la manera ms metdica posible, en donde
los posibles resultados del mismo son igualmente probables, situacin que
tambin se conoce como un experimento equiprobable. Este es el caso tpico de los
juegos de azar. Por ejemplo, considerando el problema de un juego de cartas, de
acuerdo con el enfoque clsico, todas las cartas tienen la misma posibilidad de ser
escogidas, por lo tanto, si se elabora un juego donde el participante elige una carta, la
probabilidad de que se escoja una carta roja, est dada de forma natural por: el
nmero de resultados elementales posibles favorable al resultado, llammosle # R,
del total de posibles resultados al extraer una carta de dicho naipe, llammosle # S.
Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
67
En esta situacin todos los resultados elementales son igualmente probables;
entonces, la probabilidad de que ocurra el resultado en cuestin es:

[Cartas sea Roja] =
S
R
#
#
.

Notemos que en el enfoque clsico (cuando es aplicable) se determinan los
valores de probabilidad antes de observar los resultados experimentales, por esta
razn se le denomina enfoque a priori.

APLICACIN 6.1 En un mazo de cartas bien barajadas que contiene 4 ases y 48
cartas de otro tipo, la probabilidad de obtener un as en una extraccin es:

[Obtener un as] =
S
A
#
#
=
13
1
52
4
= .

Enfoque Frecuentista

En el enfoque de frecuencia relativa, se determina la probabilidad con base
en la proporcin de veces que ocurre un resultado favorable en un determinado
nmero de observaciones o experimentos. No hay implcita ninguna suposicin
previa de igualdad de probabilidades.

Debido que para determinar los valores de probabilidad se requiere de la
observacin y de la recopilacin de datos, a este enfoque se le denomina tambin
enfoque emprico. Este enfoque no asigna probabilidades a priori a los posibles
resultados del experimento.

La probabilidad en el enfoque frecuentista se asocia directamente al concepto
de frecuencia relativa ya trabajado en estadstica descriptiva, de acuerdo con este
enfoque la probabilidad de que ocurra un resultado determinado, como por ejemplo
llegar atrasado al trabajo es:

[Llegar atrasado al trabajo] =
n
n
i
=
llegadas total Nmero
atrasos de Nmero
.

APLICACIN 6.2 Antes de incluir la cobertura de ciertos tipos de problemas
dentales en plizas de seguros mdicos para adultos, una compaa de seguros desea
determinar la probabilidad de ocurrencia de esa clase de problemas, para que pueda
fijarse la prima de seguros. Por ello, un especialista en estadstica recopila datos para
10000 adultos y encuentra que 100 de ellos han experimentado el problema dental
especfico durante el ao anterior. Por ello, la probabilidad de ocurrencia es:

[Problema dental] =
n
n
i
= 1% 0,01
10000
100
=
Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
68
Enfoque Bayesiano

Tanto el enfoque clsico como el de frecuencia relativa producen valores de
probabilidad objetivos, en el sentido de que sealan la tasa relativa de ocurrencia del
evento a largo plazo. De acuerdo con el enfoque bayesiano, la probabilidad de un
resultado es el grado de confianza que se tiene de que ste ocurra.

Debido a que el valor de la probabilidad es un juicio personal, este enfoque,
es llamado enfoque subjetivo. El desarrollo de la probabilidad mediante este enfoque,
ha recibido mucha atencin en los ltimos tiempos, y tiene relacin con el anlisis
bayesiano de decisin.

APLICACIN 6.3 Debido a los impuestos y a los posibles usos alternativos de sus
fondos, un inversionista ha determinado que la compra de terrenos vale la pena slo
si existe una probabilidad de cuando menos 0.90 de que el terreno obtenga plusvala
por 50% o ms en los prximos 4 aos. Al evaluar un determinado terreno, el
inversionista estudia los cambios de precios en el rea en los aos recientes,
considera los niveles corrientes de precios, estudia el estado corriente y futuro
probable de los proyectos de desarrollo inmobiliarios y revisa las estadsticas
referentes al desarrollo econmico del rea geogrfica global. Con base en esta
revisin, concluye que existe una probabilidad de aproximadamente 0.75% de que se
d la plusvala. Como esta probabilidad es menor que la mnima requerida, (0.90),
no debe llevarse a cabo la inversin.


Desarrollo Axiomtico de Probabilidad

La medida de probabilidad (P), se apoya en argumentos de Teora de Medida,
que para su definicin axiomtica requiere de algunas definiciones previas, las cuales
pasamos a recordar.

Definicin 6.1: Espacio Muestral. Se define el espacio muestral como el conjunto de
todos los posibles resultados del experimento, y se anota por .

Definicin 6.2: Suceso o Evento. Un suceso o evento, es cualquier subconjunto de , y
se anota generalmente con letras maysculas. A, B, C etc.

A partir de (espacio muestral), se tiene que 2

o [] es el espacio de
sucesos(conjunto potencia), es decir, el conjunto de todos los subconjuntos de ,.

El conjunto, 2

, es una sigmaalgebra (conjunto de sucesos) si cumple con las
siguientes propiedades:

, si A A
c
,.y si {A
n
}
n IN

=1 n
A
n
.
Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
69
El par (, ) se dice espacio medible, y la funcin :
+
, es una
medida de probabilidad si satisface:

1. 0 [A] 1, A .

2. [] = 1.
3. A
1
, A
2
disjuntos [

n
1 = i
A
n
] =

=
n
1 i
[A
i
]
i
.

Dependiendo del nmero de posibles resultados de un experimento aleatorio,
el espacio muestral puede ser clasificado como:



Finito

Discreto

Numerable


Infinito



Acotado

Continuo

No Numerable
No Acotado

En una primera aproximacin, el clculo probabilidades se aborda desde los
espacios muestrales finitos, lo cual se reduce a saber contar. Sin embargo, para poder
contar eficientemente, se requiere de tcnicas de conteo.


Tcnicas de Conto

Principio de multiplicacin. Supongamos que un procedimiento, llammosle
1, puede hacerse de n
1
maneras. Supongamos que un segundo procedimiento,
llammosle 2, se puede hacer de n
2
maneras. Tambin supongamos que cada una de
las maneras de efectuar 1 puede ser seguida por cualquiera de las n
2
de efectuar 2.
Entonces el procedimiento que consta de 1 seguido por 2 se puede hacer de n
1

x
n
2

maneras, como se representa en la Figura 6.1.

Figura 6.1: Desarrollo esquemtico del principio multiplicativo.
Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
70
Este principio puede generalizarse a cualquier nmero de procedimientos. Es decir, si
hay r procedimientos, y cada uno de stos se puede hacer de n
i
maneras
(i = 1, 2, ... , r), entonces el procedimiento que consiste en 1, seguido por 2, ... ,
seguido por el procedimiento r puede llevarse a cabo de n
1

x
n
2

x
n
r
.

APLICACIN 6.4 Considrese un proceso de manufactura en lnea para un artculo.
En cada una de las cuatro lneas se inspecciona una caracterstica particular y se
marca su conformidad. Existen 3, 4, 2 y 2 mediciones posibles, en los controles 1, 2,
3 y 4 respectivamente. Por lo tanto, un artculo es rechazado o aprobado al pasar por
3
x
4
x
2
x
2 = 48 inspecciones


Principio de adicin. Supongamos que un procedimiento, llammosle 1, se
puede hacerse de n
1
maneras, y que un segundo procedimiento, llammosle 2, se
puede hacer de n
2
maneras. Supongamos adems que no es posible que ambos
procedimientos, 1 y 2, se realicen. Entonces el nmero de maneras como se puede
hacer el procedimiento 1 2 es de n
1
+ n
2
, como se representa en la Figura 6.2.


Figura 6.2: Desarrollo esquemtico del principio aditivo.


Tambin este principio puede generalizarse como sigue: si hay r
procedimientos, y cada uno de stos se puede hacer de n
i
maneras (i = 1, 2, ... , r),
entonces el nmero de maneras como podemos hacer el procedimiento 1, o el
procedimiento 2, o ... , o el procedimiento r est dado por n
1
+ n
2
+ ... + n
r
,
suponiendo que los procedimientos no se pueden realizar en forma conjunta.

APLICACIN 6.5 Supongamos que una persona desea realizar la planificacin para
sus estudios de enseanza superior, debe decidir entre Universidades tradicionales,
privadas o centros de formacin Tcnica. En su zona geogrfica hay tres
universidades tradicionales, cinco universidades privadas y cuatro centros de
formacin Tcnica, entonces hay 3 + 5 + 4 = 12 decisiones posibles para sus estudios.

Ambos principios son empleados en los siguientes clculos. Supongamos el
caso de una competencia canina, en la cual existen n participantes, donde el jurado
Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
71
mide una serie de caractersticas del can para su puntuacin. El problema consiste en
determinar el nmero de formas distintas en las que pueden salir los canes para ser
evaluados por el jurado. Se asume que el can es evaluado slo una vez sta
situacin se conoce como extraccin sin reposicin, dada la no posibilidad de medir
dos veces el mismo can.. Para que el primer can sea evaluado existen n posibilidades,
mientras que para el segundo existen n 1 posibilidades, hasta que se llega al ltimo,
donde slo que una posibilidad.

N de posibilidades n n 1 n 2 ........... 2 1

Eleccin 1 2 3 ........... n 1 n


Es claro que en esta situacin, aplicando del principio multiplicativo, se
obtiene que el nmero de formas distintas en las que pueden salir los canes para ser
evaluados por el jurado, estas son: n
x
(n 1)
x
(n 2)
x
...
x
1.

Definicin 6.3: Factorial. Sea n IN, entonces se define n factorial como n
x
(n 1)
x
(n 2)
x
...
x
1, el cual se simboliza por n!.


Existen situaciones donde una vez seleccionado un elemento ste puede ser
nuevamente seleccionado. Por ejemplo, consideremos la situacin de generar un
cdigo de n smbolos utilizando r smbolos. Simplificando, sean 1, 2, 3, 4, 5 y las
letras a, b, c, los smbolos. Cuntos cdigos de cinco smbolos se pueden formar?.
Es evidente que el cdigo [1 1 1 a a] es distinto al cdigo [1 a 1 a 1], a pesar de
poseer los mismos elementos en su constitucin, este es el caso tpico de extraccin
con reposicin, que en el caso general se muestra en la siguiente figura:

N de posibilidades n n n ........... n n

Eleccin 1 2 3 ........... r 1 r


En esta situacin mediante la aplicacin del principio multiplicativo, se
obtiene que el nmero de formas distintas en las que puede conformar un cdigo de r
smbolos utilizando los n smbolos, est dado por: n
x
n
x
n
x
n = n
r
.

Otras situaciones se dan cuanto se debe escoger r elementos de un conjunto
de n, por ejemplo, escoger r individuos para ocupar cargos distintos (presidente
tesorero, etc.) de un grupo compuesto por n individuos (r < n), de cuantas formas
distintas se pueden asignar los r cargos entre los n individuos?. Es evidente, que un
individuo deber ocupar slo un cargo, es por eso que para el primer cargo se cuenta
con n individuos, para el segundo cargo se cuenta con n 1 individuos, hasta llegar
al r-simo cargo donde quedan n r + 1 individuos para ocupar el cargo, tal como se
muestra en la siguiente figura.
Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
72
N de posibilidades n n 1 n 2 ........... n r + 2 n r + 1

Eleccin 1 2 3 ........... r 1 r


En esta situacin mediante la aplicacin del principio multiplicativo, se
obtiene que el nmero de formas distintas en las que puede conformar los r cargos
utilizando n los individuos se encuentra dada por: n
x
(n 1)
x
...
x
(n r + 1). Este
clculo parece sencillo pero cuanto se trabaja con tamaos como n = 150 y r = 60, el
proceso se torna tedioso, sin embargo, utilizando una herramienta de conteo, el
clculo se simplifica enormemente, como se muestra a continuacin.

n n 1 ..... n r + 2 n r + 1 n r n r 1 ..... 1 1

n r n r 1 .....
1
2
1 2 ..... r 1 r

Como se puede apreciar en la figura anterior en la lnea 1, se tiene a n!,
mientras que en la lnea 2, se tiene a (n r)!, lo que lleva a la siguiente igualdad:

n
x
(n 1)
x
(n 2)
x
...
x
(n r + 1) =
)! (
!
r n
n

.

En este ejemplo el orden en que los individuos son asignados a los cargos es
importante, pues una vez escogidos r individuos, con stos se pueden obtener
distintas configuraciones segn el cargo que ocupe. Esto se conoce como la
permutacin de r elementos sobre n.

Definicin 6.4: Permutacin. Se define la permutacin de r elementos sobre n como
el nmero de arreglos distintos que se pueden hacer con r elementos de un total de n.
Esta expresin se simboliza por:

nPr = P =
n
r
)! (
!
r n
n

.

APLICACIN 6.6 Una directorio compuesto por: Presidente, Secretario y Tesorero,
se debe elegir de un total de 10 candidatos. Entonces el nmero de directorios
diferentes se encuentra dada por:


10
3
P = =
3)! (10
10!
=
7!
10!
720 directorios distintos.

En los casos anteriores se ha supuesto, que el orden en que son asignados los
elementos es importante, situacin que se da en un nmero importante de problemas,
sin embargo, existe otro conjunto de situaciones, no menos importante, donde el
orden en que son asignados los elementos pierde importancia, y lo realmente
trascendental son los elementos escogidos.
Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
73
Supongamos el caso que se cuenta con un lote compuesto por n tarros de
conserva de durazno del mismo contenido y marca, de los cuales se escogern al azar
r tarros para observar si estos presentan deformaciones, donde resulta evidente que si
se escogen los tarros al azar, lo menos importe parece ser el orden en que fueron
escogidos. Bajo las consideraciones de que lo importante es la eleccin de los r tarros
de un conjunto de n, se define: C, como el nmero de arreglos que se pueden obtener
al escoger r tarros distintos sin importar el orden de un conjunto de n.

Con anterioridad se haba logrado determinar que la eleccin de r tarros
importando el orden de un conjunto de n estaba dada por nPr. Por lo tanto, escogidos
r tarros distintos de un total de n, que hemos simbolizado por C, es fcil observar que
si se quieren ordenar, en la primera eleccin se disponen de r tarros, en la segunda
eleccin se disponen de r 1 tarros, hasta la r-sima eleccin que se disponen del
ltimo tarro ya seleccionado, como se muestra a continuacin.

N de posibilidades r r 1 r 2 ........... 2 1

Eleccin 1 2 3 ........... r 1 r


En esta situacin mediante la aplicacin del principio multiplicativo, se
obtiene que el nmero de formas distintas en las que pueden ordenar los r tarros
escogidos de un total de n, se encuentra dada por: r
x
(r 1)
x
(r 2)
x
...
x
1. Se
puede observar que ste ltimo factor multiplicado a C, entrega:

r
x
(r 1)
x
(r 2)
x
...
x
1
x
C = r!
x
C = nPr =
)! (
!
r n
n

.

Por simple despeje se tiene que el nmero de conformaciones distintas que se
pueden obtener de r elementos de un total de n, sin importar el orden sino los
elementos que se conforman, antes definida por C, que en el futuro llamaremos
combinatoria, est dada por:

C =
!
P
r
r n
=
)! ( !
!
r n r
n

.

Definicin 6.5: Combinatoria. Se define la combinatoria de r elementos sobre n como
el nmero de arreglos distintos que se pueden hacer con r elementos de un total de n
sin importar el orden en que son asignados. Esta expresin se anota por:

nCr =
n
r
C =
|
|
.
|

\
|
r
n

=
!
P
r
r n
=
)! ( !
!
r n r
n

.

APLICACIN 6.7 Para formar un comit se van a elegir a tres personas de un total de
10. El nmero de grupos diferentes de tres personas que podran elegirse, sin importar
Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
74
el orden diferente en el que cada uno de los grupos est dado por:

3)! - (10 3!
10!

3 10
= = C C
r n

! 7 ! 3
! 7 8 9 10


= 120
6
720
2 3
8 9 10
= =


= .

6.2 Calculo de Probabilidades

En el enfoque clsico, la probabilidad de un suceso, se basa en el
cuociente del nmero de resultados que son favorables al suceso, con respecto al
nmero total de resultados posibles, y para su eficiente clculo es necesario recurrir a
permutaciones y/o combinaciones.

Adems, antes de iniciar el clculo de probabilidades es necesario recordar
algunas elementales propiedades.


Propiedades de una Medida de probabilidad

Se utiliza el smbolo para designar la probabilidad de un suceso. Luego
[A] denota la probabilidad de que ocurra el suceso A., una propiedad obvia es que:

0 [A] 1

Un evento puede ocurrir o no, luego la suma de la probabilidad de
ocurrencia de un evento ms la probabilidad de no-ocurrencia es siempre igual a 1.

[A] + [A
c
] = 1


APLICACIN 6.8 Suponga que se define como xito, la extraccin de cualquier carta
de un naipe bien barajado de 52 cartas con figura o un as. Como 16 cartas de las 52
son jotas, reinas, reyes o ases, la probabilidad de xito es 16/52 = 4/13 y la
probabilidad de no xito es entonces 9/13.


Eventos Mutuamente Excluyentes

Dos o ms eventos son mutuamente excluyentes, o disjuntos, si no pueden
ocurrir simultneamente. Por ejemplo, supngase que se consideran los eventos as"
y "rey" en la extraccin de una carta de un mazo. Estos dos eventos son mutuamente,
excluyentes porque ninguna carta puede ser al mismo tiempo as y rey.

Dos o ms eventos son no excluyentes cuando es posible que puedan ocurrir
simultneamente. Obsrvese que esta definicin no indica que los eventos deban
necesariamente ocurrir en forma conjunta. Por ejemplo, supngase que se consideran
los eventos as y trbol". Estos eventos no son mutuamente excluyentes porque
Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
75
una carta determinada puede ser al mismo tiempo as y trbol; sin embargo, esto no
implica que todo as sea trbol o que todo trbol sea as.


APLICACIN 6.9 En un estudio de la conducta de los consumidores, un analista
clasifica a las personas que entran en una tienda de aparatos de sonido de acuerdo
con su sexo ("masculino" o "femenino") y su edad ("menor de 30" o "30 o mayor).
Los eventos, masculino y femenino son mutuamente excluyentes puesto que
ninguna persona podra clasificarse en ambas categoras. De manera similar, los
eventos "menor de 30" y "30 o mayor" son tambin mutuamente excluyentes. Sin
embargo, los eventos "masculinos" y menor de 30" no son mutuamente excluyentes
porque una persona elegida al azar podra estar en ambas categoras.


Regla de Aditividad

Se utiliza esta regla cuando se desea determinar la probabilidad de que ocurra
al menos un evento entre dos(o ms). Conceptualmente representa la probabilidad de
que ocurra el evento A o B y se escribe mediante [A U B].

La regla de la adicin para eventos mutuamente excluyentes es:

[A o B] = [A B] = [A] + [B]

APLICACIN 6.10 Cuando se extrae una carta de un mazo de barajas, los eventos "as"
(A) y "rey" (R) son mutuamente excluyentes. La probabilidad de extraer ya sea un as
o un rey en una extraccin es:

[A R] = [A] + [R] =
13
2
52
4
52
4
= +

Nota: La regla de adicin para eventos excluyentes puede generalizarse a tres o ms
eventos.

La regla de la adicin para eventos que no son mutuamente excluyentes es:

[A o B] = [A B] = [A] + [B] [A B]


APLICACIN 6.11 Cuando se extrae una carta de un mazo, los eventos "as" y "trbol"
no son mutuamente excluyentes. La probabilidad de obtener un as (A) o un trbol (T)
(o ambos) en una sola extraccin es:

[A T] = [A] + [T] [A y T] =
13
4
52
1
52
13
52
4
= +

En el lenguaje de conjuntos, la probabilidad [A y T] se escribe [A T], y
Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
76
se interpreta como la probabilidad de que ocurran simultneamente.

Nota: La regla de adicin para eventos no excluyentes puede generalizarse con
algunas variantes a tres o ms eventos.


APLICACIN 6.12 Con el fin de analizar una nueva propuesta, una importante
empresa Inmobiliaria decide convocar a una reunin a cinco Ingenieros, cuatro
Arquitectos y tres Constructores. En dicha reunin se acuerda conformar una
comisin para estudiar la factibilidad del proyecto, que estar integrada por tres
profesionales. El directorio cree que la eleccin de los integrantes debe ser aleatoria,
no obstante, se piensa que al emplear este criterio de seleccin, se pueden dar ciertos
sesgos profesionales. Analicemos algunas situaciones de inters:

El experimento, X : Se escogen tres profesionales al azar.

: {(I
1
, I
2
, I
3
); (I
1
, I
2
, I
4
); (I
1
, I
2
, I
5
); (A
1
, A
2
, I
3
); (A
1
, C
2
, I
3
); ...}

Cul es la probabilidad que la comisin tenga los tres tipos de profesionales?

T : {La comisin quede compuesto por profesionales de distintas carreras}.

[T] =
|
|
.
|

\
|
|
|
.
|

\
|

|
|
.
|

\
|

|
|
.
|

\
|
3
12
1
3
1
4
1
5
= 0,273.


Cul es la probabilidad de que la comisin quede formada por exactamente
dos personas de igual profesin?

U : { quede compuesto por exactamente dos personas de igual profesin}

[U] =
|
|
.
|

\
|
|
|
.
|

\
|

|
|
.
|

\
|
+
|
|
.
|

\
|

|
|
.
|

\
|
+
|
|
.
|

\
|

|
|
.
|

\
|
3
12
1
9
2
3
1
8
2
4
1
7
2
5
= 0,659.


Cul es la probabilidad de que la comisin quede compuesto por al menos
dos personas de profesiones distintas?.

[T U] = 0,273 + 0,659 = 0,932
Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
77
6.3 Probabilidad Condicional y Eventos Independientes

Dos eventos son independientes cuando la ocurrencia de uno no tiene ningn
efecto sobre la probabilidad de ocurrencia del otro y luego son dependientes cuando
la ocurrencia de uno si afecta la probabilidad de ocurrencia del otro evento.

APLICACIN 6.13 Los resultados asociados con el lanzamiento de una moneda, dos
veces seguidas, son claramente eventos independientes, ya que el resultado del primer
lanzamiento no tiene ningn efecto sobre probabilidades del segundo lanzamiento.
Por otra parte la extraccin de dos cartas sin reemplazo de un mazo son claramente
eventos dependientes, ya que las probabilidades asociadas con la segunda extraccin
dependen del resultado de la primera extraccin.

El concepto de probabilidad condicional se emplea para redefinir el clculo
de probabilidad de ocurrencia de un evento dada cierta condicin (o informacin).

La expresin [B / A] mide la probabilidad de que el evento B ocurra dado que el
evento A ocurri. Ntese que "B / A" no es una fraccin.

Si los eventos A y B son independientes, la probabilidad condicional [B /
A] es igual a la probabilidad simple (no condicional) [B]. Por lo tanto, una forma
evaluar la independencia de dos eventos A y B consiste en comparar

[B / A]
?
= [B] o [A / B]
?
= [A]

Si se conoce la probabilidad simple (no condicional) de un primer evento A y
la probabilidad conjunta de dos eventos A y B, entonces se puede determinar la
probabilidad condicional [B / A] mediante:

[B A]

[B / A]=
[A]


Con cierta frecuencia se confunde la diferencia entre eventos mutuamente
excluyentes y no excluyentes, por un lado, y los conceptos de independencia y
dependencia por el otro.


Regla Multiplicativa

La regla multiplicativa se refiere a la determinacin de la probabilidad de la
ocurrencia conjunta de dos ms eventos.

La regla multiplicativa para dos eventos A y B es:

[A B] = [A][B / A]
Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
78
APLICACIN 6.14 Si se lanza dos veces una moneda, la probabilidad de que ambos
resultados sean "cara" es:

[C
1
C
2
] = [C1][C2 / C
1
]= [C1][C2 ]=
4
1
2
1
*
2
1
=

La regla multiplicativa para tres eventos A, B y C es:

[A BC] = [A][B / A][C / A B]

Nota: La regla multiplicativa puede generalizarse fcilmente a ms de tres eventos

Los diagramas de rbol son particularmente tiles para ilustrar los posibles
eventos asociados con observaciones o ensayos secuenciales. La figura, es un
ejemplo de estos diagramas para los eventos asociados con el lanzamiento de una
moneda dos veces, donde se identifica los resultados posibles y la probabilidad en
cada punto de la secuencia.

APLICACIN 6.15 En la figura, se observa que son posibles cuatro tipos de
secuencias de eventos conjuntos, y de acuerdo con la regla para eventos
independientes, la probabilidad de ocurrencia conjunta para cualquiera de esas
secuencias es 1/4 . Como stas son estas las nicas secuencias posibles, y como se
trata de secuencias mutuamente excluyentes, de acuerdo con la regla de adicin la
suma de las cuatro probabilidades conjuntas debe ser 1.0:


APLICACIN 6.16 El Gerente de una empresa de seguridad que presta servicios a
grandes tiendas, para lograr un efectivo control contra robos, debe decidir entre
comprar detectores producidos por Simons Elctrica Universal. La probabilidad de
que el detector producido por Simons, cumpla satisfactoriamente con su propsito es
de 0.90, mientras que la de un detector producido por Elctrica Universal, es de 0.74.
Las empresas proveedoras (Simons Elctrica Universal) presupuestan que para
tener un control efectivo se deben instalar, de forma que funcionen de manera
Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
79
independiente, 3 detectores segn Simons 5 segn Elctrica Universal. Cul
detector es ms conveniente, de manera que maximice la probabilidad de control?.

e
i
: {Detector Siemens i-simo cumple con su propsito}.
c
i
: {Detector Elctrica Universal i-simo cumple con su propsito}.
T : {Detectores instalados cumplen con su funcin}.

[e
i
] = 0.90 [c
i
] = 0.74 i = 1 , ...

[T] = [e
1
e
2
e
3
] = 1 [
c
1
e
c
2
e
c
3
e ].

= 1 [
c
1
e ][
c
2
e ][
c
3
e ] = 0.9990

[T] = [c
1
c
2
c
3
c
4
c
5
]
= 1 [
c
1
c
c
2
c
c
3
c
c
4
c
c
5
c ]
= 1 [
c
1
c ][
c
2
c ][
c
3
c ][
c
4
c ][
c
5
c ] = 0.9988.

De los resultados es conveniente usar el detector Siemens. La empresa en
cuestin se ha adjudicado una importante licitacin, sin embargo sta exige que la
probabilidad de control efectivo sea al menos de 0.9999995. Cuntos detectores
Simons deberan ser instalados?.

[T] > 0.9999995 [e
1
e
2
... e
n
] > 0.9999995
1 [
c
1
e
c
2
e ...
c
n
e ] > 0.9999995

=
n
i 1
[
c
1
e ] < 0.0000005

=
n
i 1
1 . 0 < 0.0000005
(0.1)
n
< 0.0000005

n >
) 1 . 0 (
) 0000005 . 0 (
ln
ln
7

APLICACIN 6.17 Suponga que se sabe que un conjunto de 10 refacciones contiene
ocho en buen estado (B) y dos partes defectuosas (D). Si se seleccionan al azar dos
refacciones sin reemplazo, la probabilidad de que las dos refacciones seleccionadas
estn en buen estado es:

[B
1
y B
2
] = [B
1
] [B
2
/B
1
] =
45
28
9
7
*
10
8
= .

donde los subndices indican la posicin secuencial de los resultados.
Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
80
Regla de Bayes

La regla de Bayes permite actualizar ciertas probabilidades a priori para
transformarse en probabilidades posteriori de un evento (experimento).

La importancia de la regla de Bayes consiste en que se aplica en contexto de
eventos secuenciales y adems, de que proporciona la base para determinar la
probabilidad condicional de un evento a la luz de un evento especifico que ha
ocurrido. La frmula de clculo para el teorema es:

[A B] [A] [B / A]
[A / B]=
[B]
=
[A] [B / A] + [A
c
] [B / A
c
]



Nota: 1. - El denominador es la probabilidad total o global del evento.
2. - La regla de probabilidad total o global puede generalizarse a tres o ms
eventos.


APLICACIN 6.18 Supngase que existen 2 urnas U
1
y U
2
. La urna 1 tiene ocho bolas
rojas y dos bolas verdes, en tanto que la urna 2 tiene cuatro bolas rojas y seis bolas
verdes. Si se elige una urna al azar, y despus se selecciona al azar una bola de esa
urna escogida, el proceso secuencial y las probabilidades pueden representarse
mediante el diagrama de rbol de la figura. El diagrama de rbol indica que la
probabilidad de elegir cualquiera de las urnas es 0,50 y despus, las probabilidades
condicionales de extraer una bola roja (r) o una verde (V) son las que se sealan.


Ahora, supngase que se observ una bola verde Cul es la probabilidad de
que se haya seleccionado la urna 1? En smbolos, [U
1
/ V
2
]?

[U
1
] [V
1
I U
1
]
[U
1
I V
1
] =
[U
1
] [V
1
I U
1
] + [U
2
] [ V
2
I U
2
]

=
) 6 . 0 )( 5 . 0 ( ) 2 . 0 )( 5 . 0 (
) 2 . 0 )( 5 . 0 (
+
= 0.25
Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
81
Debe observarse del ejemplo que la regla Bayes ofrece la base para obtener lo
que podra denominarse un valor de probabilidad "condicional hacia atrs", puesto
que puede determinarse la probabilidad de que se haya seleccionado una urna
determinada en la etapa 1, dada la observacin de un elemento en la etapa dos.

En el anlisis bayesiano de decisin esta regla ofrece la base conceptual para
revisar las probabilidades asociadas con diversos eventos, o estados implicados en un
problema de decisin.


APLICACIN 6.19 Considerar la posible falla de un sistema de abastecimiento de
agua para atender la demanda durante un da de verano. El sistema puede fallar de las
siguientes formas:

M
1
: Suministro inadecuado.
M
2
: Falla de la bomba.
M
3
: Sobrecarga en la planta de purificacin.

Supongamos que la empresa sanitaria ha efectuado un estudio segn el cual
se ha estimado que las probabilidades de falla en el sistema son las que se muestran
en la Tabla 6.1. Adems, la probabilidad de que falle la bomba es de 2% y es
independiente del nivel de demanda.

Tabla 6.1: Probabilidades de falla del sistema

Identificacin
del nivel de
demanda
Nivel de
demanda
[m
3
/da]
[D
i
] =
[Nivel de
demanda]
[M
1
| D
i
] =
[Suministro inadecuado
| Nivel de demanda]
[M
3
| D
i
] = [Sobrecarga
en la planta | Nivel de
demanda]
D
1
100.000 0,6 0,0 0,0
D
2
150.000 0,3 0,1 0,0
D
3
200.000 0,1 0,5 0,1

La probabilidad de suministro inadecuado es:

[M
1
] = [M
1
/ D
1
][D
1
] + [M
1
/ D
2
][D
2
] + [M
1
/ D
3
][D
3
]

= 0.00,6 + 0,10,3 + 0,50,1 = 0,080


La probabilidad de falla, cualquiera sea el motivo, cuando el nivel de
demanda es 150.000 [m
3
/da].

[M
1
M
2
M
3
/ D
2
] = [M
1
/ D
2
] + [M
2
/ D
2
] + [M
3
/ D
2
]

= 0,10 + 0,02 + 0,00 = 0,120

Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
82
La probabilidad de falla del sistema es:

[M
1
M
2
M
3
] = [M
1
] + [M
2
] + [M
3
] Probabilidad de falla

[M
3
] = [M
3
/ D
1
][D
1
] + [M
3
/ D
2
][D
2
] + [M
3
/ D
3
][D
3
]

= 0.00,6 + 0,00,3 + 0,10,1 = 0,010

[M
1
M
2
M
3
] = 0,080 + 0,020 + 0,010 = 0,110

La probabilidad de falla del sistema si se pone una bomba adicional, para que
opere en caso de que falle la primera bomba, y cuya falla es independiente de la falla
de la primera bomba es:

[M
1
(M
21
M
22
) M
3
] = [M
1
] + [ M
21
M
22
] + [M
3
]

= 0,080 + 0,0200,020 + 0,010 = 0,0904


APLICACIN 6.20 Cada vez que cliente compra articulo, elige la marca A la marca
B. Supngase que en cada compra despus de la primera, la probabilidad de que elija
la misma marca que escogi en la compra anterior es 1/3 y la probabilidad que
cambie de marca 2/3. Supngase que en su primera compra la probabilidad que elija
la marca A es 1/4, cul es la probabilidad de que su segunda compra sea de la marca
B?.

T
i
: {El cliente compra articulo de la marca A en la i-sima compra}
U
i
: {El cliente compra articulo de la marca B en la i-sima compra }

[T
i
/T
i 1
] = [U
i
/U
i 1
] =
3
1
i = 2, 3, ...

[T
i
/U
i 1
] = [U
i
/T
i 1
] =
3
2
i = 2, 3, ...

[T
1
] =
4
1
[U
1
] =
4
3
[U
2
] =?

[U
2
] = [T
1
U
2
] + [U
1
U
2
] = [U
2
/ T
1
][T
1
] + [U
2
/ U
1
] [U
1
]

=
3
2

4
1
+
3
1

4
3
=
12
5


Bajo los mismos supuestos de la parte a), cul es la probabilidad de que si su
Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
83
segunda compra fue de la marca B, la primera haya sido de la marca A?.


[U
2
/ T
1
][T
1
]
3
2

4
1

[T
1
/ U
2
] =
[U
2
]
= =
5
2

12
5



Si es igualmente probable que en su primera compra elija la marca A o la
Marca B, cul es la probabilidad de que la primera y la segunda compra sean de la
marca A, y la tercera y cuarta, de la marca B?.

[T
1
] = [U
1
] =
2
1
[T
1
T
2
U
3
U
4
] = ?

[T
1


T
2


U
3


U
4
] = [U
4
/

T
1


T
2


U
3
][U
3
/

T
1


T
2
][T
2
/T
1
][T
1
]

= [U
4
/ U
3
] [U
3
/ T
2
] [T
2
/T
1
] [T
1
]

=
3
1

3
2

3
1

2
1
=
27
1



Probabilidades Conjuntas

Una tabla de probabilidades conjuntas es aqulla en la cual se listan como
encabezados de rengln todos los posibles eventos (o resultados) para una variable;
encabezados de columnas se listan todos los posibles eventos para una segunda
variable, y el valor que se anota en cada una de las celdas de la tabla es la
probabilidad de su ocurrencia conjunta. Es frecuente que las probabilidades de este
tipo de tablas se basen en las frecuencias de ocurrencia observadas para los diversos
eventos conjuntos, ms que en eventos que son a priori por naturaleza. La tabla de
frecuencias de ocurrencia conjuntas que puede servir como base para construir una
tabla de probabilidades conjuntas se denomina tabla de contingencias.

APLICACIN 6.21 La Tabla 6.2 de contingencias describe a 200 clientes que entraron
en una tienda de equipos de sonido de acuerdo con sexo y edad, en tanto que la Tabla
6.3, es la tabla correspondiente de probabilidades conjuntas.

Tabla 6.2: Frecuencias para los clientes que entraron en una tienda de equipos.

Sexo
Edad
Hombre Mujer
Total
Menor de 30 60 50 110
30 y mayor 80 10 90
Total 140 60 200
Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
84
Tabla 6.3: Probabilidad conjunta de clientes que entraron en una tienda de equipos.

Sexo
Edad
Hombre Mujer
Probabilidad
Marginal
Menor de 30 0.30 0.25 0.55
30 y mayor 0.40 0.05 0.45
Probabilidad
Marginal
0.70 0.30 1.00


En el contexto de las tablas de probabilidad conjunta se denomina
probabilidad marginal a las probabilidades que son un total marginal de regln o
columna.

Los valores de probabilidad de las celdas son probabilidad de ocurrencia
conjunta, las probabilidades marginales son las probabilidades simples, no
condicionales, de eventos especficos.



6.4 Variables Aleatorias


En el proceso de construccin de medidas de probabilidad, distinguimos los
siguientes elementos:


Figura 6.3: Medidas de la probabilidad.

Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
85
El espacio muestral de inters , ha sido caracterizado por:



En trminos sencillos, una variable aleatoria, es una funcin que permite trabajar
cualquier espacio muestral de manera cuantitativa.


Definicin 6.6: Sea X un experimento aleatorio y H un espacio muestral asociado al
experimento. Se dice que X es una variable aleatoria (v.a.) si es una funcin
(medible) de H en los nmeros reales, es decir:


Nota: En trminos ms sencillos e intuitivos, se puede definir una variable aleatoria,
como una funcin que toma valores en probabilidad, es decir, no se puede predecir
con certeza sus valores resultados.


Si aceptamos esta segunda definicin:

En qu situaciones se puede predecir con certeza?

La respuesta nos lleva a pensar que, en el da a da (trabajo, hogar, etc.)
estamos rodeados de variables aleatorias

Las variables aleatorias (v.a.) son caracterizadas segn los posibles valores
que stas puedan tomar, es decir, segn su recorrido, que se simbolizar por e
x.



Definicin 6.7: Se dice que X es una v.a. discreta, si su recorrido e
x.
es numerable
(finito infinito).

Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
86
APLICACIN 6.22 Ejemplo de una variable aleatoria discreta con. e
x
finito.





APLICACIN 6.23 Ejemplo de una variable aleatoria. discreta con. e
x
infinito
(numerable).





Definicin 6.8: Se dice que X es una variable aleatoria continua, si su recorrido e
x.

es no numerable, es decir, que estos pueden tomar cualquier valor en intervalos de la
recta real (IR).

Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
87
APLICACIN 6.24 Ejemplo de una variable aleatoria. continua:




Funciones de distribucin (Probabilidad acumulada)

Supongamos que se tiene que X es una v. a. discreta, donde los valores que
toma son: x
1
, x
2
, x
3
,..., x
k
, con x
1
< x
2
< x
3
<... < x
k
, entonces se tiene que en e, se
pueden representar por:


Entonces, sobre la base de esta variable aleatoria discreta, cuyo concepto se
puede tambin extender a variables continuas, puede construir la funcin de
probabilidad acumulada, como la probabilidad de que la variable aleatoria X sea
menor o igual a x e. Notar que es la misma nocin de frecuencia relativa
acumulada de estadstica descriptiva.

Definicin 6.9: Sea X es una v.a., entonces, se define la funcin de distribucin de
probabilidad, como la probabilidad de que la variable aleatoria X sea menor o igual a
x e, y se simboliza por F
x
(x) = [X x], la cual cumple con las siguientes
propiedades:


3. F
x
(x) es una funcin no decreciente y continua a la derecha.
Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
88
Analicemos como construir la funcin anterior: En un problema de control de
calidad, se tiene una poblacin de 25 artculos, donde se asume que 10 presentan
pequeos defectos, si se elige una muestra al azar de 3 artculos. Determine F
x
(x),
donde X:= Nmero de artculos defectuosos en la muestra.

Notemos en primer lugar que e
x
= {0, 1, 2, 3}, luego s:

x < 0 F
x
(x) = [X x] = 0

0 x < 1 F
x
(x) = [X x] =
|
|
.
|

\
|
|
|
.
|

\
|
|
|
.
|

\
|
3
25
3
15

0
10
= 0,198

1 x < 2 F
x
(x) = [X x] =
|
|
.
|

\
|
|
|
.
|

\
|
|
|
.
|

\
|
3
25
3
15

0
10
+
|
|
.
|

\
|
|
|
.
|

\
|
|
|
.
|

\
|
3
25
2
15

1
10
= 0,655

2 x < 3 F
x
(x) = [X x] =
|
|
.
|

\
|
|
|
.
|

\
|
|
|
.
|

\
|
3
25
3
15

0
10
+
|
|
.
|

\
|
|
|
.
|

\
|
|
|
.
|

\
|
3
25
2
15

1
10


+
|
|
.
|

\
|
|
|
.
|

\
|
|
|
.
|

\
|
3
25
1
15

2
10
= 0,949

x 3
F
x
(x) = [X x] =
|
|
.
|

\
|
|
|
.
|

\
|
|
|
.
|

\
|
3
25
3
15

0
10
+
|
|
.
|

\
|
|
|
.
|

\
|
|
|
.
|

\
|
3
25
2
15

1
10
+
|
|
.
|

\
|
|
|
.
|

\
|
|
|
.
|

\
|
3
25
1
15

2
10
+


|
|
.
|

\
|
|
|
.
|

\
|
|
|
.
|

\
|
3
25
0
15

3
10
= 1,000
Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
89
La grfica de Fx(x) est dada por:



Definicin 6.10: Sea X una v.a discreta., entonces se define la funcin de cuanta
masa de probabilidad, como la probabilidad de que la variable aleatoria X tome un
valor especfico x, que se simboliza por f
x
(x) = [X = x] y cumple con las siguientes
propiedades:

1. f
x
(x) = [X = x] 0 , x e.

3. f
x
(x) = [X x] [X x 1] = F
x
(x) F
x
(x 1)


De donde se tiene que la funcin de cuanta toma valores distintos de cero
slo para x e
x
= {0, 1, 2, 3}, y estos son:

f
x
(0) =
|
|
.
|

\
|
|
|
.
|

\
|
|
|
.
|

\
|
3
25
3
15

0
10
= 0.198 ; f
x
(1) =
|
|
.
|

\
|
|
|
.
|

\
|
|
|
.
|

\
|
3
25
2
15

1
10
= 0,457

f
x
(2) =
|
|
.
|

\
|
|
|
.
|

\
|
|
|
.
|

\
|
3
25
1
15

2
10
= 0.293; f
x
(3) =
|
|
.
|

\
|
|
|
.
|

\
|
|
|
.
|

\
|
3
25
0
15

3
10
= 0,052
Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
90
Donde la grfica de f
x
(x) ([X = x]) es:



En el caso de una variable aleatoria continua X, su recorrido e
x.
es no
numerable, y luego [X = x] = 0 x e. Para este caso tenemos la funcin de
densidad de probabilidad, definida ms adelante.


A modo de ejemplo, consideremos la variable aleatoria X:=Tiempo de espera
en la fila de un banco, la cual es claramente una variable aleatoria continua, cuya
funcin de densidad es f
x
(x) hipottica, se destaca en la figura.


Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
91
Definicin 6.11: Sea X es una v.a. continua, entonces f
x
(x) es una funcin de densidad
de probabilidad (f.d.p.) para X, s f
x
(x), satisface las propiedades:

1. f
x
(x) 0, para casi todo x e.

Un modelo adecuado para f
X
(x), la funcin de densidad asociada a los tiempos
de espera en la fila del banco (en minutos), puede ser:


En primer lugar verifiquemos que f
X
(x), es f.d.p., es decir que cumple con la
definicin 6. En primer trmino, se puede observar que f
X
(x) es decreciente con
imagen positiva, y queda por verificar que;


{ }


=
)
`

0 0
d
45 45
1
u u exp x
x
exp = 1

Como f
X
(x) es f.d.p., podemos calcular probabilidades, como por ejemplo: La
probabilidad que una persona se demore ms de 45 minutos, en ser atendida,
simblicamente [X > 45].

[X > 45] = 0,368.
45 45
1
45

=
)
`

dx
x
exp
Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
92
6.5 Valor Esperado

El primer estudio sistemtico del valor esperado se debe a Huygens (en su
obra Libellus de Ratiotiniis in Ludo Aleae, de 1657), que calcula el valor justo de un
juego a partir de una respuesta obvia en situaciones simtricas, y luego generalizando
el valor esperado a cualquier situacin. Est comienza suponiendo que, s se espera
ganar a b, cualquiera de los dos casos con igual probabilidad, entonces la
expectativa vale: (a + b) / 2, es decir, el promedio de a y b.

Posteriormente, Huygens considera el caso en que las posibles ganancias son
a y b, pero con probabilidades distintas. Supone que hay p oportunidades de ganar a,
y q oportunidades de ganar b. Por tanto, generalizando la idea anterior, considerando
un juego equivalente en el que cada uno de los p + q resultados ocurre con la misma
probabilidad, pero en p de ellos se obtiene una ganancia a y en las q restantes una
ganancia b, el valor esperado ser igual a:

p q
a b
p q p q
+
+ +


En definitiva, se utilizaba una idea similar a la acepcin vulgar del trmino
esperanza. Si se consulta el Diccionario de la Real Academia, se encuentra la
siguiente acepcin: estado del nimo en el cual se nos presenta como posible lo que
deseamos. De hecho, inicialmente se confunda la esperanza del juego con su
resultado positivo, llegando Laplace (1814), a considerar el caso de prdida, al
denominar a esta situacin negativa esperada como temor.

En este sentido la sigui utilizando Jacob Bernoulli (1713) para indicar la
situacin de un jugador que deseaba ganar el juego en el que participaba. Su
razonamiento, al contrario que el de Huygens, utiliza la nocin de frecuencia, y no se
basaba en la simetra de la situacin. El razon de la siguiente manera: en un juego
concreto el resultado es incierto pero, basndose en la experiencia de partidas
pasadas, se poda asignar una valoracin a priori de los porcentajes de veces en que se
ganaba o se perda.

Estas proporciones, posteriormente fueron asimiladas a probabilidades
(nocin clsica de probabilidad). El valor esperado del juego sera entonces:

ganancia (proporcin de veces que gana)
prdida (proporcin de veces que pierde)
= Valor Monetario Esperado

Por ltimo, la aplicacin de este enfoque, al caso general de un juego que
presente ms de dos posibles resultados, conduce a la expresin:

[X] = | | X
x
x
x x

P (Valor esperado de X)
Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
93
Definicin 12: Sea X una v.a, entonces, se define el valor esperado de una funcin
real, g(X) de X, como:

[g(X)] =
| |
(X) X
(X) ( )
x
x
x
x
g x
g f x dx

P


El valor esperado de g(X) es un nmero, adems existe un conjunto de
funciones g(X) cuyo valor esperado, representa medidas especficas, ya sea de
tendencia central, variabilidad forma, etc.

Definicin 6.13: Sea X es una v.a, se define el valor esperado esperanza matemtica
de X, como:

[X] =
| | X X
X ( )
x
x
x
x
x
f x dx

P




Propiedades: Sean a y b constantes y X una variable aleatoria, entonces:

1. [a] = a
2. [X] = . = constante.
3. [aX] = a [X]
4. [aX + b] = [aX] + [b] = a [X] + b


Definicin 6.14: La varianza de una variable aleatoria X, se define como el valor
esperado del cuadrado de la diferencia entre la variable aleatoria y su valor esperado,
la cual est dada por:

[(X [X])
2
] =
| |
2
2
[X - [X]] X
[X - [[X]] ( )
x
x
x
x
x
f x dx

E P
E



Notemos que en este caso la funcin cuadrtica es g(X)= (X [X])
2
, y que
mediante operaciones algebraicas se puede descomponer en la diferencia de dos
Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
94
valores esperados, ms fciles de calcular desde el punto de vista del clculo, como se
demuestra a continuacin:

[(X [X])
2
] = [(X [X]) (X [X])] = [X
2
2X[X] + ([X])
2
]

= [X
2
] [2X[X]] + [([X])
2
]

= [X
2
] [2X.] + [.
2
]

= [X
2
] 2.[X] + .
2


= [X
2
] 2.. + .
2


= [X
2
] 2.
2
+ .
2


= [X
2
] .
2
= [X
2
] ([X])
2

donde;

[X
2
] =
| |



x
x
x
x
dx x f
x
) ( X
X P X
2
2




Propiedades: Sean a y b constantes y X una variable aleatoria cualquiera, entonces:

1. [a] = 0
2. [X] = 5
2
= constante.
3. [aX] = a
2
[X]
4. [aX + b] = [aX] + [b] = a
2
[X] + 0 = a
2
[X]


Adems se puede apreciar que para la funciones g(X) dadas por: (X [X])
3

y (X [X])
4
, su valor esperado es equivalente al clculo de los coeficientes de
simetra y curtosis de Ficher m
3
y m
4
.


APLICACIN 6.25 La funcin de probabilidad de X, el nmero de defectos por cada
10 metros de una tela sinttica en rollos continuos de ancho uniforme, es:

x 0 1 2 3 4

X
(x)
0,41 0,37

0,05 0,01

Cul debe ser el valor de ?
Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
95
En primer lugar 0 , y adems debe verificar que:


4
0 x=

[X = x] = 1 0,41 + 0,37 + + 0,05 + 0,01 = 1,00


= 0,16

La grfica de la funcin de distribucin probabilidad, se presenta en forma
escalonada, ocurriendo los saltos en cada uno de los puntos, donde la variable
aleatoria tiene probabilidad positiva, como se muestra a continuacin


X
0, 00 0
0, 41 1
0, 78 2
F ( )
0, 94 3
0, 99 4
1, 00 4
x
x
x
x
x
x
x
<

<

<

<

<




Tambin es posible realizar el clculo de algunas probabilidades sencillas
como las que se muestran a continuacin:

[X > 3] = 0.01

[1 < X < 3] [X = 2] 0.16
[X > 1 / X < 3] =
[X < 3]
=
[X < 3]
=
0.94
= 0.1702


Determinar el valor esperado, varianza y la desviacin estndar de X.

[X] = = 0 0.41 1 0.37 ... 4 0.01 + + + = 0.88 (valor esperado)

[X
2
] =
2 2 2
0 0.41 1 0.37 ... 4 0.01 + + + = 1.62

[X] =
2
= [X
2
] ([X])
2
= 1.62 0.88
2
= 0.8456 (Variabilidad)

8456 . 0 = = 0.91956 (desviacin estndar)

Adems, el costo esperado, si suponemos que el costo por defecto es:

>
<
=
. . .


) (
c o e 1500
2 x si 5000
2 x si 500
X G
0.0
0.2
0.4
0.6
0.8
1.0
-1 0 1 2 3 4 5
x
F
X
(
x
)

Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
96
[G(X)] = 500[X < 2] + 5000[X > 2]+ 500[X = 2]

= 500(0,41 + 0,37) + 5000(0,05+0,01) + 15000,16

= 930.


APLICACIN 6.26 Si suponemos que la funcin de densidad del tiempo de vida
(horas de operacin), hasta que fallen ciertas mquinas en un proceso productivo es:


e.o.c. 0
80
80
) (
2


=
t
t
t f

Cul es la probabilidad de que una mquina elegida al azar funcione ms de
120 horas?.

Sea T:= v.a tiempo de vida de una mquina [horas de operacin], se pide:

[T > 120] = 1 - [T 120] = 1
120
2
80
80
dt
t

= 1
(
(

120
80
80
t
=
3
2



Tambin es posible determinar probabilidades condicionales, como por
ejemplo si se ha observado que cierta mquina lleva funcionando ms 150 horas
(condicin), la probabilidad de que falle antes de las 200 horas, est dada por:


[150 T < 200]
1 [T 150]
[T < 200 / T 150] =



200
2
150
80
dt
t


15
2
=
1
150
2
80
80
dt
t


=
15
8
=
4
1


6.6 Algunos Modelos Comunes en Ingeniera

Los modelos que estudiaremos son frecuentemente utilizados en ingeniera,
Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
97
estn caracterizados por la funcin de masa de probabilidades en el caso discreto, y
densidad en el caso continuo.


6.6.1 Modelo Hipergeomtrico

Es un modelo de caracterstica discreta (distribucin), til para poblaciones
finitas (pequeas).

Supongamos que N es el nmero de elementos de la poblacin, por ejemplo;
la produccin de artculos en un da determinado, la cantidad de habitantes de una
determinada regin, etc. Adems, supongamos que k, es el numero de elementos de
la poblacin que cumplen con cierta cualidad observable (k < N), por ejemplo, la
cantidad de defectuosos de la produccin de artculos de ese da, etc. Es posible
observar que la poblacin de N elementos ha sido dividida en dos grupos: Aquellos
que pertenecen al grupo 1, E
1
, como los artculos no defectuosos, y aquellos que
pertenecen al grupo 2, E
2
, como los artculos no defectuosos.

Si de esta poblacin se toma una muestra aleatoria de n elementos, como se
muestra la figura. Entonces la variable aleatoria, X:= Nmero de artculos en la
muestra que cumplen con la cualidad (ser defectuoso por ejemplo), puede modelarse
por la siguiente funcin de masa de probabilidad:


[X = a] =
k N - k

a - a
N
n
n
| | | |
| |
\ . \ .
| |
|
\ .
a = 1, 2, ... , min{k, n}

APLICACIN 6.27 Suponga una caja con 25 artculos de los cuales 10 presentan una
cualidad especial (ser rojos, defectuosos, etc.), entonces si se toma una muestra de 3
artculos, y se define:

X:= nmero de artculos que presentan esa cualidad especial en la muestra.

Claramente en la muestra no puede haber ms artculos con la cualidad
n
Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
98
especial, que el tamao de la misma. Sin embargo, si en el lote hubiese slo 2
artculos con esa cualidad especial, en la muestra no puede haber ms dos con la
cualidad especial. Las distintas alternativas para este caso son:

[X = 0] =
10 15

0 3
25
3
| | | |
| |
\ . \ .
| |
|
\ .
= 0.198

[X = 1] =
10 15

1 2
25
3
| | | |
| |
\ . \ .
| |
|
\ .
= 0.457

[X = 2] =
10 15

2 1
25
3
| | | |
| |
\ . \ .
| |
|
\ .
= 0.293

[X = 3] =
10 15

3 0
25
3
| | | |
| |
\ . \ .
| |
|
\ .
= 0.052

La grfica de P
x
(x) (P[X = x]) est dada por:



Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
99
Tambin es posible demostrar que en el caso general trminos la media y
varianza son respectivamente:

[X] = = n
k

N
artculos

[X] =
2
= [X
2
] ([X])
2
= n
k

N

k
1 -
N
| |
|
\ .

N -
N - 1
n | |
|
\ .
. artculos
2


APLICACIN 6.28 Considere un fabricante de lanchas que compra motores a una
compaa donde se fabrican bajo estrictas normas de especificacin. El fabricante
recibe un lote de 40 motores. Su plan de muestreo para aceptar el lote consiste en
seleccionar ocho motores al azar y someterlos a prueba. Si encuentra que ninguno de
los motores presenta serios defectos, el fabricante acepta el lote, de otra forma lo
rechaza. Si el lote contiene dos motores con serios defectos, Cul es la probabilidad
de que el lote sea aceptado?.

X: El nmero de motores que presentan defectos en la muestra.

[X = 0] =
2 38

0 8
40
8
| | | |
| |
\ . \ .
| |
|
\ .
= 0.6359

Cuntos motores se espera sean defectuosos en la muestra?

[X] = = n
k

N
=3
40
2
Motores


6.6.2 Modelo Binomial

Esta es una de las distribuciones ms tiles, pues sus reas de aplicacin
incluyen: medicina, ventas, investigaciones de mercado, inspecciones de calidad, etc.

Consideremos nuevamente una poblacin que cumple con caractersticas
dicotmicas, es decir, un grupo de la poblacin cumple con tener la caracterstica y
otro no, llmese xito aquel elemento que cumple con la caracterstica, y fracaso
el elemento que no cumple. Supongamos adems, que la probabilidad de xito p se
mantiene constate en el curso de los ensayos. .

Si de esta poblacin se escogen n elementos en forma independiente
(sustitucin), y se define la variable aleatoria, X:= Nmero de xitos en estos n
ensayos, entonces X sigue un modelo Binomial.
Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
100
La funcin de masa de probabilidades se puede deducir de la siguiente forma:
Consideremos el caso particular de que en n ensayos independientes se obtengan a
xitos consecutivos en los primeros a ensayos y posteriormente n a fracasos.

Como los ensayos son independientes y la probabilidad de xito es constante,
la probabilidad en este caso es el siguiente producto:



Extendamos ahora el problema para obtener a xitos en n ensayos sin
restriccin. Como se puede apreciar en la figura anterior, esta muestra slo un orden
donde se cumple con el requisito a xitos, pero no todos los posibles, ya que los
xitos pueden presentarse en distintas combinaciones en los n ensayos. Luego
probabilidad de obtener a xitos en n ensayos con el natural requisito de: 0 a
n, est dada por:

[X = a] =
a
n | |
|
\ .
p
a
(1 p)
n a
, a = 0, 1, 2,.. n


APLICACIN 6.29 Considere nuevamente el fabricante de lanchas. El fabricante
recibe un lote de 40 motores. Su plan de muestreo para aceptar el lote consiste en
seleccionar ocho motores al azar y someterlos a prueba, si ninguno de los motores
presenta serios defectos acepta el lote, de otra forma lo rechaza. Si el lote contiene
dos motores con serios defectos, Cul es la probabilidad de 15 lotes muestreados 10
sean aceptados?.

Consideramos las siguientes situaciones:

X: nmero de lotes aceptados.

p: probabilidad que un lote sea aceptado (0.6359 calculado anteriormente), entonces:

[X = 10] =
15
10
| |
|
\ .
0.6359
10
(1 0.6359)
15 10
= 0.2078

El nmero medio esperado de lotes que sern aceptados, que est dado por:

[X] = = np = 15 0.6359 9,54 lotes aceptados (Interpretar)
Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
101
Adems se puede determinar que la varianza es:

[X] =
2
= np (1 p) = 15 0.63590.36413.47 (Interpretar)

APLICACIN 6.30 Suponga que el 65% de un particular tipo de ratas, cuando es
inyectada con una dosis de estimulante, muestra un comportamiento agresivo. Un
experimentador aplica el estimulante a quince ratas, una despus de otra y observa la
presencia o ausencia de agresividad en cada uno de los casos. Determine las
siguientes probabilidades (bajo el supuesto de independencia entre las probabilidades
de agresividad de las ratas).

Exactamente dos ratas agresivas.

Sea X:=Nmero de ratas (experimento) que muestra comportamiento agresivo

[X = 2] =
|
|
.
|

\
|
2
15
0,65
2
0,35
13
= 0,0001 (0,0000525)

Diez o ms ratas son agresivas.

[X 10] = 1 [X 9] = 1
9
15
0
15
0, 65 0, 35
x x
x
x

=
| |

|
\ .



= 1 0,4357 = 0,5643 (Uso de Tablas o calculadoras)

Suponga que el experimentador aplic el estimulante a 80 ratas, de las cuales
muestre 12. La probabilidad de tener exactamente dos ratas agresivas es:

[Y = 2] =
|
|
.
|

\
|
|
|
.
|

\
|
|
|
.
|

\
|
12
80
10
28
2
52
= 0,0003

En este ltimo ejemplo, se trabaja con el supuesto que de la poblacin, el
65%, debera tener un comportamiento agresivo, de ah el hecho que se espera que
existan 52 ratas agresivas de las 80 bajo estudio.


Como se habr podido apreciar el modelo binomial es muy parecido al
modelo Hipergeomtrico, pues en ambos se miden xitos sobre la base de
poblaciones dicotmicas (xito v/s fracaso), sin embargo poseen importantes
diferencias, como lo son:

En el modelo Hipergeomtrico se tiene una poblacin finita y el muestreo es
sin reemplazo.
Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
102
Si en el modelo binomial, el tamao de la poblacin es finito, para mantener la
independencia y probabilidad de xito constante, se debe utilizar un muestreo
con reemplazo.
Si en el modelo binomial, el tamao de la poblacin es infinito (muy grande),
slo debemos garantizar probabilidad de xito constante.


Las diferencias entre ambos modelos, disminuyen notablemente cuando el
tamao de la poblacin (N) es grande, y la relacin entre el tamao de la muestra (n),
y el tamao de la poblacin (N) es pequeo.

En este caso se muestra que: X H(N; k; n) B(n,
N
k
).

En la Tabla 6.4 se observan las probabilidades para una muestra de 10
elementos, donde la poblacin es de 100 elementos, y hay 20 elementos con la
caracterstica. Se aprecia la aproximacin de la distribucin Hipergeomtrica por la
distribucin binomial.

Tabla 6.4: Probabilidades exactas y aproximadas

x Hipergeomtrica Binomial
2 0.3182 0.30199
3 0.2092 0.20133
4 0.0841 0.08808
5 0.0215 0.02642
6 0.0035 0.00551
7 0.0004 0.00079
8 0.0000 0.00007
9 0.0000 0.00000
10 0.0000 0.00000


6.6.3 Modelo Poisson

Otro modelo de distribucin discreta, que se utiliza en una amplia variedad de
situaciones, donde se cuenta el nmero de eventos que ocurren aleatoriamente en el
tiempo (rea, volumen, etc.) a una tasa constante, es el modelo Poisson. Ejemplos
tpicos son:

Nmeros de Aviones, Buques, Camiones que llegan a un punto.
Nmero de defectos en una lmina de algn metal.
Nmero de bacterias en un cultivo.
Nmero de rboles daados.
etc.

Si se define X:= Nmero de eventos que ocurren por unidad de tiempo
Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
103
(espacio, volumen), entonces se prueba que bajo ciertos supuestos:

[X = a] =
a!
a


e
, a = 0, 1, 2,....

En este modelo se puede probar que el nmero esperado es [X] = , y la
variabilidad en torno al valor medio es [X]= .

APLICACIN 6.31 Suponga que el nmero de defectos en lminas de 1 metro por 2
metros se distribuyen aleatoriamente en las lminas, con una media de 6 defectos por
lmina. Cul es la probabilidad de que en una lmina escogida al azar se encuentren
ocho defectos?.

X:= Nmero de defectos [Por lmina], luego X c(6)

[X = 8] =
8!
8 6
6

e
= 0.1033

Se puede verificar que cuando el tamao de una muestra es grande, y la
probabilidad que de que cumpla con la caracterstica es muy pequea, existe una
buena aproximacin entre los resultados de modelo binomial con los resultados de un
modelo Poisson, tal como se muestra a continuacin:

X B(n, p) c(np).

Bajo las idnticas suposiciones se puede apreciar adems la siguiente
relacin:

X H (N; k; n) B (n, p) c(np).

Considere una poblacin de 100 elementos, donde los elementos que cumplen
con una caracterstica son 20 y se toma una muestra de 10 elementos. La
aproximacin de la distribucin Hipergeomtrica con la distribucin binomial y con
la distribucin Poisson se muestra en la tabla siguiente:

Tabla 6.3: Probabilidades exactas y aproximadas

x Hipergeomtrica Binomial Poisson
2 0.3182 0.30199 0.27067
3 0.2092 0.20133 0.18045
4 0.0841 0.08808 0.09022
5 0.0215 0.02642 0.03609
6 0.0035 0.00551 0.01203
7 0.0004 0.00079 0.00344
8 0.0000 0.00007 0.00086
9 0.0000 0.00000 0.00019
10 0.0000 0.00000 0.00004
Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
104
APLICACIN 6.32 Considere nuevamente el fabricante de lanchas que compra
motores a una compaa donde se fabrican bajo estrictas normas de especificacin. El
fabricante recibe un lote de 1000 motores. Su plan de muestreo para aceptar el lote
consiste en seleccionar 15 motores al azar y someterlos a prueba. Si encuentra que
ninguno de los motores presenta serios defectos, el fabricante acepta el lote, de otra
forma lo rechaza. Si el lote contiene 40 motores con serios defectos, cul es la
probabilidad de el lote sea aceptado?.

Si definimos X: Nmero de motores defectuosos en el lote.

Se tiene la aproximacin:
[X = 0] =
|
|
.
|

\
|
|
|
.
|

\
|
|
|
.
|

\
|
15
1000
15
960

0
40
exp (-0.60) = 0.5488

A modo de ejercicio se compara con el resultado de la probabilidad exacta que
para este caso particular es coincide con el esquema de la aproximacin binomial.

[X = 0] =
|
|
.
|

\
|
|
|
.
|

\
|
|
|
.
|

\
|
15
1000
15
960

0
40
= 0.5397


6.6.4 Modelo Normal

La distribucin Normal o Gausiana es, sin lugar a dudas, la ms importante y
la de mayor uso en los modelos para variables aleatorias continuas. Es la piedra
angular en el anlisis de datos, y en la aplicacin de la inferencia estadstica.

Ejemplos comunes del uso de este modelo, se encuentran en todas las reas
del conocimiento humano, por ejemplo: datos de temperatura, precipitacin pluvial;
datos de voltajes, datos de resistencias, errores de medicin, etc.

En general es un modelo muy popular, es inicialmente utilizado para
representar errores o desviaciones en mediciones fsicas. El modelo Normal es
representado por la siguiente funcin de densidad:

f(x) =

|
.
|

\
|


2
2
1
2
1 x
exp ; x , ,
+
.


Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
105
La cual tiene la siguiente forma:


Como se puede observar, la curva presenta una cima o mximo, adems es
simtrica con respecto a su valor medio .

Notacin: XN( ;
2
) , donde es su valor medio), y es la desviacin.

Si tomamos la transformacin:


=
X
Z , entonces :

Si XN ( ;
2
) , bajo esta transformacin la variable aleatoria Z, contina
siendo normal, con media cero y varianza, es decir Z N(0, 1).

La variable aleatoria Z, se denomina Normal estndar y se encuentra
ampliamente tabulada (tablas, calculadoras) para el clculo de probabilidades.




APLICACIN 6.33 El dimetro de un eje metlico empleado en la unidad de disco de
una computadora se supone tiene distribucin normal. La media actual del proceso de
fabricacin de 0.1505 [plg.] y coeficiente de variacin de 0.004. Se han determinado
Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
106
los lmites de especificacin para el dimetro del eje como 0.1500 0.0015 [plg.].
Calcule la fraccin de ejes producidos que cumplen con las especificaciones.

X: Dimetro de un eje metlico [en plg.]

X Y
N
(0.1505,
2
); CV = 0.004 = 0.004 = 0.00602

[X < 0,1485] =
(

0,000602
.1505 0 0,1485
Z = [Z 3,32] = 0.0005

[X < 0,1515] =
(

0,000602
.1505 0 0,1515
Z = [Z 1,66] = 0.9515

La fraccin de ejes producidos que cumplen con las especificaciones es
95,1%.


APLICACIN 6.34 Las bandas de plstico que se utilizan en un dispositivo
electrnico para deteccin, se fabrican de manera que satisfagan una especificacin
de valor mximo de 305.28 mm. y una especificacin mnima de 304.55 mm. Si la
dimensin de las bandas es menor que la especificacin mnima, se desechan, si son
ms grandes, se reelaboran. Se ha probado que las dimensiones de estas piezas estn
distribuidas normalmente con una desviacin estndar de 0.25 mm. y que slo el 5%
de las bandas se desechan. Cul es el tamao medio de las bandas de plstico?.

Sea X:= Dimensin de las bandas de plstico [en mm.]

X Y
N
(
x
, (0,25)
2
)

[X < 304,55] = 0,05
(

0,25
304,55

x

Z = 0,05


0,25
304,55
x

= 1,645
x
= 304,96 [mm]

Qu porcentaje de bandas se reelabora?.

[X > 305,28] =
(

0,25
304,96 305,28
Z

= 1 [Z 1,28] = 0,1003

Luego el porcentaje de bandas se reelabora es de 10,03%.
Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
107
Si se toma una muestra de 24 bandas. Cul es la probabilidad de que no
menos de 22 cumplan con las especificaciones, sin necesidad de reelaborarlas?.

Sea Y:= Nmero de bandas encontradas que cumplen con las especificaciones.
Y Y
B
(24, p)

p = 1 0,05 0,1003 = 0,8497 0,85

[ Y 22] = 1 [Y 21] = 0,2798

Luego la probabilidad de que no menos de 22 cumplan con las especificaciones
es de 27,98%.


6.6.5 Modelo Gamma y Exponencial

La distribucin Gamma es un modelo muy popular en ingeniera, por ejemplo:
Teora de colas lneas de espera, Confiabilidad, Energa Elica, Hidrologa, etc.

Se presenta en mltiples formas, desde distribuciones totalmente asimtricas
hasta distribuciones completamente simtricas, dependiendo de dos parmetros: ,
denominado parmetro de escala; y , denominado parmetro de forma. Su funcin
de densidad es:

f(x) = } {
) (
x exp
x
1


; x
+
,
+
,
+
.




1/2 3/2
1/2 1/2
1/2 1
1/2 4
1/2 6
Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
108
Como casos particulares; cuando el parmetro de forma: = 1, se le llama
distribucin exponencial de parmetro ; cuando es un nmero natural arbitrio se le
llama distribucin Erlang.


6.6.6 Modelo Weibull y Exponencial

La distribucin Weibull popularizada por el fsico del mismo nombre,
adquiere particular importancia en modelos relacionados con Tiempos de vida,
Velocidad del viento, Confiabilidad, etc.

La funcin de densidad f(x), depende de dos parmetros: , denominado
parmetro de escala; y , denominado parmetro de forma, y est dada por:

f(x) = } ) ( {

x exp x
1

; x
+
,
+
,
+
.

La distribucin muestra caractersticas un modales cuando el parmetro de
forma es mayor que 1, y a medida que ste crece para un parmetro de escala fijo,
la distribucin es ms simtrica.



Observacin: Notemos que cuando el parmetro de forma =1, se recupera el
modelo exponencial.



1/2 1/5
1/2 1/2
1/2 2
1/2 4
1/2 6
Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
109
Ideas bsicas de Confiabilidad

Cada producto se caracteriza por su calidad, eficiencia, durabilidad, costo y
versatilidad. La seguridad de que el producto cumpla los requerimientos mnimos de
durabilidad (confiabilidad) es tambin una caracterstica de inters.

La confiabilidad es una caracterstica que inquieta en todo producto/servicio
por simple que ste sea, en la medida que nos interese que cumpla su labor y cun
satisfactoriamente la realice.

Cuantitativamente podemos pensar la cantidad de confiabilidad como alta si el
artculo cumple con su funcin exitosamente y baja si falla. Luego, la medicin de
confiabilidad sera anloga a la de xito, contraria a la de fracaso, de la actividad
realizada por el sistema.

La medicin e implementacin de la confiabilidad fue tomando importancia
bajo el punto de vista de costos y mantencin. En la medida que la relacin de costos
iniciales, costos de mantencin y grados de disponibilidad logrados, obliga a
comerciantes, industriales, F.F.A.A. y consumidores en general a determinar los
intervalos de reposicin y mantencin ms econmicos.

La industria energtica utiliza estimaciones de confiabilidad para determinar
costos de suministro y disponibilidad de ellos. La disponibilidad para un consumidor
en particular, se puede expresar como un promedio tiempo perdido por ao de
consumo.

Tratndose de problemas de ingeniera, el nfasis est puesto en la aplicacin
a sistemas tcnicos, desarrollndose mtodos y conceptos para medir y aumentar la
confiabilidad de todo tipo de sistemas. En algunos casos, la confiabilidad ser incluso
el factor primordial de cierta operacin, por ejemplo, cuando hay vidas humanas en
juego.

La necesidad de conocer la confiabilidad de un sistema exige que sta sea
medible, para as poder desarrollar mtodos o tcnicas que puedan caracterizar las
variables que influyen en la confiabilidad del sistema. La aleatoriedad de las variables
medibles involucradas en describir caractersticas de un sistema relacionado con su
confiabilidad exige una base estadstica y probabilstica fundamental para la teora de
anlisis de confiabilidad.








Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
110
7. QUINTO MDULO


7.1 Inferencia Estadstica

Como se ha podido apreciar en los mdulos anteriores, La estadstica trata
con recoleccin de datos, su anlisis e interpretacin.

En Inferencia clsica y Teora de decisiones, las observaciones son postuladas
tomando valores en forma aleatoria, la ley distribucin de la(s) variable(s)
aleatoria(s) observable(s), P, se asume pertenece a una familia paramtrica conocida
en su forma general, pero no se conoce el(los) valor(es) de parmetro(s). Un objetivo
fundamental de la inferencia estadstica, es determinar valor(es) factibles de
parmetro(s) a partir de los datos.

La utilidad de los datos, generados a partir de muestras probabilsticas, es
inferir caractersticas esenciales, de la distribucin de la muestra a la poblacin

Una de las reas asociadas a la inferencia estadstica, es la estimacin de
parmetros, para introducirnos en el tema se requieren algunas definiciones.

Definicin 7.1 Parmetro. Es una caracterstica numrica de la distribucin de la
poblacin, que describe, parcial o completamente, la funcin de masa de probabilidad
de la caracterstica de inters, habitualmente se simboliza por la letra griega .

Definicin 7.2 Espacio Paramtrico. Es el conjunto de posibles valores que puede(n)
ser considerado(s) para el(los) parmetro(s). Se simboliza por la letra griega
mayscula .

La Figura 7.1, se muestra esquemticamente el problema de estimacin.



Figura 7.1 El problema de estimacin.
Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
111
Los posibles valores de la muestra aleatoria constituyen el espacio de
informacin, y utilizando algn resumen apropiado (Estadstica), construimos un
estimador de(l) parmetro(s) asociado(s) a la familia de distribucin supuesta.

Distinguimos dos mtodos en la estimacin de parmetros: el primero
conocido como estimacin puntual, trata de especificar un valor numrico para el
(los) parmetro(s) que se desea estimar; el segundo, que entrega un conjunto de
posibles valores asociados al parmetro como se muestra en la Figura 7.1. Pasemos a
revisar algunas de las tcnicas de estimacin.


7.2 Mtodo de Momentos

Es quizs el mtodo ms antiguo para la estimacin puntual de parmetros,
consiste en igualar los momentos apropiados de la distribucin de la poblacin con
los correspondientes momentos muestrales. Este mtodo conduce a que existan,
tantas ecuaciones como parmetros se deseen estimar de la poblacin.

Definicin 7.3 Momentos muestrales. Sean X
1
, X
2
, , X
n
, una muestra aleatoria con
una funcin de masa de probabilidad f(x; ). Entonces el r-simo momento muestral
en torno a cero se define por:

1
1
M X
n
r
r i
i
n
=
=



donde se puede observar, que para el caso de r = 1, se obtiene la media muestral,
mientras que para los casos de r = 2, 3, 4, se obtienen indicadores que ayudan al
clculo de medidas de variabilidad y forma respectivamente.

Definicin 7.4 Momentos Poblacionales. Sean X
1
, X
2
, , X
n
, una muestra aleatoria
con una funcin de masa de probabilidad f(x; ). Entonces el r-simo momento
poblacional en torno a cero se define por:

r
= [X
r
]

donde se puede observar, que para el caso de r = 1, se obtiene la esperanza
matemtica, mientras que para los casos de r = 2, 3, 4, se obstinen indicadores que
ayudan al clculo de medidas de variabilidad y forma poblacionales.


APLICACIN 7.1 Sea X
1
, X
2
,..., X
n
una muestra aleatoria de tamao n de una
poblacin la cual se supone tiene funcin de cuanta de probabilidad dada por:

[X = x] =
1
(1 )
x x
p p

x = 0,1.
Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
112
Entonces el estimador de momentos p , de p, consiste en igualar el primer
momento muestral al primer momento poblacional, es decir:

[X] = 1 p +0 (1 p) = p =
1

1
= M
1

p = X.


APLICACIN 7.2 Suponga que el tiempo de vida [en aos] de un componente
elctrico se encuentra representada por:

> < <


=

e.o.c.
x x
f(x
0
0 , 3
)
4 3



Suponga adems que se obtienen de estos componentes una muestra aleatoria
de n de ellos, digamos, X
1
,, X
n
. El estimador de momentos
~
, de , a partir de la
muestra, consiste en igualar el primer momento muestral al primer momento
poblacional, es decir:

[X] =
3 3
3 x x

=
3
2
=
1

1
= M
1



3
2
= X
~
=
2
3
X


APLICACIN 7.3 Sea X
1
,..., X
n
una muestra aleatoria de tamao 100 de una
poblacin la cual se supone tiene funcin de densidad de probabilidades:

1
0 , 0
( )
0
x
exp x
f x
e.o.c.



> >
`
=
)



Entonces determinar el estimador de momentos

, de , consiste en igualar el
primer momento muestral al primer momento poblacional, es decir:

[X] =
x x
exp dx

`
)

= =
1

1
= M
1


X
~
=
Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
113
7.3 Mtodos de Mxima Verosimilitud

Es uno de los mtodos ms empleados para obtener estimadores puntuales,
selecciona como estimador el valor(es) del parmetro(s) que tiene(n) la propiedad de
maximizar la probabilidad de lo observado en la muestra aleatoria.

El mtodo de mxima verosimilitud consiste en encontrar el valor(es) del
parmetro(s) que maximiza la funcin de masa (densidad) de probabilidad conjunta
de la muestra, llamada verosimilitud.

Definicin 7.5 Funcin de verosimilitud. Sean X
1
,, X
n
, una muestra aleatoria con
una funcin de masa (densidad) de probabilidad f(x; ), y sea L( ; X
1
, X
2
, , X
n
)
la verosimilitud de la muestra como funcin de , la cul se representa por:

L( ; x) = L( ; X
1
, X
2
, , X
n
) = f(x
1
; ) f(x
2
; ) f(x
n
; )


El mtodo de mxima verosimilitud busca

(x
1
,,
x
n
), funcin que depende
slo de la muestra que maximiza L( ; x). Para obtener estimadores mximo
verosmiles se utilizan las herramientas de clculo matemtico, adems para
simplificar lo clculos se utiliza el logaritmo de verosimilitud, llamada funcin de
logverosimilitud, representada por:

l( ; x) = ln (L( ; x)).


APLICACIN 7.4 Sea X
1
,..., X
n
una muestra aleatoria de tamao n de una poblacin
la cual se supone tiene funcin de densidad de probabilidades:

1
0 , 4
( ) 4 4
0
x
exp x
f x
e.o.c.



> >
`
=
)



Utilizando herramientas de clculo diferencial a la funcin l( ; x), se obtiene
estimador mximo verosmil

, de .

l(, x) =
+
1 1
1 1
I ( )
4 4
n n
i i
i i
nln x ln x

= =
| | | |
+
| |

\ . \ .




l(, x)

= 0
( ) 4
n

+
( )
2
1
1
4
n
i
i
x
=

= 0
= X + 4
Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
114
Para verificar que es un mximo local, la segunda derivada evaluada en

es:

2
l(,x)

2

X =


( )
2
4
n


( )
3
1
2
4
n
i
i
x
=




( )
( )
1
3
4 2
4
n
i
i
n x


; ( )
3
4 > 0 4 >

( )
1
4 2 = X 2 X= X
n
i
i
n x n n n
=

< 0.

MV

= X + 4

Luego l(
MV

, x ) es un mximo local, y bastara probar que es mximo global.




APLICACIN 7.5 El nmero de clientes que llega a la fila de un cajero automtico
entre las 14:00 y las 14:45 es modelado por la siguiente funcin de probabilidades:

[X = x]
!
6) (

) 6 (
x
x
e
=

x = 0, 1, 2,... ; > 6

Considerando una muestra aleatoria de n das, el estimador mximo verosmil

, de , esta dado por.



l( , x

) = ln
|
|
.
|

\
|

=

n
i
x
x
e
1
) 6 (
!
6) (

9
9


= ln

\
|

i
x n
e 6) (
) 6 (
9
9

|
|
.
|
!
1
i
x

= n( 6) +

=
n
i
i
x
1
ln( 6) + ln
|
|
.
|

\
|
!
1
i
x



d l( , x)
d
= 0 6 X

+ = 9

n +
6
1
9

=
n
i
i
x
1
= 0


Donde se pude verificar que l(
MV

, x ) es un mximo global.
Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
115
7.4 Propiedades de los Estimadores

Para entender las propiedades asociadas a un estimador, considrese una
muestra aleatoria, X
1
, X
2
,, X
n
, y T = T(X
1
, X
2
,, X
n
) una funcin de la muestra,
entonces T es llamada Estadstica.


Estimadores Insesgados

Cuando una estadstica T, se utiliza con fines de estimacin, recibe el nombre
de estimador, es deseable que los estimadores tengan algunas propiedades deseables,
algunas de las cuales pasamos a revisar.

Definicin 7.6 Insesgamiento. Sean T un estimador (estadstica) de un parmetro , se
dice que T es un estimador insesgado (libre de sesgo), si [T] = , para todos los
posibles valores de .

Bsicamente lo que se desea es que el estimador, T, en promedio
(promediando sobre todas las posibles muestras), sea igual a , lo que se desea
estimar, bajo la hiptesis que la distribucin de probabilidad de la poblacin
propuesta es la correcta.


APLICACIN 7.6 El nmero de clientes que llega a la fila de un cajero automtico
entre las 14:00 y las 14:45 se encuentra representado por la siguiente funcin de
cuanta:

[X = x]
!
6) (

) 6 (
x
x
e
=

x = 0, 1, 2, ... ; > 6

A partir de una muestra aleatoria de n das, el estimador mximo verosmil,
calculado anteriormente es

= X 6 + . Es

un estimador insesgado de ?.

[

] = [ 6 X + ] = [ X] + 6 =
n
1
[

=
n
i
i
X
1
] + 6

=
n
1

=
n
i 1
[X
i
] + 6= 6 9 + 6 =

Luego se tiene que

, es un estimador insesgado de .


APLICACIN 7.7 Suponga que el tiempo de vida [en aos] de un componente
Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
116
elctrico se encuentra modelada por:

> < <


=

e.o.c.
x x
f(x
0
0 , 3
)
4 3



A partir de una muestra aleatoria de n componentes, el estimador de
momentos, es
~
=
2
3
X.: Es
~
un estimador insesgado de ?.

[
~
] =
2
3
[ X] =
2
3n
[

=
n
i
i
X
1
] =
2
3n
3 3
1
3
n
i
x dx


.

=
2
3n

3
2
n
= .

Entonces se tiene que
~
, es un estimador insesgado de .


APLICACIN 7.8 Sean
1

y
2

dos estimadores insesgados del parmetro


poblacional , tal que V [
1

] = 3V [
2

]. Por razones tcnicas se decide usar como


estimador a
3
, donde:


3 1 1 2 2
= + ,
1
y
2
.

Para encontrar los valores de
1
y
2
que mantengan la propiedad de insesgamiento de
3
,
se tiene que:

[
3
] = [
1 1 2 2
+ ] =
1
[
1

] +
2
[
2

]

=
1
+
2


[
3
] =
3
es Estimador Insesgado, luego:


1
+
2
= 1

Otro criterio de evaluacin de estimadores, es el error cuadrtico medio,
midiendo la dispersin cuadrtica media del estimador en torno lo que desea estimar.

Definicin 7.7 Error Cuadrtico Medio. Sea T estimador de un parmetro , se
define el error cuadrtico medio de T, como el valor esperado del cuadrado de la
diferencia entre T y , y se anota ECM (T).

ECM (T) = [(T )
2
]
Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
117
Desarrollando la expresin ECM (T) se obtiene:

ECM (T) = [T
2
2T +
2
]

ECM (T) = [T
2
] [2T ] + [
2
]

ECM(T) = [T
2
] 2 [T] +
2.


ECM(T) = [T
2
] 2 [T]+
2
] + ([T])
2
([T])
2


ECM(T) = ([T
2
] ([T])
2
) + (([T])
2
2 [T]+
2
)

ECM(T) = [T] + ([T]- )
2


El Error Cuadrtico Medio de un estimador T, es la suma de dos cantidades
no negativas: una es la varianza del estimador ([T]), mientras que la otra es el sesgo
al cuadrado (([T]- )
2
)



Un criterio para seleccionar un estimador, es que posea el error cuadrtico
medio ms pequeo entre los posibles estimadores de .


Estimadores Eficientes

Definicin 7.8 Eficiencia relativa. Sean T
1
y T
2
dos estimadores de . Se define la
eficiencia relativa entre T
1
y T
2
como:

Ef(T
1
;T
2
) =
1
2
ECM(T )
ECM(T )



Si la eficiencia relativa es menor que uno, se concluye que el estimador T
1
es
ms eficiente que el estimador T
2
, en caso contrario, se concluye que el estimador T
1

es ms eficiente que el estimador T
2
.

Resulta evidente que si un estimador es insesgado, el error cuadrtico medio
es la varianza del estimador, y dentro de la clase de estimadores insesgados, el
problema de encontrar el mejor estimador, se reduce a encontrar el que tenga varianza
ms pequea.


APLICACIN 7.10 Sean
1

y
2

, insesgados de , tal que V [


1

] = 3V[
2

].
Entonces la eficiencia de los estimadores
1

y
2

es:

Ef(
1

;
2

) = 3
2

ms eficiente

Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
118
Si por razones tcnicas se decide usar como estimador a
3
, dado por:


3 1 1 2 2
= + ,
1
y
2
.

Para determinar los valores de
1
y
2
que mantengan la propiedad de
insesgamiento, y que la varianza de
3
sea mnima. Se tiene que bajo el supuesto de
independencia entre
1

y
2

:

= [
3
] = [
1 1 2 2
+ ] =
2
1
[
1

] +
2
1
(1 ) [
2

] =
2
1
r +
2
1
(1 )
3
r



1
d
d

= 0
1
=
1
4

2
=
3
4


Entonces ahora debera probarse que el estimador ms eficiente de los tres
presentados es
3
, como se prueba a continuacin:

[
3
] =
1
16
r +
9
16
r/3 =
1
4
r Ef(
1

/
3
) = 4 IE(
2

/
3
) =
4
3



Consistencia en Media Cuadrtica

La consistencia mide la capacidad del estimador, de acercarse (en algn
sentido) cada vez ms al verdadero valor de parmetro, a medida que el tamao de
muestra crece.

Definicin 7.9 Consistencia en media cuadrtica. Un estimador T, de un parmetro
desconocido , se dice consistente en media cuadrtica, si se cumple:

ECM(T )
n
n
lim

= 0


APLICACIN 7.11 El nmero de clientes que llega a la fila de un cajero automtico
entre las 14:00 y las 14:45 se encuentra modelado por la siguiente funcin de cuanta:

[X = x]
!
6) (

) 6 (
x
x
e
=

x = 0, 1, 2, ... ; > 6

Es el estimador,

, consistente?.

Como se demostr anteriormente,

es un estimador insesgado de , basta


Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
119
probar que:

ECM( )
n
lim

[ ]
n
lim

V = 0

[ X + 4] = [ X] =
n
1
[

=
n
i
i
X
1
] =
n
1

1
[ ]
n
i
i
X
=

V =
( )
2
4
n




( )
2
4
0
n
lim
n

| |

= |
|
\ .


De donde

, es un estimador consistente.

APLICACIN 7.12 Suponga que los tiempos de vida [en aos] de un componente
elctrico de un particular de tipo de automviles se encuentra modelada por:

> < <


=

e.o.c.
x x
f(x
0
0 , 3
)
4 3



Es el estimador,
~
, consistente?.

Como
~
es un estimador insesgado de , basta probar que:

ECM( )
n
lim

= [ ]
n
lim

V = 0

[
2
3
X] =
4
9
[ X] =
2
4
9n
[

=
n
i
i
X
1
] =
2
4
9n
1
[ ]
n
i
i
X
=

V

[X
2
] =
3 2
3 x x

= 3
2
[X] =
3 3
3 x x

=
3
2


[X] = 3
2

2
9

4
=
2
3
4
[
~
] =
4
9 n

2
3
4
=
2
3 n




2
0
3
n
lim
n

| |
=
|
\ .


Luego
~
, es un estimador consistente.
Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
120
7.5 Estimacin por Intervalo

La estimacin puntual de un parmetro poblacional adolece del siguiente
defecto: La probabilidad de que el estimador coincida con el verdadero valor del
parmetro es muy pequea y en el caso continuo nula. Los intervalos de confianza
resuelven este inconveniente, ofrecindonos un rango para los posibles valores del
parmetro poblacional.

Definicin 7.10 Sea X
1
, X
2
,..., X
n
una muestra aleatoria desde f(x; ), donde f(x; ) es
una funcin de masa (densidad) de probabilidades dependiendo de un parmetro
desconocido . Sean T
1
y T
2
dos estadsticos tales que T
1
(x) < T
2
(x), para casi todo x
y P(T
1
T
2
) = , donde no depende de . Se dice que | |
2 1
, T T es un intervalo
de confianza para con 100 % de confianza.

Observaciones:

1.- T
1
y T
2
reciben el nombre de cota inferior y superior de confianza.

2.- recibe el nombre de coeficiente de confianza.

3.- | |
2 1
, T T es un intervalo aleatorio, ya que sus extremos son v.a.

Definicin 7.11 En las mismas condiciones de la definicin 7.10. Sea T
1
un estadstico
que cumple con P (T
1
) = . Se dice que T
1
es un limite inferior de confianza
para con 100 % de confianza.

Definicin 7.12 En las mismas condiciones de la definicin 7.10. Sea T
2
un estadstico
que cumple con y P (T
2
) = . Se dice que T
2
es un limite superior de confianza
para con 100 % de confianza.


Existen tcnicas para construir intervalos (regiones) de confianza, y una de
ellas es la del pivote que pasamos a presentar.

Cantidad Pivotal

Sea X
1
, X
2
,..., X
n
una m.a. (n) desde f(x; ) y Q = Q(X
1
,..., X
n
). Si la
distribucin de Q es independiente de , se dice que Q es una Cantidad Pivotal.

Aplicacin : Sea X
1
, X
2
,..., X
n
una m.a.(n) desde familia Normal (Y
N
( ,
2
)con
media y varianza conocida
2
, luego

Q = X Q N (0,
n
2

) Q es cantidad pivotal.
Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
121
Intervalo de Confianza para la Media Poblacional

Sea X
1
, X
2
,..., X
n
una m.a.(n) desde familia Normal (Y
N
( ,
2
), como X es
el mejor estimador de , entonces si se conoce
2
, se tiene que:

Z =

n ) - X (
N (0, 1) Z es pivote

Luego dado , se requiere determinar los valores ms apropiados de
q
1
y
q
2

que cumplan con:

[
q
1

n ) - X (

q
2
] =

Como se puede observar de las grficas existen muchos (infinitos) valores de
q
1
y
q
2
que satisfacen lo anterior, sin embargo, se puede probar que si se desea
minimizar la longitud del intervalo de confianza, los valores de
q
1
y
q
2
deben ser
aquellos que produzcan igualdad de probabilidades en las colas, es decir:

q
2
= Z
2
1 +
y
q
1
= -
q
2




Luego si tomamos =1 , se tiene:

[Z

/ 2

n ) - X (
Z
1
/ 2
] = 1-



Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
122

[Z

/ 2

n

- X Z
1
/ 2

n

] = 1-
[Z

/ 2

n

X - Z
1
/ 2

n

X] = 1-
[ X Z

/ 2

n

X Z
1
/ 2

n

] = 1-
[ X Z
1
/ 2

n

X Z

/ 2

n

] = 1-

Pero como Z

/ 2
= Z
1
/ 2


[ X Z
1
/ 2

n

X + Z
1
/ 2

n

] = 1-

Con lo anterior se concluye que el intervalo del (1- )% de confianza para la
media poblacional est dado por:

IC ( ):= [ X Z
1
/ 2

n

]


Si se tiene una m.a.(n) X
1
, X
2
, ... , X
n
tal que X
i
N( ,
2
), con varianza
poblacional
2
desconocida, como sabemos S
2
es el mejor estimador de
2
, luego se
tiene que:

T =
s
n ) - X (

t-Student
(n 1) T es cantidad pivotal.
Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
123
Anlogo al caso anterior, dado (coeficiente de confianza), para determinar
los valores de
q
1
y
q
2
que minimicen la longitud del intervalo de confianza, se
escogen con igualdad de probabilidades en las colas, es decir:

q
1
= t

/ 2
(n 1) = t
1
/ 2
(n 1)
[
q
1

s
n ) - X (

q
2
] =
q
2
= t
1
/ 2
(n 1)

Se tiene que:

[t

/ 2
(n 1)
n
s
- X t
1
/ 2
(n 1)
n
s
] = 1-
[t

/ 2
(n 1)
n
s
X t
1
/ 2
(n 1)
n
s
X] = 1-
[ X t

/ 2
(n 1)
n
s
X t
1
/ 2
(n 1)
n
s
] = 1-
[ X t
1
/ 2
(n 1)
n
s
X t

/ 2
(n 1)
n
s
] = 1-

(t

/ 2
(n 1) = t
1
/ 2
(n 1))

[ X t
1
/ 2
(n 1)
n
s
X + t
1
/ 2
(n 1)
n
s
] = 1-

Luego el intervalo de confianza del (1- )% para la media poblacional es:

IC ( ):= [ X t
1
/ 2
(n 1)
n
s
]


Si el tamao de la muestra es grande (mayor que 50), utilizando Teorema del
Limite Central, el intervalo de confianza toma de la siguiente forma:

IC ( ):= [ X Z
1
/ 2

n
s
]


Notemos que es importante distinguir cuando la varianza poblacional es
conocida o desconocida. Si a partir de la muestra aleatoria se determine una varianza,
sta es la muestral, por lo tanto lo correcto es utilizar un intervalo de confianza
considerando la distribucin t - Student, si el tamao de la muestra es superior a 40,
entonces empleamos el T.L.C. para aproximar por distribucin Normal.


Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
124
Intervalos de Confianza para una Proporcin Poblacional

Sea X
1
, X
2
,..., X
n
una m.a. (n) desde Familia Binomial (
B
(1, p)).El
estimador de p sobre la base de la muestra es P

= X. La distribucin de P

= X ,
para muestras grandes (empleando el T.L.C), se puede aproximar por:


Nota: Es una aproximacin til pero no completamente satisfactoria, debe utilizarse
con algunas recomendaciones entregadas en clases.

Un inconveniente de sta aproximacin para la construccin de intervalos de
confianza, es que la varianza del estimador depende del parmetro a estimar, lo cual
no permite un despeje sencillo, por lo que se decide estimar la varianza con los datos,
con lo cul se tiene una doble aproximacin:


Con esta aproximacin se obtiene la siguiente cantidad pivotal:

Z =
n
) P

- (1 P

p) - P

(
N (0,1) Z es cantidad pivotal

Luego dado (1- ), los valores de
q
1
y
q
2
que minimizan la longitud del
intervalo son, como se observ anteriormente:

[ P

Z
1
/ 2
n
) P

- (1 P

p P

+ Z
1
/ 2

n
) P

- (1 P

] =


Luego el intervalo de confianza, del % para la proporcin poblacional es:

IC (p):= [ P

Z
1
/ 2

n
) P

- (1 P

]


Se puede apreciar que los intervalos de confianza anteriores estn compuestos
por un estimador puntual, ms menos cantidad, esta cantidad recibe el nombre de,
error de estimacin, que resultara til para la determinacin de tamaos de muestra.
Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
125
Intervalos de Confianza para la Varianza Poblacional

Como se habr observado en intervalos de confianza para la media, existen
dos situaciones, dependiendo si la varianza poblacional conocida desconocida,
siendo obviamente este ltimo el caso ms comn.

Sea X
1
, X
2
,..., X
n
una m.a. (n) desde una familia Normal (Y
N
( ,
2
), existen
dos posibilidades para la estimacin de la varianza , la primera cuando la media
poblacional es conocida (caso extrao) y el segundo cuando la media poblacional es
desconocida. Ambas cantidades pivotales se expresan respectivamente por:

2
2

n
S n

2

(n)
2
(n) Chi-cuadrado con n grados de libertad (g.l.)
2
2
1 -
1) - (

n
S n

2

(n 1)
2
(n 1) Chi-cuadrado con n 1 g. l.

donde:

=
n
i
i
n
n
X
S
1
2
2
) (

=
n
i
i
n
n
X
S
1
2
2
1 -
1 -
) X (


Como se puede apreciar de las grficas, la distribucin Chi-cuadrado no tiene
la propiedad de simetra, por lo que tomar igualdad de probabilidades en las colas no
conduce a intervalos de longitud mnima, sin embargo son una buena aproximacin
cuando la muestra es grande.

Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
126
Considerando la cantidad pivotal para el caso ms realista, es decir, se
desconoce la media poblacional, se obtiene:

[
2
2 /
(n 1)
2
2
1 -
1) - (

n
S n

2
2 / - 1
(n 1)] = 1

[
2
1
2
2 /
1) - (
) 1 (


n
S n
n

2
1


2
1
2
2 / - 1
1) - (
) 1 (


n
S n
n
] = 1

[
) 1 (
1) - (
2
2 / - 1
2
1

n
S n
n

2

) 1 (
1) - (
2
2 /
2
1

n
S n
n
] = 1


Luego el intervalo del (1- )% de confianza para la varianza poblacional est
dado por:

IC(
2
):= [
) 1 (
1) - (
2
2 / - 1
2
1

n
S n
n
;
) 1 (
1) - (
2
2 /
2
1

n
S n
n
]




APLICACIN 7.13 Entradas y Salidas de efectivo de un negocio. Las entradas (x) y
salidas (y) semanales de efectivo de un negocio [en UF] son variables aleatorias. Los
siguientes datos proporcionan los valores de x e y durante 28 semanas. Suponga que
Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
127
x e y estn normalmente distribuidas.

x y x y x y x y

42 25 23 36 82 72 86 68
65 37 63 70 28 39 68 72
76 83 40 51 61 27 53 60
92 36 70 39 75 38 87 65
37 73 82 36 83 27 63 80
47 23 90 82 60 78 47 62
27 97 68 30 93 20 52 36


Definir las variables asociadas al problema, es siempre el primer paso en el
desarrollo de todo problema.

X:=Entradas semanales en efectivo del negocio [UF] X N (
x
,
2
x
)
Y:= Salidas semanales en efectivo del negocio [UF] Y N (
y
,
2
y
)

Datos : x = 62,86 s
x
= 20,75 n
x
= 28
y = 52,21 s
y
= 22,45 n
y
= 28

Determinar intervalos del 95% de confianza para los parmetros.

I
95%
C (
x
)= [ X t
1
/ 2
(n
x
1)
x
x
n
S
] I
95%
C(.
x
) : [54,81 ; 70,90]

Interpretacin: Con un 95% de confianza las entradas medias reales del negocio se
encuentra entre los lmites 54,81 [UF] y 70,90 [UF].

I
95%
C (
y
) = [ Y t
1
/ 2
(n
y
1)
y
y
n
S
] I
95%
C (.
y
) = [43,51; 60,92]

Interpretacin: Con un 95% de confianza las salidas medias reales del negocio se
encuentra entre los lmites 43,51 [UF] y 60,92 [UF].

I
95%
C (
2
x
) = [
) 1 (
1) - (
2
2 / - 1
2

x
x x
n
S n
;
) 1 (
1) - (
2
2 /
2

x
x x
n
S n
] I
95%
C (
2
x
) :[269,17 ; 797,90]

Interpretacin: Con un 95% de confianza las varianzas de las entradas medias reales
del negocio se encuentra entre los limites 269,17[UF]
2
y 797,90 [UF]
2
.

I
95%
C (
2
y
) = [
) 1 (
1) - (
2
2 / - 1
2

y
y y
n
S n
;
) 1 (
1) - (
2
2 /
2

y
y y
n
S n
] I
95%
C (
2
y
) : [315,14 ; 934,16]

Interpretacin: Con un 95% de confianza las varianzas de las entradas medias reales
Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
128
del negocio se encuentra entre los limites 315,144 [UF]
2
y 934,16 [UF]
2
.


Determine mediante un intervalo del 90% de confianza la verdadera
proporcin de semanas donde se obtuvo prdida.

X: = N de semanas donde se obtuvo prdida. X B (28, p)
p

N (p,
28
) p

(1 p


)

x y x y x y x y

42 25 23 36 4 82 72 86 68
65 37 63 70 5 28 39 7 68 72 9
76 83 1 40 51 6 61 27 53 60 10
92 36 70 39 75 38 87 65
37 73 2 82 36 83 27 63 80 11
47 23 90 82 60 78 8 47 62 12
27 97 3 68 30 93 20 52 36
p

=
28
12


I
90
%
C (p) = [ P

Z
1
/ 2

n
) P

- (1 P

] I
90
%
C(p) = [27,47% ; 58,24%]

Interpretacin: Con un 90% de confianza la verdadera proporcin de semanas donde
el negocio tiene prdida se encuentra entre los lmites 27,47% y 58,24%.


Determine el nivel de confianza con el que se podra afirmar que la
proporcin de semanas donde hubo prdidas se encuentra entre los lmites 27,86% y
57,86%.

Notemos que L
S
L
I
= P

+ Z
1
/ 2

n
) P

- (1 P

( P

Z
1
/ 2

n
) P

- (1 P

)

0.58 0.28 = 2 Z
1
/ 2

n
) P

- (1 P



Z
1
/ 2
= (0.58 0.28)
2
43 . 0 57 . 0
28
2
1



Z
1
/ 2
= 1.603 1
2

= (0.9452 + 0.9458)
2
1




! = 0,1090 # = 89,10%

Interpretacin: Con un 89,10% de confianza la verdadera proporcin de semanas
Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
129
donde el negocio tiene prdidas se encuentra entre los lmites 27,86 % y 57,86%.


APLICACIN 7.14 El especialista de mercadeo. Un especialista en mercadeo de
cierta universidad, asegura que la proporcin de hombres que utiliza una tarjeta de
crdito para hacer compras superiores a US$10 es inferior a la proporcin de mujeres
que realiza este mismo tipo de pago. Como parte de un proyecto, el especialista,
encuesta en un centro comercial local a 50 hombres y 100 mujeres respecto a sus
hbitos de compra. De los hombres, 39 dijeron que haban utilizado este tipo de pago
en el ltimo mes, mientras que 84 mujeres admitieron hacer este mismo tipo de pago.

X
1
= N de mujeres que utiliza la tarjeta de crdito en compras superiores a US$10.
X
2
= N de hombres que utiliza la tarjeta de crdito en compras superiores a US$10.

Supuestos:
X
1
B (100, p
1
) p
1
N (p
1
,
100
) p (1 p
1 1

)
1
p

= 0, 84
X
2
B (50, p
2
) p

2
N (p
2
,
50
) p

(1 p

2 2

)
2
p

= 0, 78

Intervalos del 90% de confianza para la proporcin de mujeres, como para la
de hombres que utiliza el medio de pago en cuestin son:.

I
90
%
C (p) = [
i
P

Z
1
/ 2

2
) P

- (1 P

n
i i
]=


Interpretacin: Con un 90% de confianza se puede decir que la verdadera proporcin
de mujeres que utiliza una tarjeta de crdito para hacer compras superiores a US$10 se
encuentra entre los limites 76,81% y 91,19%, mientras que la verdadera proporcin
de hombres que utiliza una tarjeta de crdito para hacer compras superiores a US$10
se encuentra entre los limites 66,52% y 89,48%.

Determine un intervalo del 95% de confianza para la verdadera proporcin de
personas que no utiliza una tarjeta de crdito para hacer compras superiores a US$10.

X
3
:=N de personas que no usa la tarjeta de crdito en compras superiores a US$10.
X
3
B (150, p
3
) p

3
N (p
3
,
150
) p

(1 p

3 3

) p

3
= 0,18

I
95%
C (p) = [ P

Z
1
/ 2

2
) P

- (1 P

n
] I
95%
C(p
3
) : [12,84% ; 23,16%]

Interpretacin: Con un 95% de confianza, se puede decir que la verdadera
proporcin personas que no utiliza una tarjeta de crdito para hacer compras
superiores a US$10 se encuentra contenida entre los lmites 12,84% y 23,16%.
I
90%
C (p
1
) : [76,81% ; 91,19%]

I
90%
C (p
2
) : [66,52% ; 89,48%]
Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
130
Determine el tamao de muestra necesario para que el error de estimacin en
la verdadera proporcin personas que no utiliza una tarjeta de crdito para hacer
compras superiores a US$10 no sea superior a 5% con un 95% de confianza.

Z
1
/ 2

2
) P

- (1 P

n
< 0.05 Z
0.975

2
0.18) - (1 18 . 0
n
< 0.05

Error de Estimacin

n >
( )
2
2
0.975
05 . 0
) 18 . 0 1 ( 18 . 0 Z
227

Interpretacin: El tamao de muestra necesario, para que con un 95% de confianza,
el error de estimacin de la proporcin personas que no utiliza una tarjeta de crdito
para hacer compras superiores a US$10 no sea mayor a 5%, es de al menos 227
personas.


Determine con un 96% de confianza, el tamao de muestra necesario para que
la amplitud del intervalo para la proporcin personas que no utiliza una tarjeta de
crdito en compras superiores a US$10 no sea mayor al 8%.

L
S
L
I
= 2 Z
1
/ 2

2
) P

- (1 P

n
< 0.08 2 Z
0.98

2
0.18) - (1 18 . 0
n
< 0.08

n >
( )
2
2
0.975
08 . 0
) 18 . 0 1 ( 18 . 0 Z 4
390

Interpretacin: El tamao de muestra necesario, para que la amplitud del intervalo de
la proporcin personas que no utiliza una tarjeta de crdito en compras superiores a
US$10 no sea mayor a 8%, es de un mnimo de 390 personas, con un 96% de
confianza.


APLICACIN 7.15 La decisin: AT&T Sprint. Un contador de una corporacin en
los Estados Unidos, debe decidir si seleccionar a AT&T Sprint para manejar su
servicio telefnico de llamadas a larga distancia de la empresa, El contador
seleccion una muestra al azar de las llamadas realizadas en cada una de las
compaas reportando la siguiente informacin:

AT&T Sprint
Nmero de llamadas 145 102
Costo promedio US$ 4.07 US$ 3.89
Desviacin estndar US$ 0.97 US$ 0.85
Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
131
X = Costo de llamadas a larga distancia en la compaa AT&T.
Y =: Costo de llamadas a larga distancia en la compaa Sprint.

Supuestos: X N (
x
,
2
x
) Y N (
y
,
2
y
)

Datos: x = 4,07 [US$]
x
s = 0,97 [US$]
x
n = 145
y = 3,89 [US$]
y
s = 0,85 [US$]
y
n = 102

Determine intervalos del 96% de confianza, para los parmetros de las
variables definidas.

I
96%
C (
x
) =
(
(


x
x
/
n
s
Z x
2 1
I
96%
C(
x
) = [3,90 ; 4,42]

Interpretacin: Con un 96% de confianza, el verdadero costo medio de llamadas a
larga distancia en la compaa AT&T se encuentra entre los limites
3,90 [US$] y 4,42 [US$].

I
96%
C (
y
) :
(
(


y
y
/
n
s
Z y
2 1
I
96%
C(
y
) = [3,72 ; 4,31]

Interpretacin: Con un 96% de confianza, el verdadero costo medio de llamadas a
larga distancia con la compaa Sprint se encuentra entre los limites 3,72 [US$] y 4,31
[US$].

I
96%
C(
2
x
) :
(
(


2
4
2 1
2
1
2

n
s
Z s
x
x
/ x
I
96%
C(
2
x
) : [0,71 ; 1,17]

Interpretacin: Con un 96% de confianza, la verdadera varianza del costo de
llamadas a larga distancia en la compaa AT&T se encuentra entre los limites 0,71
[US$]
2
y 1,17 [US$]
2
.

I
96%
C (
2
y
) =
(
(


2
4
2 1
2
1
2

n
s
Z s
y
y
/ y
I
96%
C (
2
y
) = [0,51; 0,93]

Interpretacin: Con un 96% de confianza, la verdadera varianza del costo de
llamadas a larga distancia en la compaa Sprint se encuentra entre los limites 0,51
[US$]
2
y 0,93 [US$]
2
.


Determine un intervalo unilateral del 98% de confianza, que establezca una
GRANDES
Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
132
cota superior para el verdadero costo medio de llamadas a larga distancias de AT&T.

[ k] = 0.98 [ X X k] = 0.98.

[

n ) X (

n k) X (
] = 0.98.

[

n ) X (

n k) X (
] = 0.02.

[

n ) X (
Z
!
] = 0.02.

[ X Z

] = 0.02

[ X+ Z
1

n

] = 0.02 (Z

= Z
1
)

[ X+ Z
1

n

] = 0.98

I
98%
C (
x
) =
(
(

\
|
+

x
x

n
S
Z
1
X ; I
98%
C (
x
) = ] ; 4,42]

Interpretacin: Con un 98% de confianza se puede afirmar que, el costo medio de
llamadas a larga distancia con la compaa AT&T se encuentra bajo la cota de 4,42
[US$]
2
. En trminos prcticos el costo no puede ser negativo.















Z =

n ) - X (



n k) X (
= Z
!

Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
133
8. SEXTO MDULO


8.1 Introduccin a Prueba de Hiptesis

Un aspecto fundamental dentro de la inferencia estadstica, es el que
denominamos Prueba de Hiptesis, tambin llamado: Contraste de Hiptesis o
Dcima de Hiptesis.

En la actualidad, los socilogos, han llegado a denominar a esta poca,
como la sociedad del riesgo . Constantemente debemos estar decidiendo entre
posibilidades excluyentes, y por lo tanto, asumiendo el riesgo de nuestra decisin, por
ejemplo, para la compra de un activo, debemos resolver cul activo adquirir dentro de
un conjunto de posibilidades, para posteriormente, decidir cul mtodo de depresin
utilizar sobre ste. Estas decisiones implicarn consecuencias a futuro que pueden
llevar a un ascenso despido.

Este riesgo en la mayora de los casos es completamente subjetivo e
imposible de cuantificar con exactitud, en particular en decisiones intimas,
existenciales, cmo medir dicho riesgo?. No hay respuesta nica y concluyente para
ello.

Por lo general, la decisin a tomar es entre un conjunto de resultados,
tambin llamados estados de la naturaleza, desconocidos para el decidor, sin
embargo, aunque existen tcnicas para la solucin de estos problemas, por el
momento, las tcnicas de Pruebas de Hiptesis que estudiaremos estarn limitadas a
slo dos estados de la naturaleza posible, que como ya se dijo, son mutuamente
excluyentes, es decir, ocurre el estado A o no ocurre (donde ocurrira el estado B).

El problema de la toma de decisiones, es a menudo una realidad en la
empresa, donde generalmente se enfrentan a la necesidad de tomar decisiones, casi en
tiempo real, aunque su necesidad es en tiempo real, lo cual dificulta un proceso
acabado para el anlisis y toma de decisiones, sin embargo, no con mucho esfuerzo
adicional, estas decisiones pueden estar avaladas por procedimientos estadsticos de
muy buen nivel.

El desarrollo y anlisis de una prueba de hiptesis siguen un procedimiento
similar al utilizado en Intervalos de Confianza. La diferencia puntual entre la prueba
de hiptesis e intervalos de confianza, est dada porque en intervalos de confianza, se
desconoce informacin con respecto a la caracterstica de inters medible de la
poblacin (es decir, un parmetro), la cual se desea estimar (puntual o por intervalo)
por algn mtodo basndose en una muestra aleatoria y/o otra informacin si es que
el mtodo lo requiere.

Sin embargo, en prueba de hiptesis, existe una conjetura con
respecto a la caracterstica de inters medible de la poblacin, que se prueba a travs
Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
134
de los resultados obtenidos de una muestra aleatoria de la poblacin en estudio, en la
cual se aceptar no se aceptar el estado A.

Hasta el momento hemos establecido que realizaremos pruebas de
hiptesis, para dos estados de la naturaleza, sin establecer diferencia entre estos dos
estados. Ahora le asignaremos nombres a estos estados, basados en la conjetura que
realizamos acerca de la poblacin (aunque no es una ley). Esto es, la conjetura o
suposicin, que realizamos acerca de la poblacin la denominaremos como
Hiptesis Alternativa (que se simboliza por H
1
), siendo el otro estado de la
naturaleza, una Hiptesis Nula (que se simboliza por H
0
).

Como claramente se puede advertir, al tomar una decisin entre dos
estados de la naturaleza mutuamente excluyentes, existe la posibilidad de equivocarse
en la decisin adoptada. Estas equivocaciones pueden ocurrir de dos maneras, tal
como se plantea en la Figura 1.


Estado Real de la Naturaleza

H
0
es Verdadera H
0
es Falsa
No se Rechaza H
0
Decisin Correcta Error Tipo II
D
e
c
i
s
i

n

Se Rechaza H
0
Error Tipo I Decisin Correcta

Fi g ur a 1 : Ti po s de Er r o r e s e nt r e do s de c i s i o ne s e x c l uy e nt e s .


Como se puede apreciar en la Figura 1, en la toma de una decisin entre dos
posibilidades excluyentes, se pueden cometer dos tipo de errores.

Error Tipo I : Este error se comete al rechazar la hiptesis nula, cuando
corresponde aceptarla por ser sta Verdadera. Este error es
conocido simblicamente por: !, y denominado nivel de
significacin.

Error Tipo II : Este error se comete al no ser rechazada la hiptesis nula, cuando
corresponde rechazarla por ser sta Falsa. Este error es conocido
simblicamente por: ".

El trmino !, es decir, el error tipo I, es el mismo que utilizaba en
intervalos de confianza para determinar, disculpando de redundancia, la confianza del
intervalo. Este trmino juega un rol fundamental en la prueba de hiptesis, pues es
ste, el error que el experimentador controla y puede manejar. Adems desde el punto
de vista de la experiencia es supuestamente el menos daino (aunque esto suele ser
discutible, pues es cuestin de percepcin). Supongamos por ejemplo, el hecho de
una persona que se encuentra en juicio, La hiptesis del juez es que la persona es
Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
135
inocente, al menos que exista suficiente evidencia, como para pensar que la persona
es culpable. Por lo tanto se tiene que la persona es inocente, es la hiptesis nula;
mientras que la persona es culpable, representa la hiptesis alternativa. Por tanto, el
error tipo I, representa rechazar que la persona es inocente, cuando realmente lo es, lo
cual implica crcel para un inocente; mientras el error tipo II, representa no rechazar
que la persona es inocente cuando este es culpable, lo cual implica libertad para un
culpable. Es decir, es preferible dejar libre a un culpable, que mandar a la crcel a un
inocente.

El no rechazo de una hiptesis, implica tan slo, que los datos no
proporcionan evidencia suficiente para refutarla. Por otro lado, el rechazo de dicha
hiptesis, implica que la evidencia que presenta la muestra es suficiente como para
rechazarla. Sin embargo, el rechazo de la hiptesis, no implica necesariamente que
sta sea falsa, si no que existe una alta probabilidad de que esa hiptesis sea falsa.

Visto lo anterior desde el punto de vista de la hiptesis nula y
alternativa, se deben tener claros ciertos conceptos. Como por ejemplo: el rechazo de
la hiptesis nula cuando en realidad sta es verdadera, es cuantificable
probabilsticamente, a travs del error tipo I, que se puede simbolizar esta
probabilidad a travs de !. Sin embargo, el no rechazo de la hiptesis nula cuando
sta es falsa, tambin llamada error tipo II, no es posible cuantificar, al menos que se
conozca un valor especifico de la hiptesis alternativa, situacin que es por lo general
difcil de tener, pues la conjetura o suposicin tiende a ser abierta (muchas
posibilidades).

Ante esta situacin, se pueden generar curvas para que permitan
establecer el error tipo II, para distintas posibilidades que se presente en la hiptesis
alternativa. Una funcin del error tipo II, cuyo fundamento parece ser ms aceptado,
es el que entrega la funcin de potencia, que se define a continuacin:

Funcin de Potencia : La funcin de potencia de una prueba, es la probabilidad de
rechazar la hiptesis nula dado que la alternativa es la
correcta. Para los posibles valores de la hiptesis alternativa.

Cuando se toma un punto especfico de la hiptesis alternativa, ya no
se habla de funcin de potencia, sino de la potencia de la prueba. A continuacin se
muestra la relacin entre la funcin de potencia y el error tipo II.

Funcin de potencia 1()) = 1 "
= 1 [No rechazar H
0
/ H
0
es Falsa]
= 1 {1 - [Rechazar H
0
/ H
0
es Falsa]}
= 1 1 + [Rechazar H
0
/ H
0
es Falsa]
= [Rechazar H
0
/ H
0
es Falsa]
= [Rechazar H
0
/ H
1
es Verdadera]


Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
136
La forma que tomar la funcin de potencia de la prueba depender
especficamente de cmo este expresada la hiptesis alternativa de la prueba. De ser
esta ltima especfica, deja de ser funcin y se convierte en un valor de fcil clculo.

La aplicacin que analizremos en el futuro se basa en que la muestra
aleatoria proviene de una Distribucin Normal, en otro caso, de debe tener una
muestra lo suficientemente grande (n > 30) como para poder aplicar el Teorema de
Lmite Central, y poder aplicar la teora normal sobre alguna serie especfica (media,
varianza, Coeficiente de simetra, etc.)

Bajo esta expectativa, se tiene que la distribucin del promedio, bajo la
suposicin de la hiptesis nula se encuentra modelada por un Distribucin Normal,
que para un ! dado, bajo el proceso de estandarizacin es sencillo obtener el punto
que permite que al rea bajo la curva desde este punto a infinito sea !, como se
muestra a continuacin:


La figura anterior, muestra el rea correspondiente a !, es decir, la
probabilidad de rechazar la hiptesis nula cuando est es correcta. El trasfondo es que
el rechazo de esta hiptesis, es que se est aceptado la hiptesis alternativa, razn por
la cul la hiptesis alternativa juega un rol fundamental, que es el de definir la regin
de rechazo, es decir, se rechazar la hiptesis nula cuando la alternativa diga que
mayor (caso de la figura anterior); menor, en donde ! estar en la parte inferior de la
cola; distinto, en donde ! estar dividido en partes iguales en la cola inferior y
superior.

Supongamos, el hecho de hiptesis alternativa fija respecto a una
media poblacional, es decir, la hiptesis nula nos dice que la media (.) es igual al
punto .
0
, mientras que la hiptesis alternativa nos dice que la media (.) es igual al
punto .
1
, donde, es decir:

H
0
: . = .
0
v/s H
1
: . = .
1
(.
0
< .
1
)


Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
137
Como se puede apreciar, al especificar la hiptesis alternativa, es
posible determinar el error tipo II, por lo tanto tambin es posible disminuir este
error, con la consecuencia de un aumento del error tipo I, como se muestran en las
siguientes figuras:



Lamentablemente plantear una hiptesis alternativa especfica
(tambin conocida como simple), no es comn, habitualmente esta hiptesis es
abierta (tambin conocida como compuesta), la cul entrega infinitas posibilidades
distribucionales (normales) para esta alternativa, es as como si se piensa que la
media poblacional de cierto proceso es mayor que .
0
, las hiptesis a contrastar estn
dadas por:

H
0
: . = .
0
v/s H
1
: . > .
0



En este ltimo caso ya no es posible determinar el error tipo II,
situacin que se presenta en la prctica, pues ste depende la cada una de las infinitas
Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
138
distribuciones bajo la hiptesis alternativa, es entonces donde la funcin de potencia
juega un rol fundamental, pues se determina el error tipo II para distintas
posibilidades bajo la hiptesis alternativa, para luego graficar estos puntos y obtener
un funcin suave, que permite determinar la potencia de la prueba, en distintas
posibilidades de la hiptesis alternativa. Observar que la potencia el la probabilidad
de un acierto, por lo tanto se querr que sta sea siempre lo ms cercana a uno
posible.

De manera similar si se piensa que la media poblacional de cierto
proceso es menor que .
0
, las hiptesis a contrastar estn dadas por:

H
0
: . = .
0
v/s H
1
: . < .
0



Como se muestra en la siguiente figura, tambin es posible querer probar
hiptesis nula cuando la alterativa es simplemente distinta a la opcin de la hiptesis
nula. Este es un caso especial, pues la igualdad que se encuentra en la hiptesis nula,
se contrasta con el total desconocimiento de la alternativa, es decir, esta ltima puede
ser mayor o menor, a priori a los resultados muestrales, lo cual entrega distribuciones

Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
139
bajo la hiptesis alternativa que son mayores a la propuesta bajo la hiptesis nula
como menores a sta,:

Ejemplo 1 : En un problema relacionado con las ventas de una compaa, se piensa
que esta cubre el 40% de la demanda de un producto en cierta rea. Se
considera razonable la suposicin a menos que en una muestra de 18
consumidores elegidos aleatoriamente, se tenga que:

eW. {x X / X 3 X 12}, donde

X : N de consumidores que compran a la compaa.

Plantee las hiptesis de acuerdo al problema y determine el error tipo I,
para la regin crtica establecida.

X B(18, p) H
0
: p = 0,4 v/s H
1
: p 0,4

Error tipo I = [ Rechazar H
0
/ H
0
es Verdadera]
= [ X 3 X 12 / p = 0,4]
= [ X 3 / p = 0,4] + [ X 12 / p = 0,4]
= [ X 3 / p = 0,4] + 1 [ X < 12 / p = 0,4]
= [ X 3 / p = 0,4] + 1 [ X 11 / p = 0,4]
= 0,033 + 1 0,98
= 0,053


Luego, basndonos en la regla de decisin establecida, la probabilidad
de rechazar la hiptesis nula con respecto a que la proporcin de consumidores que
adquiere el producto de la compaa sea del 40%, cuando en realidad esta proporcin
es distinta al 40%, es del 0,053.

Determine un valor para el error tipo II, en algn valor de p elegido
por Ud. donde p es la proporcin de consumidores que adquiere los productos de la
compaa. Entonces, supongamos que p = 0,8 para el clculo de algn valor de "

Error tipo II = [ No rechazar H
0
/ H
0
es Falsa]
= 1 [ Rechazar H
0
/ H
0
es Falsa]
= 1 [ X 3 X 12 / p = 0,8]
= 1 [[ X 3 / p = 0,8] + [ X 12 / p = 0,8]]
= 1 [ X 3 / p = 0,8] [ X 12 / p = 0,8]
= 1 [ X 3 / p = 0,8] [1 [ X < 12 / p = 0,8]]
= 1 [ X 3 / p = 0,8] 1 + [ X 11 / p = 0,8]
= [ X 11 / p = 0,8] [ X 3 / p = 0,8]
= 0,051 0,000
= 0,051

Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
140
Luego se va a estar aceptando la conjetura con respecto a la proporcin
de consumidores que adquiere los productos de la compaa, cuando en realidad es
falsa 5,1% de las veces.

Grafique aproximadamente la funcin de potencia para al menos 5 valores de
p, para la grfica de la curva de potencia se considerarn los valores de p dados en
la Tabla 1:

Considerando que la funcin de potencia est dad por:

C (p) = 1 "
= 1 [ No rechazar H
0
/ H
0
es Falsa]
= 1 + [ X 3 / p = )] [ X 11 / p = )]

Luego:

p C (p)
0.9 0.999
0.8 0.949
0.6 0.375
0.4 0.053
0.1 0.902























p
C (p)
0,4
0.053
Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
141
En el caso anterior, la regla de decisin utilizada para el rechazo ( no
rechazo) de la hiptesis nula, se haba entregado, situacin arbitraria y no comn. En
adelante deduciremos buenas reglas de decisin sobre la base del conocimiento
establecido en intervalos de confianza. Particularmente, las cantidades pivotales
utilizadas en intervalos de confianza, juegan un rol fundamental en prueba de
hiptesis, pues de stas se deducirn las reglas de decisin, siempre pensando en el
caso de variables modeladas por una distribucin normal, o tamaos de muestra lo
suficientemente grandes para utilizar el Teorema del Lmite Central.

Supongamos, que se establece un mximo error de tipo I, !, para una
hiptesis nula establecida, entonces el punto c, es el punto crtico a establecer, con el
cual se rechazara la hiptesis nula cuando esta el verdadera sobre la base de
resultados muestrales. Como se sabe, el mejor estimador de . es X, cuando se esta
bajo la teora normal clsica, por lo tanto, cada vez que se encuentre un x mayor de
c, se rechazar la hiptesis nula. Como resulta tradicional, cuando se est bajo una
distribucin normal, lo usual es la estandarizacin, donde, se puede observar, que el
punto c, ahora es un punto conocido, como se muestra en la figura siguiente, cuando
las hiptesis a contrastar son las siguientes:

H
0
: . = .
0
v/s H
1
: . > .
0



Por lo tanto la regla de decisin para el rechazo de la hiptesis nula estara
dada por:

eW:{ X/ n
|
|
.
|

\
|


0
X
> Z
1 !
} eW:{ X/ X > Z
1 !
n

+ .
0
}

Con lo que se puede concluir, que para una muestra aleatoria, donde se
obtenga un promedio mayor que el punto Z
1 !
n

+ .
0
, entonces se rechazar la
hiptesis nula.
Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
142
APLICACIN 8.1: Rendimiento de neumticos probados por una empresa lder.
Los datos siguientes corresponden a una investigacin realizada por una empresa
internacional, lder en la fabricacin de neumticos, en la cual se mide la duracin,
en miles de kilmetros [MKM], de 51 neumticos del Tipo A y 101 neumticos del
Tipo B. Los resultados obtenidos fueron:

Duracin Tipo A Tipo B
22,15 - 23,85 1 7
23,85 - 25,65 3 12
25,65 - 27,45 13 41
27,45 - 29,25 19 26
29,25 - 31,05 15 15

Definiendo claramente las variables, y supuestos pruebe si es posible suponer
que la duracin media de los neumticos, en ambas marcas, es superior a 26,5 [MKM],
con un 5% de significancia.

X : Duracin de neumticos [MKM] en tiendas distribuidoras del tipo A.
Y : Duracin de neumticos [MKM] en tiendas distribuidoras del tipo B.

Supuestos: X N (
x
,
2
x
) Y N (
y
,
2
y
)

Datos: x = 28,10 [MKM]
2
x
s = 3,26 [MKM]
2

x
n = 51
y = 27,09 [MKM]
2
y
s = 3,63 [MKM]
2

y
n = 101

H
0
:
x
= 26,5 v/s H
1
:
x
> 26,5

e.W. : { X / X > z
1 -

2
x
x
s
n
+ (
x
)
H
0
}}

e.W. : { X / X > 1,645
2
3, 26
51
+ 26,5} { X / X > 26,92}

Se rechaza H
0
. Existe evidencia muestral suficiente como para suponer que la
duracin media de los neumticos de la marca A es superior a 26,5 [MKM], con un
5% de significancia.

H
0
:
y
= 26,5 v/s H
1
:
y
> 26,5

e.W. : { Y / Y > z
1 -

2
y
y
s
n
+ (
y
)
H
0
}}

e.W. : { Y / Y > 1,645
2
3, 63
101
+ 26,5} { Y / Y > 26,81}
Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
143
Se rechaza H
0
. Existe evidencia muestral suficiente como para suponer que la
duracin media de los neumticos de la marca B es superior a 26,5 [MKM], con un
5% de significancia.


Es posible suponer que la variabilidad en la duracin del neumtico Tipo A,
medida a travs de la varianza, es inferior a 5 [MKM]
2
, con un 10% de significancia?.

H
0
:
2
x
= 5 v/s H
1
:
2
x
< 5

eW : {
2
x
S /
2
x
S < Z
0,10

Bajo Ho
4
2
1
x
n

+
2
x

Bajo H
0
}

eW : {
2
x
S /
2
x
S < Z
0,10

2
2 5
50

+
2
x

Bajo H
0
}

eW : {
2
x
S /
2
x
S < 1,2815 1,00 + 5} {
2
x
S /
2
x
S < 3,718}

Se rechaza H
0
. Existe evidencia muestral suficiente como para suponer que la
variabilidad en la duracin del neumtico Tipo A, medida a travs de la varianza, es
inferior a 5 [MKM]
2
, con un 10% de significancia.


Existe evidencia muestral suficiente como para suponer que en los
neumticos Tipo B, la proporcin de veces que la duracin de un neumtico es
superior a 29,25 [MKM], es de a lo menos un 10%, con un 4% de significancia?.

S
2
: N de distribuidoras tipo B cuyas ventas fueron superiores a 29,25 [$MUS].

Supuestos: X b (101, p
2
)

H
0
: p
2
= 0,1 v/s H
1
: p
2
> 0,1

e.W. : {
2
p /
2
p > z
1 -
0
1 1
2
H
p (1 p )
101

+ (p
2
)
H
0
}}

e.W. : {
2
p /
2
p > 1,75
2
0,1 0, 9
101

+ 0,1} {
2
p /
2
p > 0,1522}

Considerando que
2
p = 0,1485, no se rechaza H
0
. Existe evidencia muestral
suficiente como para suponer que en los neumticos de la marca Tipo B, la
proporcin de veces en que la duracin de un neumtico es superior a 29,25 [MKM],
es de a lo menos un 10%, con un 4% de significancia.
Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
144
APLICACIN 8.2: Lmites de velocidad en una Comuna. Un estudio en una
carretera de una comuna de particular importancia, se llev a cabo para fijar el lmite
de velocidad de sta. El Ingeniero de Transporte, conocedor de los procedimientos
estadsticos, tom una muestra de 15 vehculos, a los cuales se registro su velocidad
en su paso por la carretera [kmts/hora]. Los datos fueron los siguientes:

88,8 84,9 91,0 95,1 94,8 81,3 96,9 86,1
94,4 85,7 87,2 83,2 82,6 89,1 86,9

El Ingeniero de Transporte cree que la verdadera velocidad media con la que
los vehculos pasan por la carretera es inferior a 90 [kmts/hora]. Apoyan los datos
muestrales est afirmacin con un 5% de significancia?.

X : Velocidad con la que pasan los vehculos por la carretera [Kmts/hr].

Supuestos: X N(., 5
2
)

Datos: x = 88,53 [Kmts/hr] s = 4,93 [Kmts/hr] n = 15

H
0
: . = 90 [Kmts/hr] v/s H
1
: . < 90 [Kmts/hr]

e.W. : { X / X <
1
( 1)
s
n
n
t

+
H
0
}

e.W. : { X / X <
0,95
4, 93
(14)
15
t + 90}

e.W. : { X / X < 1,761
4, 93
15
+ 90} { X / X < 87,76}

Considerando que x = 88,53, no se rechaza H
0
. No Existe evidencia muestral
suficiente como para suponer que la verdadera velocidad media con la que los
vehculos pasan por la carretera es inferior a 90 [Kmts/hr].


Contextualice el error tipo II en este problema y determine la probabilidad de
cometer este error, cuando la verdadera velocidad media con la que los vehculos
pasan por la carretera es de 88,88 [kmts/hora]?.

Contextualizacin: Aceptar que la velocidad media es de 90 [Kmts/hr] cuando en
realidad es menor que 90 [Kmts/hr].

[No Rechazar H
0
/ H
1
es Verdadera] = [ X 87,76 / . = 88,88]

=
X 88,88 87,76 88,88
4,93/ 15 4,93/ 15
( | | | |

( | |
\ . \ .


= 1 [T
14
-0,877] [T
14
0,877] = 0,8.
Universidad Tcnica Federico Santa Mara Renato Allende Olivares
Departamento de Matemticas Humberto Villalobos Torres
145
APLICACIN 8.3: Consumo de marihuana, riesgo social. Hace solo 10 aos
atrs, el consumo de marihuana por comuna en riesgo social en una ciudad era de a
lo ms de 15% en promedio. Sin embargo, en los ltimos aos y a pesar de todos los
programas de mejoramiento psicosocial, y el acceso que la poblacin tiene a ellos, se
cree que el consumo medio ya ha superado ese valor. Suponga que se extrajo una
muestra aleatoria de 9 comunas de esta poblacin, y se determin que el consumo
medio de marihuana de los habitantes de esta poblacin es del 18[%], con una
varianza del 25[%]
2
. Definiendo las variables y supuestos asociados al problema:

Establece hiptesis adecuadas y pruebe el supuesto acerca del consumo de
marihuana utilizando un nivel de significacin del 5%.

X: Porcentaje de la comuna que consume marihuana. X N(;
2
)

H
0
: = 15 v/s H
1
: > 15

eW : { X/ X > t
0,95
(8)
5
3
+ 15} (t
0,95
(8) = 1,86)

eW : { X/ X > 18,1[%]}

Considerando que x = 18,0, no se rechaza H
0
. No Existe evidencia muestral
suficiente como para suponer que el consumo medio de marihuana por comuna en
riesgo social en una ciudad es mayor al 15% [%].


Si el consumo medio actual en realidad hubiera aumentado slo en 2,663[%].
Cul es la probabilidad de cometer un error de tipo 2?.

= [No rechazar H
0
/ H
1
es Verdadera]

= [ X 18,1]=
X 17, 663 18,1 17, 663
9 9
5 5
( | | | |

( | |
\ .
\ .


= [T
8
0,2622] 0,6000


Es posible suponer que la varianza en la proporcin de consumo de
marihuana en las comunas es mayor al 20[%]
2
con un 10% de significancia?.

H
0
:
2
= 20 v/s H
1
:
2
> 20

eW : {
2
S /
2
S >
2
0,9
(8)
20
8
} (
2
0,9
(8) = 13,36)

eW : {
2
S /
2
S > 33,4[%]
2
} No se Rechaza H
0
.

Considerando que s
2
= 25, no se rechaza H
0
. No Existe evidencia muestral
suficiente como para suponer que la varianza en la proporcin de consumo de
marihuana en las comunas es mayor al 20[%]
2
.

Das könnte Ihnen auch gefallen