Beruflich Dokumente
Kultur Dokumente
Licenciatura
2016
Estadstica I
en la
Psicologa
Y
Redes
ETAC Coacalco
CONCEPTO
Qu es la Estadstica? .. ..
Historia de la Estadstica ..
La Estadstica en la Administracin y la Contadura
Variables ..
Tipos de cuadros Estadsticos ...
Teora del Muestreo
Cuadros Estadsticos
Frecuencia
Rango o Amplitud
Amplitud de Clase
Frecuencia Relativa
Histograma
Polgono de Frecuencias
Desviacin Media
Desviacin Tpica o Estndar
Varianza
Dispersin Relativa
Teora de Probabilidades
PAG.
1
5
10
14
19
21
22
28
32
36
45
47
49
49
51
52
54
56
57
62
64
73
87
88
97
99
100
103
107
QU ES LA ESTADSTICA?
Segn Allen (1996), Chao (1996), Yule y Kendal ( 1986) y Rivas Gonzlez ( 1993) la estadstica es una ciencia (
otros investigadores la consideran como un conjunto de mtodos) que se encarga de la recoleccin, clasificacin,
presentacin, organizacin,
anlisis e interpretacin de un conjunto de fenmenos, (naturales, econmicos,
polticos o sociales) de manera metdica y numrica, que permitan extraer conclusiones de un hecho, en un
momento determinado y as poder tomar decisiones valederas. De acuerdo con la definicin anterior la estadstica
se encarga de la recoleccin, clasificacin, anlisis e interpretacin de un conjunto de datos en una investigacin
determinada.
Segn, algunos investigadores la estadstica, es una rama de las matemticas que se ocupa de reunir, organizar y
analizar datos numricos y que ayuda a resolver problemas como el diseo de experimentos y la toma de decisiones.
Tambin, se puede decir que es una rama de las matemticas que utilizando un conjunto de mtodos y tcnicas se
encarga de la recoleccin, organizar, presentacin, analizar e interpretacin de datos naturales, econmicos,
polticas, sociales, etc., para
presentar los resultados obtenidos y sacar conclusiones vlidas basadas en dicho
anlisis y as poder tomar una decisin. La funcin principal de la estadstica es elaborar principios y mtodos que
ayuden a tomar decisiones frente a la incertidumbre. En realidad, muchos autores definen la estadstica actualmente
como un mtodo de toma de decisiones frente a la incertidumbre. La estadstica puede presentar conclusiones
referentes nicamente al grupo estudiado, o puede generalizarlas para grupos mayores.
El gran nmero de informacin estadstica que se ofrece al pblico, por una razn u otra, escapa al
entendimiento, y una incertidumbre colectiva radica en que porcin de la estadstica es buena y cual es mala.
Indudablemente, no se puede aceptar toda la informacin sin emitir crtica. Algunas veces, conclusiones totalmente
errneas se basan en datos fehacientes. Por ejemplo, en alguna ocasin cierto alcalde afirm que la ciudad x era
la ms sana de la nacin, ya que su ndice de mortalidad era el ms bajo del pas. Aunque concordamos con su
afirmacin de que ser sano significa no estar muerto, existen otros factores que no se tomaron en consideracin:
cmo la ciudad no tena hospital, sus habitantes tenan que ser hospitalizados en otra ciudad y si el enfermo mora
el fallecimiento se registraban en el lugar donde ciertamente ocurri la muerte y no en la ciudad de origen del
difunto. Los siguientes son algunos de los otros casos errnea basada en datos estadsticos, en otra informacin que
eran fidedigna: la estadstica seala que hubo menos accidentes de aviacin en 1920 que 1990, por lo tanto, era ms
seguro volar en 1920 que 1990, anlisis estadstico errneo aunque la estadstica es verdad. Como existen ms
accidentes de automviles en el da que en la noche es ms seguro conducir de noche, otro error al realizar tal
afirmacin, como se puede observar no siempre con las estadsticas se pueden hacer afirmaciones tomando en
cuenta algunos datos estadsticos valederos, si antes no se analizan otras variables relacionadas con las estadsticas.
Hay que hacer una explicacin antes de comenzar un estudio formal aplicando las tcnicas estadstica ; se pondr
en claro que los procedimientos estadsticos acertado de un problema implican mucho ms que hacer algunas
observaciones en la elaboracin, realizar algunas operaciones y llegar a cierto tipo de conclusiones. Existen muchas
incgnitas en la elaboracin de un estudio estadstico tales como: la forma en que se recolectan los datos y como se
planifica una investigacin o es un estudio en su totalidad, es de importancia primordial. Como en cualquiera otra
ciencia, en la estadstica hay que tener la precaucin adecuada en todo la fase de cualquiera investigacin, desde la
concepcin y planteamiento del problema, que algunas veces es el trabajo ms dificultoso, hasta la planificacin y
el diseo, pasando por las etapas de recoleccin, organizacin, tabulacin, anlisis e interpretacin de los datos, si
no se toman en cuenta estas etapas no se podr llegar a una conclusin til o valedera. En trminos generales, ni
siquiera un prolongado y elegante manejo matemtico o estadstico de los datos, aun con el equipo de computacin
ms costoso y sofisticado del mundo, pueden salvar los estudios o experimentos mal diseado. En realidad, los
estadsticos profesionales insisten en que hasta los estudios de muestreo ms simple deben llevarse a cabo con
estricto apego a reglas bien definidas; de tal forma que, no existe una justificacin para llamar estadstico a un
estudio que no se ajuste a estas normas.
Cuando coloquialmente se habla de estadstica, se suele pensar en una relacin de datos numricos presentados de
forma ordenada y sistemtica. Esta idea es la consecuencia del concepto popular que existe sobre el trmino y que
El proceso que sigue la estadstica descriptiva para el estudio de una cierta poblacin consta de los siguientes pasos:
Seleccin de caracteres dignos de ser estudiados.
Mediante encuesta o medicin, obtencin del valor de cada individuo en los caracteres seleccionados.
Elaboracin de tablas de frecuencias, mediante la adecuada clasificacin de los individuos dentro de
cada carcter.
Representacin grfica de los resultados (elaboracin de grficos estadsticos).
Obtencin de parmetros estadsticos, nmeros que sintetizan los aspectos ms relevantes de una
distribucin estadstica.
Por ejemplo: si un investigador aplica un test de aptitud a un grupo de graduados de un instituto superior
recientemente contratados por una empresa; entre lo que puede hacer con las puntuaciones que resultan del test
valindose de la estadstica descriptiva, estn los aspectos siguientes: arreglar las puntuaciones o clasificarlas de
manera que con solo dar un vistazo a los datos se pueda obtener una imagen general de los mismos, construir tablas,
grficas y cuadros estadsticos para visualizar el comportamiento de los datos o bien convertir las puntuaciones
brutas en rangos o en percentiles para realizar comparaciones, etc.
Estadstica inferencial: Es aquella rama de la estadstica que apoyndose en el clculo de probabilidades y a partir
de datos mustrales, efecta estimaciones, decisiones, predicciones u otras generalizaciones sobre un conjunto
mayor de datos. Puede definirse como aquella rama de la estadstica que hace posible la estimacin de una
caracterstica de una poblacin o la toma de una decisin referente a una poblacin, fundamentndose slo en los
resultados de la muestra.
La estadstica Inferencial, por otro lado, se refiere a la rama de la estadstica que trata de los procesos inferenciales,
la que a su vez vislumbra la teora de estimacin y prueba de hiptesis. Uno de los primordiales aspectos de la
inferencia estadstica es el proceso que radica en utilizar estadsticos mustrales para adquirir conclusiones sobre los
verdaderos parmetros de la poblacin.
FINALIDAD DE LA ESTADSTICA
La estadstica es una ciencia o mtodo cientfico que en la actualidad es considerada como un poderoso auxiliar en
las investigaciones cientficas, que le permite a sta aprovechar el material cuantitativo. No existen ciencias cuyos
fenmenos no puedan ser tratados estadsticamente; por tal razn, la estadstica la denominan algunos
investigadores (Rivas Gonzlez) como el lenguaje cientfico. La misma es indispensable en la formacin de
cualquier profesional universitario o tcnico medio, ya que, por medio de esta se pueden realizar diagnsticos de
cualquiera investigacin que se desee realizar. Esta
es indispensable para realizar cualquier trabajo de
investigacin que requiera una recoleccin de informacin. Ella permite resumir los resultados de una investigacin
en una forma significativa y cmoda. La misma permite deducir conclusiones generales y as afirmar hasta donde se
puede ampliar una generalizacin de una investigacin determinada. De la misma forma permite predecir que
suceder algo tomando en cuenta ciertas condiciones que se han analizado con datos anteriores.
En las ciencias sociales, administrativas, polticas, medicas, en educacin y en otras ciencias permite analizar
algunos de los factores casuales en sucesos complejos y que de alguna manera confundiran a un investigador
determinado. De acuerdo a lo antes planteado los mtodos estadsticos son por lo tanto los compaeros constantes
de los que realizan investigacin. La estadstica y su aplicacin, ha avanzado de tal forma en los ltimos aos, que
hoy da se ha hecho imprescindible en todas las investigaciones cientficas sea cual fuere el carcter de esta ltima.
HISTORIA DE LA ESTADSTICA
Desde el inicio de la civilizacin han existido formas sencillas de estadstica, puesto que en la antigedad se
utilizaban representaciones grficas y otros smbolos en pieles, rocas, palos de madera y paredes de cuevas para
contar el nmero de personas, animales o ciertas cosas que eran de importancia en aquellas civilizaciones. El
trmino estadstico es ampliamente percibido y pronunciado a diario desde diversos sectores activos de la sociedad.
No obstante, hay una gran diferencia entre el sentido del trmino cuando se utiliza en el lenguaje corriente,
generalmente al anteceder una citacin de carcter numrico, y lo que la estadstica significa como ciencia.
La razn o razones que motivaron al hombre en un momento de su desarrollo a tomar en cuenta datos con
propsitos estadsticos, posiblemente se encuentra si se toma en cuenta que es difcil suponer un organismo social,
sea cual fuere la poca, sin la necesidad, casi instintiva, de recoger aquellos hechos que aparecen como actos
esenciales de la vida; y as, al ubicarnos en una etapa del desarrollo de la estadstica podemos especular que se
convirti en una aritmtica estatal para asistir al gobernante que necesitaba conocer la riqueza y el nmero de los
sbditos entre otros, con el objeto de recaudar impuestos o presupuestar la guerra.
Hay evidencias del uso de la estadstica a un nivel rudimentario por organizaciones sociales antiguas. As por
ejemplo, en los monumentos egipcios hay testimonios de que los movimientos de poblaciones eran seguidos por
medio de censos. La Biblia cita que Moiss hizo un censo de los Israelita en el desierto, como tambin que David
llev un censo. En China, Confucio narra como un rey llamado Yao, unos 3.000 aos a.C., hizo levantar un
recuento agrcola, industrial y comercial del pas.
Desde los comienzos de la civilizacin han existido formas sencillas de estadstica, pues ya se utilizaban
representaciones grficas y otros smbolos en pieles, rocas, palos de madera y paredes de cuevas para contar el
nmero de personas, animales o cosas. Hacia el ao 3000 a.C. los babilonios usaban pequeas tablillas de arcilla
para recopilar datos sobre la produccin agrcola y sobre las especies vendidas o cambiadas mediante trueque.
En el siglo XXXI a.C., mucho antes de construir las pirmides, los egipcios analizaban los datos de la poblacin y la
renta del pas. Los libros bblicos de Nmeros y Crnicas (Nmeros, texto sagrado, cuarto libro del Antiguo
Testamento, as llamado porque los captulos iniciales se refieren al censo, o numeracin, de las tribus israelitas. La
primera seccin est dedicada casi en exclusiva a asuntos estadsticos. Los Libros de las Crnicas, dos libros del
Antiguo Testamento que interpretan la historia de Israel y Judea desde la creacin de Adn hasta mediados del siglo
VI a.C. Considerados por los cristianos como libros histricos de La Biblia, son los dos ltimos del canon hebreo,
en el que se hallan incluidos los Hagiogrficos) incluyen, en algunas partes, trabajos de estadstica. El primero
LA PRESENTACIN
Una informacin estadstica adquiere ms claridad cuando se presenta en la forma adecuada. Los cuadros, tablas y
grficos facilitan el anlisis, pero se debe tener cuidado con las variables que se van a presentar y la forma de
hacerlo. No es aconsejable saturar un informe con tablas y grficos redundantes que, antes que claridad, crean
confusin. Adems la eleccin de determinada tabla o grfico para mostrar los resultados, debe hacerse no slo en
funcin de las variables que relaciona, sino del lector a quien va dirigido el informe.
EL ANLISIS
La tcnica estadstica ofrece mtodos y procedimientos objetivos que convierten las especulaciones de primera
mano en aseveraciones cuya confiabilidad puede ser evaluada y ofrecer una premisa medible en la toma de una
decisin.
PUBLICACIN
Toda conclusin es digna de ser comunicada a un auditorio. Es ms, hay otros estudiosos del mismo problema a
quienes se les puede aportar informacin, conocimientos y otros puntos de vista acerca de l.
VARIABLES
Las variables son magnitud que puede tener un valor cualquiera de los comprendidos en un conjunto de valores de
un estudio o investigacin determinada. Son todos aquellos datos u observaciones que pueden ser expresados
mediante nmeros, es decir, son caractersticas de una poblacin determinada, susceptible de medicin. Son
caractersticas que pueden ser observadas en determinado fenmeno natural, social, econmico, poltico etc. Las
mismas son susceptibles de adoptar distintos valores o ser expresadas en varias categoras.
En los estudios estadsticos que se realizan se busca investigar acerca de una o varias caractersticas de la poblacin
observada. Para un correcto manejo de la informacin, estas caractersticas deben ser tomadas en cuenta de acuerdo
a su tipo para poder aplicar algunas de las operaciones que son necesarios llevar a cabo. Existen muchas
definiciones de variables, entre las cuales tenemos:
Son aquellos datos u observaciones que pueden ser expresados cuantitativamente, es decir, son caractersticas de
una poblacin especfica, en las cuales se realiza una investigacin en un momento dado. Las variables por lo
general se representan con letras maysculas y sus valores particulares con minsculas, es decir, si se hace
referencia a los salarios devengados por un grupo de trabajadores la variable salario estara representado por una
letra mayscula, en este caso X i y varios salarios de diferentes trabajadores en particular, estaran representados
con la letra minscula correspondiente, as:
x1 = 180.000, x2 = 190.000, x3 = 480.00, etctera.
Es aquella caracterstica de una poblacin que puede tomar diferentes valores en un estudio determinado. Son
smbolos tal como X, Y, Z, A, B, etc., que puede tomar un valor cualquiera de una caracterstica especificada de un
estudio determinado. Por lo tanto, son caractersticas que pueden ser observadas en determinado fenmeno natural,
Ttulo.
Encabezamiento.
Columna Matriz. o Concepto
Cuerpo.
Notas de Encabezado
Nota de Pie
Fuente de Datos
Ttulo: Es una descripcin del contenido de la tabla. Debe ser compacta y completa. Este comprende las
siguientes
partes:
A)
Numeracin del Cuadro: cuando los cuadros forman parte de un texto o de un grupo deben ser
numerados en la parte superior central de la hoja.
B) Titulo Propiamente Dicho: se debe seguir los siguientes puntos:
1) Se debe ubicar centrado en la parte superior del cuadro sin subrayar, y usando letras maysculas
para todo el
enunciado.
2) Se debe redactarse con precisin y que exprese brevemente los datos que se presentan en el cuadro.
3) En general el orden del enunciado ser as:
a) Referencia Geogrfica.
b) Naturaleza de los Datos.
c) Referencia Cronolgica.
d) Detalle de las clasificaciones o unidades. Estas debern colocarse entre parntesis y utilizando
maysculas nicamente al iniciar la palabra.
Ejemplo:
Un ttulo completo indica:
Qu son los datos incluidos en el cuerpo de la tabla?
Dnde est el rea representada por los datos?
Cmo estn los datos clasificados?
Cundo ocurrieron los datos?
Encabezado: Es el ttulo de la parte de una columna o columnas. Las tablas ms simples pueden consistir
solamente de dos columnas y dos encabezados: Una para los conceptos y otra para los datos. Debe disponerse en la
parte superior del cuadro y las designaciones que comprenden debern escribirse en lo posible horizontalmente,
debiendo ser preciso y breves, as mismos se dispondr en un orden lgico de izquierda a derecha. Otra observacin
para la elaboracin del encabezamiento, es que tanto l como las diversas columnas deben separarse con rayas,
cerrando el cuadrado por la parte superior e inferior con una raya gruesa o una doble raya, en la actualidad existe la
preferencia de no rayar verticalmente el encabezamiento.
Concepto o Columnas Matriz: La descripcin en hilera de la tabla son llamados conceptos; y estos son colocados
al lado izquierdo de la tabla. La naturaleza de las clasificaciones es indicada por los encabezados de las columnas,
incluyendo la columna matriz
Es bueno Recordar que los datos estadsticos pueden referirse a clasificaciones cualitativas, cuantitativas,
cronolgicas o geogrficas; recordar esto es importante puesto que la naturaleza de los datos tomando en cuenta
esta clasificacin determinar en parte el arreglo en que se lleven stos a la columna matriz. Existen variadas
formas de arreglo de los datos en la columna matriz. Es permisible disponerlos en orden alfabtico, mtodo que se
usa habitualmente cuando los datos se clasifican geogrfica o cualitativamente. Pueden ordenarse tambin segn
clases fijadas por la costumbre: casado, soltero, divorciado, viudo. Es factible observar que si las diferentes
nominaciones son ordenadas alfabticamente, se hace muy sencillo localizarlas.
Cuando se trata de clasificaciones cuantitativas, el arreglo puede hacerse en orden ascendente o descendente.
Cuando se refiere a clasificaciones cronolgicas, se ordenan los aos en sentido ascendente: 1995, 1996, 1997,
1998, y cuando se trate de meses se comienza por el mes de Enero.
Cuerpo del cuadro: El cuerpo del cuadro es la parte que contiene los datos estadsticos presentados en ste. Cada
dato individual ocupa en el cuadro un lugar que corresponde a la interseccin de una fila y una columna dada; por
tanto, el significado de los datos en un lugar est indicado por las especificaciones o partidas combinadas de la
columna y la fila que se interceptan. Cuando el valor de uno de los lugares del cuerpo del cuadro sea cero es
conveniente marcar ese lugar con un guin, si no existe el dato, si es estimado, o si la cifra indica alguna
consideracin distinta a la del resto de los otros, debe indicarse con una llamada y su respectiva aclaratoria al pie del
cuadro. La representacin efectiva de los datos en la tabla depende de los arreglos de las columnas en hileras.
Nota de Encabezado: Son usualmente escritas justamente arriba de los encabezados y debajo de los ttulos. Son
usados para explicar ciertos puntos relacionados con la tabla completa que no han sido incluidos en el ttulo ni en
los encabezados ni en los conceptos.
Nota de Pie: Las notas de pie son usualmente colocadas debajo de los conceptos. Son usados para clarificar algunas
partes incluidas en la tabla que no son explicadas en otras partes, tal como las notas de pie en la tabla. Las notas al
pie de los cuadros se utilizan para hacer aclaratorias sobre uno o varios elementos en particular. La nota sobre la
fuente de los datos debe indicar el origen de la informacin presentada en el cuadro.
Fuentes: Las fuentes de datos o simplemente fuentes, es usualmente escrita debajo de las notas de pie. Si los datos
fueron recopilados y presentados por la misma persona, es costumbre no establecer la fuente en la tabla. El objeto
de la indicacin de las fuentes de los datos es el de proporcionar el debido reconocimiento a la persona u organismo
que recopil y /o public los datos, adems de indicar, a quienes deseen ampliar la informacin, el origen de la
misma
Otras consideraciones sobre la Construccin de Cuadros
En cuanto a los totales, cuando se les quiera recalcar, por tener gran relevancia, se colocarn en la parte superior de
la columna matriz y a la izquierda del encabezamiento, aunque algunos autores lo suelen poner en la parte inferior
de la columna matriz y a la derecha del encabezamiento.
Los cuadros estadsticos que llamamos de resumen o analticos, deben construirse de tal forma que se destaquen las
comparaciones importantes, Esto puede lograrse colocando las cifras que se van a comparar en columnas o filas
contiguas.
d) Factibilidad de hacer el estudio cuando la toma de datos implica tcnicas destructivas, por ejemplo:
- Pruebas de germinacin.
- Anlisis de sangre.
- Control de calidad.
Tipos de muestreo
Los investigadores proponen diversos criterios de clasificacin para los diferentes tipos de muestreo, aunque en
general pueden dividirse en dos grandes grupos: mtodos de muestreo probabilsticas y mtodos de muestreo no
probabilsticas.
Mtodos de muestreo probabilsticas
Los mtodos de muestreo probabilsticos son aquellos que se basan en el principio de equiprobabilidad. El mtodo
otorga una probabilidad conocida de integrar la muestra a cada elemento de la poblacin, y dicha probabilidad no es
nula para ningn elemento.
Es decir, aquellos en los que todos los individuos tienen la misma probabilidad de ser elegidos para formar parte de
una muestra y, consiguientemente, todas las posibles muestras de tamao n tienen la misma probabilidad de ser
elegidas. Slo estos mtodos de muestreo probabilsticos nos aseguran la representatividad de la muestra extrada y
son, por tanto, los ms recomendables. Dentro de los mtodos de muestreo probabilsticos encontramos los
siguientes tipos:
Definicin del marco de muestreo: El marco de muestreo es el conjunto de las unidades de muestreo que constituyen
una poblacin. Este generalmente puede ser de dos tipos:
a) Marco lista: Es una lista depurada (sin traslapes o duplicaciones) que permite identificar a cada unidad de muestreo.
Por ejemplo, una lista que contenga el nombre de todos los proveedores de caa de azcar de un ingenio. Es
recomendable que adems de identificar a cada unidad muestral, incluya algunas otras caractersticas de inters, por
ejemplo, tamao de la finca de cada proveedor.
b) Es un plano o mapa que permite identificar pequeas reas usadas como unidades de muestreo en las que se ha
dividido el rea total.
Variables a medir y Mtodos de medicin: Es importante considerar el tipo de variable a medir, por ejemplo: si se va
a estudiar el rendimiento de caa de azcar, la variable es de tipo continuo, si interesa estimar la proporcin de
agricultores que utilizan herbicidas para el control de malezas, se medir una variable de tipo binominal. El tipo de
variable a medir ayuda a definir el esquema o tipo de muestreo. Los mtodos de medicin deben de tener las siguientes
caractersticas:
a) uniformidad.
b) practicabilidad.
c) deber ser comprensibles para el grupo de trabajo.
Tipo o Esquema de Muestreo: Existen actualmente una gran variedad de tipos o esquemas de muestreo que han sido
desarrollados para diferentes situaciones, entre los ms usados estn: muestreo simple aleatorio, muestreo aleatorio
estratificado, muestreo sistemtico.
Determinacin del tamao de muestra (n): Este punto depende de que es lo que se desea estimar y el esquema o tipo
de muestreo seleccionado.
Seleccin de las unidades de muestreo: Consiste en extraer un nmero n de unidades muestrales de una poblacin de
tamao N.
Premuestreo y pruebas de campo: En un estudio, es conveniente someter el mtodo a una prueba previa por las
siguientes razones:
a) Algunas veces es imprescindible realizar un Premuestreo para tener una estimacin preliminar de la
variabilidad de la poblacin.
b) Verificar la funcionalidad de un mtodo de muestreo.
c) Estimar costos.
d) Conocer la eficiencia de la organizacin del trabajo de campo.
e) Captar la aceptacin, rechazo o dificultad para obtener la informacin.
Organizacin del trabajo de campo: Incluye la capacitacin de personal y todas las operaciones necesarias para
obtener la informacin buscada.
Anlisis y Edicin de resultados: Puede consistir slo en la presentacin e interpretacin de distribuciones simples,
tabulaciones, grficas o puede considerar un anlisis estadstico ms complejo (Estimacin, pruebas de hiptesis, etc.)
esto depende bsicamente de los objetivos del trabajo.
Muestreo aleatorio simple: (es el ms importante): cada elemento de la poblacin tiene la misma probabilidad de
ser elegido, las observaciones se realizan con re-emplazamiento, de manera que la poblacin es idntica en todas las
extracciones, o sea, que la seleccin de un individuo no debe afectar a la probabilidad de que sea seleccionado otro
cualquiera aunque ello comporte que algn individuo pueda ser elegido ms de una vez. . (se hacen tantas
papeletas numeradas como individuos hay, se coge una y se devuelve, se vuelve a coger otra y se devuelve, etc.)
En el muestreo sistemtico los elementos de la poblacin estn ordenados por listas. Se elige un individuo al azar y
a continuacin a intervalos constantes se eligen todos los dems hasta completar la muestra. Si el orden de los
En relacin con la pregunta, cmo tomamos una muestra aleatoria en la prctica, por suerte podemos tomarla sin
recurrir en realidad al tedioso proceso de citar todas las muestras posibles. En cambio podemos citar los N
elementos individuales de una poblacin finita y despus tomar una muestra aleatoria mediante la seleccin de los
elementos que se incluirn en la muestra, uno a la vez sin sustitucin, asegurndonos que en cada una de las
elecciones sucesivas, cada uno de los elementos restantes de la poblacin tenga la misma oportunidad de ser
seleccionado. Esto nos conduce a la misma probabilidad de cada muestra posible. Por ejemplo, para tomar una
muestra aleatoria de 20 cuentas vencidas de un archivo de 257 cuenta de este tipo, se pudiese escribir cada nmero
de cuenta en un pedazo de papel, colocar los papeles en una caja y mezclarlos vigorosamente; luego tomaramos
(sin ver) 20 papeles, uno tras otro, sin sustitucin.
En la prctica, a menudo este procedimiento relativamente simple resulta innecesario, ya que la manera ms simple
de tomar una muestra aleatoria consiste en utilizar una tabla de cifras aleatorias (o nmeros aleatorios). Las tablas
publicadas de nmeros aleatorios constan de pginas en las cuales se colocan los nmeros 0, 1, 2,.y 9 casi de
la misma manera en que podran figurar si hubiesen sido generadas por un dispositivo o juego de oportunidad que
d a cada cifra la misma probabilidad de figurar en cualquier sitio dado de la tabla. Hoy en da, estas tablas se
elaboran mediante uso de computadoras.
Existen diferentes mtodos de seleccin al azar de uso frecuente, entre 1os que se pueden considerar
siguientes:
los
Juan Rojas
Lus Mata
Pedro Rodrguez
Miguel Jurez
Nicols Mata
Juan Marn
Jos Mota
Mara Pea
Carlos Mata
Ligia Lpez
Ral Ron
Magdalys Medas
Aplicando la tabla N 1 de nmeros aleatorios se seleccionan las n = 4 personas. Elegimos por ejemplo la primera
y segunda columna (aqu se tienen que tomarse dos columnas, ya que la numeracin de los elementos est hecha
con dos dgitos) y comenzando en la primera fila se tiene que las personas seleccionadas son las siguientes:
04020312-
Miguel Jurez
Lus Mata
Pedro Rodrguez
Magdalys Medias
Si sucediera que el nmero de individuos a seleccionar no se alcance con las dos primeras columnas seleccionadas,
se contina con las dos siguientes columnas hasta completar el tamao de la muestra requerida.
80674
47829
5965l
01895
15405
21694
49810
32196
13697
47609
43694
54905
75274
82384
7l708
54447
06372
83430
68668
83609
71257
52423
76273
32592
08141
96045
59445
47323
37056
30566
17894
52324
18481
36872
24520
72648
67533
12506
13772
13122
91601
76487
63677
07967
83580
79007
52233
66860
15438
58729
l5867
33571
90894
52098
60490
02464
33203
79526
79227
30424
36847
58454
43636
65482
63564
64776
14113
83214
18222
37414
68123
88535
76638
44115
40617
11622
70119
32422
79974
54939
62319
62297
62311
10854
70418
23309
61658
04184
44369
26141
29608
29554
05748
98420
87729
56958
58085
25596
95958
92345
62462
59337
l0610
75755
17730
36553
48423
01601
72876
96297
94739
76791
45929
21410
08598
80198
72844
99058
57012
57040
15001
54967
66130
68779
54553
84580
51276
72925
81679
20575
06766
02678
39150
95110
02798
01695
05794
04717
95862
23757
25018
50541
33967
24160
25875
39725
85113
86980
09066
19347
60203
l8260
72122
29285
94055
72938
72936
66388
25971
37859
57143
40729
59126
76746
60227
54592
64379
59448
54977
60666
37515
29899
08034
34209
99041
00147
73830
09903
38829
53711
26872
91772
95288
73234
46412
38765
36634
67870
36308
56834
69848
75242
69573
28504
31926
22337
59437
49878
96414
63607
46059
77249
48349
97410
21538
57178
31048
69799
90595
33570
15340
64079
63491
92003
52360
74622
04157
86003
41268
86497
67619
97558
55380
61867
04981
93460
42483
05546
63868
46658
12142
50079
60070
80187
33210
98310
94953
16498
59231
98939
57477
36512
67118
41034
66511
68355
61343
66241
20351
60337
70348
55866
80733
17772
78784
13898
56186
62063
28260
04172
65635
64315
32836
09636
27976
11317
96283
96422
67831
09977
48431
99098
74958
79708
73085
21828
70836
27573
84668
70661
71623
46620
58078
33317
29398
72936
48850
20946
00770
11795
39539
82857
11479
42486
08250
55510
52087
99643
00520
93896
78160
72521
28147
88643
52594
18988
35335
94114
71303
* Fuente: Basada en partes de Table of 105 000 Random Decimal Digits (Washington,p:.9.: 1nterstate Crnmerce Commission, Bureau f Transport Economici anll Statistic
N .S 2 Z 2
2
N .d 2 S 2 Z 2 2
de donde:
n = tamao de la muestra.
N = tamao de la poblacin.
S = varianza de la muestra.
d(e) = precisin del muestreo.
= Nivel de significancia.
Generalmente es necesario hacer un premuestreo de 30 elementos, con el objetivo de hacer una primera estimacin de
S.
Ejemplo: En un lote de frascos para medicina, con una poblacin de 8000 unidades, se desea estimar la media de la
capacidad en centmetros cbicos de los mismos.
A travs de un premuestreo de tamao 35 se ha estimado que la desviacin estndar es de 2 centmetros cbicos. Si
queremos tener una precisin 0.25 cms3, y un nivel de significancia del 5%. De qu tamao debe de ser la muestra?
DATOS:
S = 2 cms3; N = 8000; d = 0.25 cms3; = 0.05 (5%)
2 = 1.96
N .S 2 Z 2
Nd
2
S 2 Z 2 2
8000( 2 )2 ( 1.96 )2
8000( 0.25 )2 ( 2 )2 ( 1.96 )2
122931.2
239
515.37
Frascos.
Solo faltara muestrear 204 frascos, pues los datos de los 35 frascos del premuestreo siguen siendo vlidos.
TAMAO DE LA MUESTRA PARA ESTIMAR PROPORCIONES CON
ALEATORIO
MUESTREO SIMPLE
En bastantes ocasiones, la variable bajo estudio es de tipo binominal, en ese caso para calcular el tamao de muestra
bajo el muestreo simple aleatorio, se hara de la siguiente manera:
N . p .q .Z 2
N .d 2
2
p .q .Z 2 2
De donde:
p = probabilidad de xito.
q = probabilidad de fracaso.
d = precisin expresada en porcentaje.
En este caso para la estimacin de la varianza, tenemos dos opciones:
a) hacer un premuestreo.
b) asumir varianza mxima.
Ejemplo: En una investigacin, se desea determinar en qu proporcin los nios de una regin toman leche en el
desayuno. Si se sabe que existen 1.500 nios y deseamos tener una precisin del 10 %, con un nivel de significancia del
5 %. De qu tamao debe de ser la muestra?
DATOS:
N = 1500; d = 10 % = 0.1; = 5 %
p = 0.5 y q = 0.5 (asumiendo varianza mxima).
Z/2 = 1.96
N . p .q.Z 2
N .d 2
2
p .q .Z 2 2
1440.6
90
15,96
El riesgo de este tipo de muestreo est en los casos en que se dan periodicidades en la poblacin ya que al elegir a
los miembros de la muestra con una periodicidad constante (k) podemos introducir una homogeneidad que no se da
en la poblacin. Imaginemos que estamos seleccionando una muestra sobre listas de 10 individuos en los que los 5
primeros son varones y los 5 ltimos mujeres, si empleamos un muestreo aleatorio sistemtico con k =10 siempre
seleccionaramos o slo hombres o slo mujeres, no podra haber una representacin de los dos sexos.
Muestreo aleatorio estratificado: es aquel que se utiliza cuando se est interesado en que la muestra tenga la
misma composicin a la de la poblacin la cual se divide en clases o estratos. Si por ejemplo en la poblacin el 20%
son mujeres y el 80% hombres, se mantendr la misma proporcin en la muestra. Trata de obviar las dificultades
que presentan los anteriores ya que simplifican los procesos y suelen reducir el error muestral para un tamao dado
de la muestra. Consiste en considerar categoras tpicas diferentes entre s (estratos) que poseen gran homogeneidad
respecto a alguna caracterstica (se puede estratificar, por ejemplo, segn la profesin, el municipio de residencia, el
sexo, el estado civil, etc.). Una muestra aleatoria estratificada es la obtenida mediante la separacin de los elementos de
la poblacin en grupos que no se oculten maliciosamente (traslapen), llamados estratos y la seleccin posterior de una
muestra irrestrictamente aleatoria simple en cada estrato. En resumen, los motivos principales para utilizar un muestreo
aleatorio estratificado son los siguientes:
a) La estratificacin puede producir un error de estimacin ms pequeo que el que generara una muestras del mismo
tamao. Este resultado es particularmente cierto si las mediciones dentro de los estratos son homogneas.
b) El costo por observacin en la encuesta puede ser reducido mediante la estratificacin de los elementos de la
poblacin en grupos convenientes.
c) Se pueden obtener estimaciones de parmetros poblacionales para subgrupos de la poblacin. Los subgrupos deben
de ser entonces estratos identificables.
Lo anterior debe de tomarse en cuenta cuando se est planeando estratificar o no una poblacin o decidiendo en qu
forma se definirn los estratos.
Lo que se pretende con este tipo de muestreo es asegurarse de que todos los estratos de inters estarn representados
adecuadamente en la muestra. Cada estrato funciona independientemente, pudiendo aplicarse dentro de ellos el
muestreo aleatorio simple o el estratificado para elegir los elementos concretos que formarn parte de la muestra. En
ocasiones las dificultades que plantean son demasiado grandes, pues exige un conocimiento detallado de la
poblacin (tamao geogrfico, sexos, edades,...).
La distribucin de la muestra en funcin de los diferentes estratos se denomina a fijacin, y puede ser de diferentes
tipos:
A fijacin Simple: A cada estrato le corresponde igual nmero de elementos muestrales.
A fijacin Proporcional: La distribucin se hace de acuerdo con el peso (tamao) de la poblacin en cada estrato.
A fijacin ptima: Se tiene en cuenta la previsible dispersin de los resultados, de modo que se considera la
proporcin y la desviacin tpica. Tiene poca aplicacin ya que no se suele conocer la desviacin.
Supongamos que estamos interesados en estudiar el grado de aceptacin que la implantacin de la reforma
educativa ha tenido entre los padres de una determinada provincia. A tal efecto seleccionamos una muestra de 600
sujetos. Conocemos por los datos del ministerio que de los 10000 nios escolarizados en las edades que nos
interesan, 6000 acuden a colegios pblicos, 3000 a colegios semiprivados y 1000 a colegios privados. Como
estamos interesados en que en nuestra muestra estn representados todos los tipos de colegio, realizamos un
muestreo estratificado empleando como variable de estratificacin el tipo de centro. Si empleamos una a fijacin
simple elegiramos 200 nios de cada tipo de centro, pero en este caso parece ms razonable utilizar una a fijacin
proporcional pues hay bastante diferencia en el tamao de los estratos. Por consiguiente, calculamos que proporcin
supone cada uno de los estratos respecto de la poblacin para poder reflejarlo en la muestra.
Colegios pblicos: 6000/10000 = 0.60
Colegios semiprivados: 3000/10000 = 0.30
Colegios privados: 1000/10000 = 0.10
Para conocer el tamao de cada estrato en la muestra no tenemos ms que multiplicar esa proporcin por el tamao
muestral.
Colegios pblicos: 0.60x600 = 360 sujetos
Colegios semiprivados: 0.30x600 =180 sujetos
Colegios privados: 0.10x600 = 60 sujetos
TAMAO DE MUESTRA PARA ESTIMAR LA MEDIA CON MUESTREO ALEATORIO ESTRATIFICADO
Para estimar la media poblacional utilizando una variable aleatoria continua se utiliza la siguiente relacin:
N i2 Si2
n
wi
N 2D
N i Si2
De donde:
Ni = tamao del i simo estrato.
N = tamao de la poblacin.
Si = varianza del i simo estrato.
wi = importancia o peso del i simo estrato.
B2
,
4 Donde B = Precisin
Ejemplo: En un Ingenio, se desea hacer una estimacin del promedio de grados Brix con que llega la caa a la fbrica.
Para tal el efecto, se desea realizar un muestreo aleatorio estratificado, puesto que la caa proviene de tres tipos de
proveedores. Proveedor tipo A (estrato 1) la caa proviene de lotes de la misma finca. Proveedor tipo B (estrato 2) la
caa proviene de fincas de particulares en donde el ingenio ha prestado servicios. Proveedor tipo C (estrato 3) la caa
proviene de fincas de particulares en donde el ingenio no ha tenido ningn servicio. De estudios anteriores, se conoce el
tamao y desviacin estndar de cada estrato y adems se desea tener una precisin de un grado Brix en el estudio. De
qu tamao debe de ser la muestra total y de cada estrato? En el siguiente cuadro se presentan los datos de Ni, Si, y Wi
de los diferentes estratos.
DATOS:
ESTRATO
Si
558
3.5
558/998 = 0.56
190
5.4
190/998 = 0.19
250
6.2
250/998 = 0.25
Total
998
wi*
Ni
N12 S i2
wi
2
i
2
i
2
i
2
i
2
i
S i2
wi
S i2
wi
S i2
wi
S i2
wi
S i2
wi
N i S i2
N12 S12 N 22 S 22 N 32 S 32
w1
w2
w3
0.56
0.19
0.25
0.56
0.19
0.25
21961487.5
N S
2
i
N1 S12 N 2 S 22 N 3 S 32
N S
2
i
N S
2
i
N S
2
i
21985.9
2
i
S i2
wi
21961487.5
21961487.5
81,..es..el..tamao..de.
2
249001 21986
270987
N D N i Si
2
.la..muestra..total.
Como se utiliz distribucin proporcional, a cada estrato le tocara el siguiente tamao de muestra:
Aleatorio
simple
Sistemtico
Estratificado
Conglomerados
CARACTERSTICAS
VENTAJAS
INCONVENIENTES
Sencillo
y
de
fcil
comprensin. Clculo rpido
de medias y varianzas. Se
basa en la teora estadstica, y
por tanto existen paquetes
informticos para analizar los
datos
Si la constante de muestreo
est asociada con el
fenmeno de inters, las
estimaciones obtenidas a
partir de la muestra pueden
contener sesgo de seleccin
Se ha de conocer la
distribucin en la poblacin
de las variables utilizadas
para la estratificacin.
ESTRATIFICADO
OBSERVACIONES
Es el muestreo ms sencillo desde el punto
de vista matemtico. Es costoso y no
provee informacin respecto a
subpoblaciones
Se usa cuando se desea informacin
precisa para cada estrato o cuando razones
administrativas lo hacen conveniente
La poblacin se divide en
subpoblaciones (estratos) identificados
por niveles en los factores. En cada
estrato se realiza MAS
POR
La poblacin se divide en
Se usa cuando es imposible o muy caro
CONGLOMERADO subpoblaciones (conglomerados) que se
construir un marco de muestreo o cuando
consideran " a priori " similares en los
los elementos estn conglomerados en
factores. Se seleccionan conglomerados
forma natural (p.ej. cercana geogrfica)
y dentro de stos, unidades secundarias.
SISTEMTICO
La poblacin se ordena con algn
Es fcil de realizar cuando no se dispone
criterio (puede ser aleatorio). Se sortea
de identificacin de los elementos. Puede
un elemento primero para ser
introducir variaciones cclicas en los
muestreado y se contina muestreando
resultados
uno cada tantos (paso)
( Por ejemplo 5, 15, 25,...,85)
Tcnicas de muestreo sobre una poblacin
La teora del muestreo tiene por objetivo, el estudio de las relaciones existentes entre la distribucin de un carcter
en dicha poblacin y las distribuciones de dicho carcter en todas sus muestras.
Las ventajas de estudiar una poblacin a partir de sus muestras son principalmente:
Coste reducido:
Si los datos que buscamos los podemos obtener a partir de una pequea parte del total de la poblacin, los
gastos de recogida y tratamiento de los datos sern menores. Por ejemplo, cuando se realizan encuestas
previas a un referndum, es ms barato preguntar a 4.000 personas su intencin de voto, que a 30.000.000;
Mayor rapidez:
Estamos acostumbrados a ver cmo con los resultados del escrutinio de las primeras mesas electorales, se
obtiene una aproximacin bastante buena del resultado final de unas elecciones, muchas horas antes de que
el recuento final de votos haya finalizado;
Ms posibilidades:
Para hacer cierto tipo de estudios, por ejemplo el de duracin de cierto tipo de bombillas, no es posible en la
prctica destruirlas todas para conocer su vida media, ya que no quedara nada que vender. Es mejor
destruir slo una pequea parte de ellas y sacar conclusiones sobre las dems.
De este modo se ve que al hacer estadstica inferencial debemos enfrentarnos con dos problemas:
El tipo de muestreo ms importante es el muestreo aleatorio, en el que todos los elementos de la poblacin tienen la
misma probabilidad de ser extrados; Aunque dependiendo del problema y con el objetivo de reducir los costes o
aumentar la precisin, otros tipos de muestreo pueden ser considerados.
representativa resultar; sin embargo, no necesita ser ms grande cuando es suficiente representativa. Esta es la
prueba de estabilidad de la muestra.
TAMAO DE LA MUESTRA
A la hora de determinar el tamao que debe alcanzar una muestra hay que tomar en cuenta varios factores: el tipo de
muestreo, el parmetro a estimar, el error muestral admisible, la varianza poblacional y el nivel de confianza. Por
ello antes de presentar algunos casos sencillos de clculo del tamao muestral delimitemos estos factores.
Para calcular el tamao de una muestra hay que tomar en cuenta tres factores:
1. El porcentaje de confianza con el cual se quiere generalizar los datos desde la muestra hacia la poblacin
total.
2. El porcentaje de error que se pretende aceptar al momento de hacer la generalizacin.
3. El nivel de variabilidad que se calcula para comprobar la hiptesis.
La confianza o el porcentaje de confianza es el porcentaje de seguridad que existe para generalizar los resultados
obtenidos. Esto quiere decir que un porcentaje del 100% equivale a decir que no existe ninguna duda para
generalizar tales resultados, pero tambin implica estudiar a la totalidad de los casos de la poblacin. Para evitar un
costo muy alto para el estudio o debido a que en ocasiones llega a ser prcticamente imposible el estudio de todos
los casos, entonces se busca un porcentaje de confianza menor. Comnmente en las investigaciones sociales se
busca un 95%.
El error o porcentaje de error equivale a elegir una probabilidad de aceptar una hiptesis que sea falsa como si fuera
verdadera, o la inversa: rechazar a hiptesis verdadera por considerarla falsa. Al igual que en el caso de la
confianza, si se quiere eliminar el riesgo del error y considerarlo como 0%, entonces la muestra es del mismo
tamao que la poblacin, por lo que conviene correr un cierto riesgo de equivocarse.
Comnmente se aceptan entre el 4% y el 6% como error, tomando en cuenta de que no son complementarios la
confianza y el error.
La variabilidad es la probabilidad (o porcentaje) con el que se acept y se rechaz la hiptesis que se quiere
investigar en alguna investigacin anterior o en un ensayo previo a la investigacin actual. El porcentaje con que se
acept tal hiptesis se denomina variabilidad positiva y el porcentaje con el que se rechaz se la hiptesis es la
variabilidad negativa
El muestreo es el proceso de tomar una proporcin o parte de un universo de elementos, con la finalidad de analizar
en dichos elementos, caractersticas sujetas a estudio o fenmenos factibles de observacin y en base al anlisis de
la muestra o proporcin tomada obtener conclusiones que se refieran no slo a la muestra sino a todo el universo.
Para fines estadsticos, el universo puede considerarse finito o infinito. Se considera finito si el nmero de
elementos que lo constituyen es menor a 500,000 e infinito si es igual o mayor a este nmero. Siempre que hagamos
la eleccin de una muestra, debemos tener cuidado de que sta rena las siguientes caractersticas:
Que sea suficiente: es decir que la cantidad de elementos seleccionados sea el que se requiere para que el nivel de
confiabilidad sea el que se ha establecido previamente.
Que sea representativa: esto quiere decir que los elementos seleccionados debern presentar caractersticas
similares a las de la poblacin o universo.
Al utilizar muestras en lugar de universos tenemos grandes ventajas, algunas de las ms importantes son:
El costo se reduce, pues los gastos sern nicamente los ocasionados por una parte del universo (muestra tomada)
y no por la totalidad de l.
99.73%
99
%
98
%
96
%
95.45
%
95
%
90%
80
%
68.27
%
50%
Valores de Z
3.00
2.58
2.33
2.05
2.00
1.96
1.645
1.28
1.00
0.6745
TAMAO DE LA MUESTRA
Una de las primeras preguntas que debe realizarse antes de emprender cualquier encuesta o estudio es: qu tamao
de muestra necesito? La respuesta depender del diseo del estudio; es decir, de los objetivos, naturaleza y alcance
del mismo, y del resultado previsto del mismo. Todo esto deber tenerse en cuenta en la fase de planificacin del
estudio.
El tamao de la Muestra es importante porque tiene relacin estrecha con el costo de la Muestra. Para reducir
Costos se procura tomar una Muestra menor pero representativa y significativa.
La cuestin de que tan grande tomar una muestra surge inmediatamente en la planificacin de cualquier
investigacin o experimento. Esto es muy importante y no debe tratarse con ligereza. Tomar una muestra ms
grande de lo necesario para alcanzar los resultados deseados, es un desperdicio de recursos y tiempo, mientras que
muestras muy pequeas pueden conducir a conclusiones errneas. El tamao de la muestra depende de la
desviacin estndar (S), del grado de confiabilidad (Z) y del ancho del intervalo de confianza (e), o precisin.
El tamao de la Muestra se calcula mediante procedimientos estadsticos. Vamos a presentar la Frmula que se
aplican en el caso de que no se conozca con precisin el tamao de la poblacin, o universos considerados
infinitos o desconocido o Cuando se trata de medir una variable binominal (acierto-error), es decir una proporcin y
que el tamao de la poblacin estudiada es grande, se puede emplear la frmula siguiente:
Z 2 pq
e2
Z
n
2e
Si p = q = 50 %, entonces:
Z2
.(1)
4e 2
2
Donde n nmero de puntos de muestreo, p y q son la confiabilidad, e = error (medio intervalo de confianza) y
= 1.96 para
= 0.05. Como se puede observa en la ecuacin (1), el intervalo de confianza del estimado de esta
confiabilidad depende del nmero de unidades de muestreo (ms grande el tamao de muestra, ms pequeo el
intervalo de confianza) y de la confiabilidad de la clase (con el mismo nmero de unidades de muestreo, la
confiabilidad se estima con menos precisin si est cerca de 50 %).
Cuando se requiere determinar el tamao de la muestra para estimar una proporcin se tienen que definir tres
incgnitas:
1.- El nivel de confianza (Z) deseado.
2.- El error muestral permitido, e.
3.-La proporcin real de xito, p y la proporcin de fracaso q = 1 p.
En la prctica con frecuencia resulta difcil seleccionar estas tres cantidades. Una vez que se determina el nivel de
confianza deseado se estar en posibilidad de obtener el valor Z de la distribucin normal apropiado. El error
muestral e seala la cantidad de error qu se est dispuesto a aceptar al estimar la proporcin de la poblacin. La
tercera cantidad, la proporcin real de xito, p, en realidad es el parmetro de la poblacin que se est intentando
determinar. Para ello hay dos alternativas:
l.-En muchas situaciones se cuenta con informacin anterior o con experiencias relevantes que permiten obtener un
estimado o informacin de p.
2.- Si no se cuenta con informacin anterior o con experiencias relevantes se intenta proporcionar un valor para p
que nunca subestime el tamao de la muestra necesaria Es conveniente determinar el valor de p de una forma tal
que el producto p.q sea lo mayor posible, alcanzndose el mximo producto cuando p = q = 0.50, entonces p.q =
0.25. Por lo tanto cuando se desconoce o no hay un estimado previo de la proporcin real de p se debe utilizar un p
= 0.5 como la forma ms conservadora para determinar el tamao de la muestra. Sin embargo, la utilizacin de p
puede dar como resultado una sobrestimacin en el tamao de la muestra, pero es un riego que se debe asumir.
PROBLEMAS 1.- Un investigador social pretende que al investigar la proporcin de deportistas existentes
actualmente en una universidad no se cometa un error mayor del 15 %. Cul deber ser el tamao de la muestra
para poder tener la certeza, con un grado de confianza del 99 %, de que la estimacin sea correcta?
SOLUCIN: Se puede observar que ante el desconocimiento, por cualquier medio, del parmetro p, debemos
obtener el tamao de la muestra requerida para satisfacer las exigencias del investigador por medio de la expresin:
2
Z
2e
Z2
4e 2
Donde se tendr que sustituir tanto el valor de Z correspondiente a un coeficiente de confianza de 99 % que no es
otro que 2,58 como el error mximo admitido que es 0.15 y como no se conoce un valor estimado para p y q se
tomara el mximo valor para este producto, es decir, p = q = 0.5. Luego se aplica la formula:
Z
n
2e
Z2
(2.58) 2
6.66
70.0
2
2
4(0..023)
4e
4(0.15)
. Por lo tanto el tamao de la muestra ser de 74.
2.- Supngase que por estudios anteriores se tenga el conocimiento de que la proporcin de deportistas entre los
estudiantes de una universidad es de 0.65. Se pregunta Qu tamao de muestra deber tomarse? si se quiere que el
error no exceda del 15 % Y con un grado de confianza del 99 %.
SOLUCIN: Tomando en cuenta que se tiene conocimiento de que la proporcin de estudiantes que practican
algn deporte, en esa universidad, es de 0.65, se puede utilizar este valor como una estimacin de la proporcin
verdadera, en cuyo caso nos valdremos de la siguiente frmula matemtica para obtener el tamao de la muestra
necesaria. Entonces,
Z 2 2 pq
e2
,
Sustituyendo los datos conocidos en esa frmula se tiene:
67.
0.23
(0.15) 2
El tamao de la muestra es entonces, 67.
Puede observarse como el conocimiento de alguna estimacin del parmetro p ha hecho disminuir el tamao de la
muestra necesaria para satisfacer la misma precisin. Esto demuestra que el valor que tiene la informacin de
experiencias pasadas sobre el hecho que se estudia.
En el caso
de que s se conozca el tamao de la poblacin, cuando la variable crtica es dicotmica o
Z 2 2para
N . p.qla estimacin de proporciones poblacionales o Universos considerados finitos entonces el
Binominal,
n
Z la
. p.q que se tiene que utilizar es:
2N
Cuando N<30
formula
n
e 2 ( N 1) Z 2 2 p.q
Donde
n es el tamao de la muestra;
Z es el nivel de confianza;
p es la variabilidad positiva;
q es la variabilidad negativa;
N es el tamao de la poblacin;
e es la precisin o el error.
Al conocer exactamente el tamao de la poblacin, el tamao de la muestra resulta con mayor precisin y se pueden
incluso ahorrarse recursos y tiempo para la aplicacin y desarrollo de una investigacin.
Ejemplo 1: En los Colegios de Curas extendido por todo Amrica del sur, se desea realizar una investigacin sobre
los alumnos inscritos en primer y segundo aos, para lo cual se aplicar un cuestionario de manera aleatoria a una
muestra, pues los recursos econmicos y el tiempo para procesar la informacin resultara insuficiente en el caso de
aplicrsele a la poblacin estudiantil completa.
En primera instancia, suponiendo que no se conoce el tamao exacto de la poblacin pero con la seguridad de que
Z 2 pq
2
2
e
sta se encuentra cerca de los diez millares do, se aplicar la formula
Se considerar una confianza del 95 %, un porcentaje de error del 5% y la mxima variabilidad (p.q) por no existir
antecedentes en la institucin sobre la investigacin y porque no se puede aplicar una prueba previa.
Primero habr que obtener el valor de Z de tal forma que la confianza sea del 95 %, es decir, buscar un valor de Z
tal que P(-Z<z<Z) = 0.95. Utilizando las tablas resulta que Z = 1.96.
Z 2 pq
2
2
384.
0.0025
0.0025
0.05 2
Esto quiere decir que el tamao de la muestra es de
384 alumnos.
Supongamos ahora que s se conoce el tamao de la poblacin estudiantil y es de 9,750, entonces se aplicar la
n
frmula
Z 2 2 Np.q
Ne 2 Z 2 pq
(1.96) 2 (0.5)(0.5)(9750)
9363.9
369.5 370.0
2
2
(9750)(0.05) (1.96) (0.5)(0.5) 25.34
Con lo que se tiene una cota mnima de 370 alumnos para la muestra y as poder realizar la investigacin sin ms
costo del necesario, pero con la seguridad de que las condiciones aceptadas para la generalizacin (confiabilidad,
variabilidad y error) se mantienen. Es importante destacar que el resultado que se obtiene cuando no se conoce N
(384) es muy similar al que se obtiene cuando N es conocida (370).
EJEMPLO 2: El jefe del Departamento de Control de Estudio del IUTJAA, quiere comprobar a travs de una
muestra aleatoria la proporcin de estudiantes que han desertado del IUTJAA, cuya poblacin est constituida por
7.000 alumnos. El jefe del departamento especifica que el error mximo admisible no debe ser ms de 5 % de la
verdadera proporcin, para el trabajo se requiere un nivel de confianza de 98 %, y el valor de p es estimado en 50
%. Encuentre el tamao de la muestra requerido.
DATOS:
N = 7000
e = 0.05
Z al 98 % =2.33
P = 0.5
q = 0.5
n =?
SOLUCIN: Como lo muestra solicitada se refiere a las proporciones se aplicara la siguiente frmula:
Z 2 2 N . p.q
( 2.33) 2 ( 2000)(0.5)(0.5)
2714.45
n 2
426.80 427.0
e N Z 2 2 p.q (0.05) 2 (2000) (2.33) 2 (0.5)(0.5)
6.36
Luego el tamao de la muestra necesario para el estudio es de 427 alumnos, que tendr que Tomar por un muestreo
del total.
Cuando el muestreo es sin reemplazo a partir de una poblacin finita, SUPONIENDO UNA DISTRIBUCIN
NORMAL, se requiere la correccin por poblacin finita, entonces la ecuacin para obtener el TAMAO DE LA
MUESTRA para la estimacin de la media poblacional, queda as:
n
n
ZS
n
N n
N 12
N Z 2 2
e 2 ( N 1) 2 Z 2 2
N 2 Z 2 2
Los investigadores
e 2 N 2 Z 2consideran que esta frmula solo se utiliza cuando N<30.
2
Donde
n = es el tamao de la muestra;
Z = es el nivel de confianza o valor critico correspondiente al nivel de confianza elegido
Varianza poblacional o en su defecto la desviacin tpica muestral (S).
N = es el tamao de la poblacin o universo muestral
e es la precisin o el error.
El grado de confiabilidad se toma de la tabla de t de Student si n 30..o..de..Z ..si..n 30.
La frmula para el tamao de la muestra requiere que se conozca pero, generalmente este parmetro no se
conoce; entonces hay que estimarla. Las fuentes de estimacin para la varianza poblacional son:
2
Se puede extraer una muestra piloto para usarse la varianza calculada a partir de la muestra como una estimacin de
2.
2
Puede contarse con estimaciones de , obtenidas de estudios previos o semejantes.
EJEMPLO 1: Se desea determinar el tamao de una muestra apropiada para medir la longitud de una serie de
tubos para hacer un gasoducto, con una precisin de 5 cm. en la longitud de cada tubo y un nivel de confianza de
95 %. Para tal efecto se tomo una muestra piloto de 10 tubos que arrojo una varianza de 30.
DATOS:
N = 20
2 = 30
Z = 1.96
e=5
SOLUCIN: Como se sabe qu nmero de tubos por lotes es de 20, se requiere la correccin por poblacin finita;
luego se aplica la formula as:
N 2 Z 2 2
e 2 ( N 1) 2 Z 2 2
20.30(1.96) 2
2304.96
2
4 .0
2
590.25
5 (19) 30(1.96)
Se concluye que con la variacin observada y la precisin escogida, el tamao de muestra adecuada es 4 tubos por
lote.
EJEMPLO 2: Sea una poblacin de obreros de tamao N = 2000, de la que nos proponemos obtener una muestra
mediante un muestreo aleatorio, para estimar el sueldo promedio. Se quiere que la estimacin muestral no se aparte
en ms de 0.5 puntos (error mximo admisible) del promedio verdadero, con un nivel de confianza de 95 %. La
varianza poblacional es de 2.5 puntos.
DATOS:
N = 2000
e = 0.5
Z al 95 % = 1.96
2 = 2.5
n =?
SOLUCIN: Como se trata de la estimacin de la media poblacional mediante muestreo aleatorio, se aplicara la
siguiente frmula:
N 2 Z 2 2
e 2 N 2 Z 2 2
2000(2.5)(1.96) 2
19208
19208
37.69 38.0
2
2
500 9,604 509,604
(0.5) 2000 2.5(1.96)
Entonces el nmero de obreros que hay que seleccionar para que la estimacin est en el intervalo
xi i
i2
i y varianza i2 , se
X 60 50
5*
Es decir, la probabilidad de que al tirar 100 veces la moneda salga ms de 60 caras es tan slo del
2,28%
PROPIEDADES DE LOS CUADROS ESTADSTICOS
* Deben simplificar la presentacin de las tablas.
* Tratar un solo tema en ese.
* Elaborar un arreglo apropiado de clasificacin.
* El tamao del cuadro debe crearse de tal manera que no sea ni muy largo y angosto, ni muy ancho o corto.
* Cada signo de presentacin que se va a utilizar debe estar plenamente identificado.
* Las notas que se encuentran al pie de los cuadros deben incluir las descripciones en forma precisa.
Tabulacin.- Es una presentacin sistemtica de los datos estadsticos de una investigacin determinada, estos se
presentan en forma resumida a travs de las tablas o cuadros estadsticos.
Cuadros estadsticos.- Son esquemas organizados en los que se registran los datos estadsticos en forma organizada
con la frecuencia de cada uno de estos, los mismos se observan en columnas y filas con la finalidad de presentar la
informacin recopilada de una investigacin o estudio determinado.
Sean los siguientes datos el tiempo de servicio de un grupo de trabajadores de la empresa PEMEX:
4
2
3
2
5
5
4
2
3
5
4
4
3
6
6
3
6
3
5
2
4
3
3
2
2
3
4
2
6
6
N de
fi
30
Grficas o Diagramas.- Son expresiones en forma de figura, de informacin originada de un conjunto de datos
estadsticos, que explican un fenmeno determinado. Son descripciones de operaciones y demostraciones que se
representan por medio de figuras o signos, los mismos se realizan con los valores de los cuadros estadsticos. En
otras palabras, es una representacin de la relacin entre variables, que se realiza en un plano determinado.
4
8
3 4 5 6 7 8 9 10
3 5 7 8 6 10 9 7
8 4 8 6 3 8 10
8 5 3 8 7 8 10
7 10 9 10
8 10 8 7
9 8 7 6 5 7 10
9 8 10 7 6 7
7 6
Procedimiento.- Con los datos se procedi a elaborar un cuadro estadstico y se obtuvo el siguiente:
1.- Con los datos que fueron suministrados se elabor un cuadro estadstico con la frecuencia de cada variable y se
organizaron las mismas en una forma ascendentes de la siguiente manera:
N de Empleados
(fi)
4
3
4
7
12
16
5
9
60
Grafica de Linea correspondiente a los aos de servicio de los empleados de la empresa PEMEX.
20
18
16
14
12
Frecuencias
10
8
6
4
2
0
3 4 5 6 7 8 9 10
Aos de servicio
2.- Se marc en el eje de las x los aos de servicio con la frecuencia correspondiente en el eje de las y. Luego,
esos puntos se unieron mediante lneas y el resultado fue la grfica de lnea de los aos de servicio de los
empleados de la empresa PEMEX.
Diagrama de Barras
Los diagramas de barras son grficas que se utilizan con mucha frecuencia para representar datos de una
investigacin determinada, son de fcil interpretacin para cualquier lector. Estos grficos estn constituidos por
una serie de rectngulos o barras. La longitud y anchura de cada barra representa un fenmeno.
La forma de elaborar los mismos es la siguiente: se utiliza un sistema de coordenadas rectangulares y se llevan al
eje de las x los valores que toma la variable en estudio y en el eje de las y se colocan las frecuencias de cada
barra. Luego se construyen los rectngulos, tomando como base al eje de las abscisas, cuya altura ser igual a cada
una de las diferentes frecuencias que presentan las variables en estudio. La magnitud con que viene expresada la
variable se observa en la longitud de las barras (rectngulos). Es importante destacar que solamente la longitud de
las barras y no su anchura es lo que denota la diferencia de magnitud entre los valores de la variable.
Todas las barras tienen que tener una anchura igual, separadas entre s, preferiblemente por una longitud igual a la
mitad del ancho de estas o distancias iguales entre barras. Es recomendable, que las barras no sean ni
excesivamente cortas y anchas, ni demasiado largas y angostas, esto es con el objeto de dar una visin objetiva de
la investigacin en estudio. Las barras se pueden graficar tanto verticalmente como horizontalmente. Se pueden
elaborar barras compuestas y barras agrupadas. Ejemplo:
Sea el siguiente cuadro resumen los aos de servicio de los empleados de la empresa PEMEX, con el mismo elabore
un diagrama de barras.
Aos de servicio
(Variable Independiente)
3
4
5
6
7
8
9
10
TOTAL
N de Empleados
(fi)
4
3
4
7
12
16
5
9
60
Frecuencias
16
12
4
2
7
4
0
6
10
11
12
Aos de servicio
Grfico Circular o de Pastel
La grfica de pastel (grfico de sectores) es un tipo de grfica que consiste en representar por medio de la
circunferencia o un crculo las magnitudes que expresan los datos de un estudio determinado. Este tipo de grfica
considera la circunferencia como representante de los datos estadsticos de una investigacin cualquiera. Por tal
motivo, se dividir en tantos sectores como variables tenga la investigacin en estudio; la magnitud de cada sector
se encontrar en relacin directa con la magnitud de la variable a representar, tomando en cuenta que toda la
investigacin se representa con 360. En general, los datos que se representan por medio de este diagrama son
partes componentes de un total.
Para su elaboracin se procede de la siguiente forma: se considera la circunferencia como representacin del total
de la investigacin en estudio, por tal motivo, se dividir toda su superficie en tantas secciones como variables tenga
la investigacin en estudio, las superficies de las sesiones de la circunferencia deben ser proporcionales a la
magnitud de cada componente representado por las variables.
Ejemplo: Sea el siguiente cuadro resumen los aos de servicio de los empleados de la empresa PEMEX, elabore una
grfica de Crculo.
Aos de
servicio
fi
Grado
s
3
4 24
7.0
4
3 18
5.0
5
4 24
7.0
6
7 42
12.0
7
12 72
20.0
8
16 96
26.0
9
5 30
8.0
10
9 54
15.0
TOTALES
60 360
100.0
En la grfica de pastel se observa la variable y l % correspondiente de la misma. Si se considera la
circunferencia como representacin del total de los datos que en el estudio anterior referente a la empresa
PEMEX es de 60, entonces, se debe igualar 60 a los 360 de la circunferencia y por medio de una simple regla de
tres, distribuir esos 360 proporcionalmente entre las frecuencias de las diferentes variables del estudio en cuestin,
para as obtener las magnitudes de los diferentes sectores que representaran el nmero de empleados con los
diferentes aos de servicio como se observa en el cuadro anterior. De la misma forma se obtienen los porcentajes
de cada variable, planteando una sencilla regla de tres. Los diferentes grados que formaran el diagrama de crculo
en este caso se obtienen aplicando una regla de tres de la siguiente forma:
Grafica de pastel correspondiente a los aos de srvicio de los empleados de la empresa PEMEX
10; 27%
9; 20%
60
4
360 , 60
X
3
X = 24
60
360 , 60
X
4
X = 18
360 , 60
360 , 60
3; 5% 4; 7%
5; 7%
6; 8%
7; 12%
8; 15%
360 ,
X
60
7
X = 24
360 ,
360
X
X = 42
60
360
12
X 16
X
5
X
9
X
X = 72
X = 96
X = 30
X = 54
Los resultados obtenidos en estos clculos se encuentran ubicados en el cuadro anterior. Los porcentajes de cada
una de las variables se encuentran en el mismo cuadro y los mismos se calcularon as:
60
4
100 , 60
X
3
X = 7.0
100 , 60
X
4
X = 5.0
100 ,
X
60
7
X = 7.0
100
X
X = 11.0
60
100 , 60
100 , 60
100 ,
12
X
16
X
5
X
9
X = 20.0
X = 26.0
X = 8.0
60
100
X
X = 15.0
Una vez realizado los clculos de los grados que corresponden a cada variable, se llevan a una circunferencia
utilizando para ello un transportador. Luego se iniciar el marcaje de los grados considerando el 0 lo que
corresponde a las doce de un reloj y el marcaje se realizar tomando en cuenta el orden lgico del cuadro y con el
sentido de direccin que sigue las agujas de un reloj.
Representacin de tronco y hoja
Un mtodo para iniciar el anlisis exploratorio de los datos, previo al uso de los mtodos estadsticos tradicionales,
y que adems proporciona informacin rpida, visual y es relativamente nueva, es la representacin grfica de
tronco y hoja. Esta representacin se basa en la ordenacin de los datos a manera de grfico, pero sin llegar a ello,
utilizando las decenas y las unidades.
Esta tcnica se puede encontrar en el libro de Freund y Simon, pero comentaremos su uso a travs del siguiente
ejemplo que contiene las calificaciones obtenidas en una prueba de matemticas:
78
93
61
100 70
83
88
74
97
72
66
73
76
81
64
91
70
77
86
83
Ahora se analizaran cada uno de los datos separando las decenas de las unidades, es decir, el nmero 51 se ver
como 5 | 1. De esta manera las decenas se pondrn en una columna, en forma vertical, y las unidades a su derecha:
6
7
8
9
10
1
8
3
3
0
6
0
8
7
4
4 2 3 6 0 7
1 3 6
1
Para entenderle un poco ms, se ha de decir que el primer rengln que dice 6 | 1 6 4 quiere decir que entre la lista de
datos se encuentran los valores 61, 66 y 64.
Esta es la representacin grfica tronco y hoja, donde cada rengln es una posicin de tronco y cada dgito de la
derecha es una hoja.
El procedimiento para realizarla es primero empezar con los troncos, es decir la columna de la izquierda, y despus
dato por dato ir llenando las hojas a la derecha de la lnea vertical, en el tronco correspondiente.
Adems, si se desean tener los datos ordenados, y hay gente que lo prefiere as, se pueden ordenar las hojas en cada
rengln para que la representacin quede como sigue:
En realidad una representacin de tronco y hojas presenta la misma informacin que la lista original de datos, pero
de una manera mucho ms compacta (especialmente si la lista de datos es ms grande) y manejable.
Sin embargo, informacin ms compleja resulta un poco ms difcil de manejar, por lo que en ocasiones conviene
redondear los datos, ignorar sus partes decimales o utilizar las centenas u otras posiciones de los nmeros para las
troncos. En cada uno de esos casos conviene hacer alguna anotacin, o poner una nota, a fin que los lectores puedan
identificar las adecuaciones realizadas y as poder interpretar lo que se quiere transmitir.
Para mostrar la informacin de manera ms clara, es posible modificar el nmero de posiciones del tronco,
aumentndola o disminuyndola de acuerdo a las necesidades particulares de cada problema. Por ejemplo, con los
datos del examen anterior, se pueden dividir en dos cada posicin del tronco, utilizando la primera posicin para
disponer las hojas 0, 1, 2, 3 y 4, y la segunda posicin para las hojas restantes. De esta manera, se obtiene la
representacin grfica de doble tronco:
Con esto se han duplicado el nmero de posiciones del tronco, con la intencin de buscar una mayor claridad en la
presentacin. Esta manera de representacin inicial de los datos no la profundizaremos ms, sino que la utilizaremos
ms adelante en algunos casos para, precisamente, presentar una representacin inicial de la informacin obtenida.
Frecuencia.- La frecuencia es el nmero de veces que se repite (aparece) el mismo dato estadstico en un conjunto
de observaciones de una investigacin determinada, las frecuencias se les designan con las letras fi, y por lo
general se les llaman frecuencias absolutas.
Distribucin de Frecuencia.-En estadstica existe una relacin con cantidades, nmeros agrupados o no, los cuales
poseen entre s caractersticas similares. Existen investigaciones relacionadas con los precios de los productos de la
dieta diaria, la estatura y el peso de un grupo de individuos, los salarios de los empleados, los grados de
temperatura del medio ambiente, las calificaciones de los estudiantes, etc., que pueden adquirir diferentes valores
gracias a una unidad apropiada, que recibe el nombre de variable. La representacin numrica de las variables se
denomina dato estadstico.
La distribucin de frecuencia es una disposicin tabular de datos estadsticos, ordenados ascendente o
descendentemente, con la frecuencia (fi) de cada dato. Las distribuciones de frecuencias pueden ser para datos no
agrupados y para datos agrupados o de intervalos de clase.
Distribucin de frecuencia para datos no Agrupados.- Es aquella distribucin que indica las frecuencias con que
aparecen los datos estadsticos, desde el menor de ellos hasta el mayor de ese conjunto sin que se haya hecho
ninguna modificacin al tamao de las unidades originales. En estas distribuciones cada dato mantiene su propia
identidad despus que la distribucin de frecuencia se ha elaborado. En estas distribuciones los valores de cada
variable han sido solamente reagrupados, siguiendo un orden lgico con sus respectivas frecuencias.
Ejemplo: Los datos que se presenta a continuacin corresponden a los aos de servicios de 60 empleados de la
empresa PEMEX, con los mismos, elabore una distribucin de frecuencia para datos no agrupados:
3
8
7
5 4 5 6 7 8 9 10 8 4 8 6 3 8 10 7 10 9 10
3 5 7 8 6 10 9 7 8 5 3 8 7 8 10 8 10 8 7
9 8 7 6 5 7 8 8 9 8 10 7 6 7 8 6 7 6 10
Procedimiento.- Con los datos se procedi a elaborar un cuadro estadstico con la frecuencia de cada variable y se
organizaron las mismas en una forma ascendentes y se obtuvo la siguiente distribucin de frecuencia para datos no
agrupados:
Aos de Servicio
(fi)
3
4
5
6
7
8
9
10
TOTAL (N)
4
3
4
7
12
16
5
9
60
En la distribucin se observa que N (nmero total de datos) es de 60 pero el rango (nmero de variables
diferentes) de esta serie de valores es de 8, por lo tanto, la distribucin ms conveniente es la que se utiliza para
datos no agrupados.
Distribucin de frecuencia de clase o de datos Agrupados.- Es aquella distribucin en la que la disposicin
tabular de los datos estadsticos se encuentran ordenados en clases y con la frecuencia de cada clase; es decir, los
datos originales de varios valores adyacentes del conjunto se combinan para formar un intervalo de clase. No
existen normas establecidas para determinar cundo es apropiado utilizar datos agrupados o datos no agrupados; sin
embargo, se sugiere que cuando el nmero total de datos (N) es igual o superior 50 y adems el rango o recorrido
de la serie de datos es mayor de 20, entonces, se utilizar la distribucin de frecuencia para datos agrupados,
tambin se utilizar este tipo de distribucin cuando se requiera elaborar grficos lineales como el histograma, el
polgono de frecuencia o la ojiva.
La razn fundamental para utilizar la distribucin de frecuencia de clases es proporcionar mejor comunicacin
acerca del patrn establecido en los datos y facilitar la manipulacin de los mismos. Los datos se agrupan en clases
con el fin de sintetizar, resumir, condensar o hacer que la informacin obtenida de una investigacin sea manejable
con mayor facilidad.
Este tipo de distribucin se basa en el principio de que una observacin no puede considerarse diferente de otra por
presentar pequeas diferencias cuantitativas, como por ejemplo el sueldo mensual de dos empleados que difieran
en 500 pesos, de dos edades de personas adultas que difieran en un ao, dos alturas de un edificio que difieran en
un metro, el costo de 2 autos nuevos que difieran en 5000 pesos, etc.
Al agrupar los datos en una distribucin de frecuencia de clase se pierde parte de la informacin. La reduccin o
agrupamiento a que son sometidos los datos de una serie de valores cuando existen muchos valores diferentes,
originan los denominados errores de agrupamiento; sin embargo, estos errores son en general muy pequeos, razn
por la cual la distribucin de frecuencia de clase tiene una validez estadstica prctica.
Cuando se dispone de una serie de datos que sea igual o mayor que 50 y, adems, el rango de esa serie de valores
sea mayor de 20, lo ms recomendable es utilizar una distribucin de frecuencia de clase.
Componentes de una distribucin de frecuencia de clase
1.- Rango o Amplitud total (recorrido).- Es el lmite dentro del cual estn comprendidos todos los valores de la
serie de datos, en otras palabras, es el nmero de diferentes valores que toma la variable en un estudio o
investigacin dada. Es la diferencia entre el valor mximo de una variable y el valor mnimo que sta toma en una
investigacin cualquiera. El rango es el tamao del intervalo en el cual se ubican todos los valores que pueden
tomar los diferentes datos de la serie de valores, desde el menor de ellos hasta el valor mayor estando incluidos
ambos extremos. El rango de una distribucin de frecuencia se designa con la letra R.
Para calcular el rango de una distribucin de frecuencia de clase se calcula la diferencia entre el dato mayor (X M) y
el dato menor (Xm), y se le agrega una Unidad de Medida (UM), que por lo general es la unidad. La unidad de
medida en una distribucin de frecuencia se encuentra al obtener la diferencia de dos datos consecutivos de la serie
de valores. En algunos casos, los valores de los datos de la serie de observaciones pueden estar expresadas con
nmeros decimales, o ser mltiplos de algunos otros nmeros, cuando esto sucede, la unidad de medida adquiere un
valor diferente a la unidad. Ver ejemplos:
EJEMPLOS
OBSERVACINES
UNIDADDE MEDIDA
6, 9, 12, 21,
33, 39, 48,
3
Los datos que se presenta a continuacin corresponden a los aos de servicios de 60 empleados de la empresa
PEMEX, con los mismos calcule el rango de la distribucin de frecuencia.
5 4 5 6 7 8
9 10
6 3 8 10
7 10
10
8
7
3 5 7 8 6 10 9
9 8 7 6 5 7 8
7
8
8
9
5 3 8 7 8 10
8 10 7 6 7 8
8 10
6 7
8
6
7
10
Para organizar los valores de la serie de datos hay que determinar un nmero de clases que sea conveniente. En
otras palabras, que ese nmero de intervalos no origine un nmero pequeo de clases ni muy grande. Un nmero de
clases pequeo puede ocultar la naturaleza natural de los valores y un nmero muy alto puede provocar demasiados
detalles como para observar alguna informacin de gran utilidad en la investigacin.
Uno de los problemas que se presentan al elaborar una distribucin de frecuencia de clase es el de fijar el nmero de
clases a utilizar, puesto que no existe un criterio general para determinar el nmero de clases a elegir; sin embargo,
algunos especialista en la materia creen que un buen criterio es considerar de 7 a 20 clase, dependiendo esto, de las
caractersticas del estudio que se realiza; por tal motivo el nmero de clase a utilizar en una investigacin
determinada depender de la persona que realice la investigacin. En este curso se utilizar el criterio anteriormente
descrito.
Las clases de una distribucin de frecuencia indican las cotas o fronteras de cada clase en la distribucin, las clases
estn formadas por dos nmeros, denominados limites aparentes (LA), ejemplo: 3237, el primero de estos
(32) se le llama lmite inferior aparente (LIA) y al segundo (37) se le denomina lmite superior aparente (LSA).
Los Limites Reales(LR) o verdaderos de una clase son aquellos que se obtienen restndole media unidad de
medida al lmite aparente inferior de una clase y sumndole media unidad de medida al lmite superior aparente de
las diferentes clases, es decir, son valores no observables de la variable en estudio, puesto que no lo registra la
unidad de medida utilizada; hay que tener cuidado de que los limites reales de clase no coincidan con valores
observables de la variable, para evitar ambigedades sobre la clase a la que corresponde una observacin. Si se
toma como ejemplo: 32 37 (32 a 37), se puede observar que estos son los limites aparentes inferior 32 y
superior 37 de esa clase, si se aplica el concepto de limite real se tendrn los siguientes limites verdaderos:
31.537.5, como se puede observar el lmite inferior aparente disminuy en media unidad de medida y se
convirti en (LRI) Limite Real Inferior (31.5) y el lmite superior aparente aumento media unidad y se convirti
en (LRS) Limite Real Superior (37.5).
Tamao de los Intervalos de Clase
Los intervalos de clase pueden ser de tres tipos, segn el tamao que estos presenten en una distribucin de
frecuencia: a) Clases de igual tamao, b) clases desiguales de tamao y c) clases abiertas.
Clases de igual tamao
Este tipo de clases es el ms utilizado en los clculos estadsticos; cuando todas las clases son del mismo tamao,
los clculos relacionados con la distribucin de frecuencia son simplificados grandemente. En trminos generales,
este tipo de distribucin, es el que se utiliza comnmente en casi todas las investigaciones. Ejemplo:
CLASES
Fi
57
810
1113
1416
1719
2022
TOTALES
5
10
15
18
11
5
64
En esa distribucin de frecuencia de clase se puede observar que cada clase posee tres variables diferentes, por lo
tanto, los intervalos de clases son de igual tamao.
AMPLITUD
399
499
3999
4999
14999
25000
Como se puede observar en la anterior distribucin cada clase tiene un tamao diferente, es decir, sus amplitudes o
tamao son diferentes para cada clase.
Clases Abiertas
Las clases abiertas son aquellas en las que uno de sus dos lmites de clases no est definido numricamente. Este
tipo de clase se utiliza cuando las distribuciones poseen algunos datos u observaciones que son mucho mayores o
mucho ms pequeos que los dems y se quiere condensar en un slo. En lo posible es conveniente evitar este
tipo de clase ya que en estas no es posible definir el punto medio de la distribucin, por lo cual se hace difcil la
representacin grfica y en realizar otros clculos con los datos que presentan los cuadros estadsticos. Sin
embargo, existen investigaciones donde la aplicacin de clases abiertas es conveniente, por cuanto, la existencia de
valores de la serie de datos son muchos menores o mucho mayores que el resto de la serie. Ejemplo:
Sea la siguiente distribucin de frecuencia, las observaciones correspondientes al salario que devenga un grupo de
personas que viven en determinado barrio de una ciudad.
CLASES
Menos de 150000
150000239000
340000429000
430000519000
520000609000
610000699000
700000789000
790000 y Ms
TOTALES
Fi
67
36
10
8
7
8
7
7
135
Object 40
?
194500
384500
474500
564500
654500
744500
?
Ic
Ic
R
...., Donde...R Rango.., NC Numero..de..clases .., Ic Amplitud ..de..clase.
NC
Rango
..,.donde,.N numero..total..de..datos.
1 3,322. log .N
Con la formula
anterior se puede
determinar el Ic, conociendo el rango y el nmero de clases. Cuando se tenga dudas en determinar la amplitud de
clase de una serie de valores, es de gran utilidad utilizar el mtodo sugerido por Hebert A. Sturges el cual establece
que:
En esta frmula 1+3,322 log. N = NC (Nmero de clases), en la gran mayora de los casos el resultado final es un
nmero fraccionario, el cual no es adecuado en la prctica, sin embargo, se puede aplicar las tcnicas de redondeo
para convertirlo en un nmero entero. En este curso se utilizar el mtodo de Sturges para determinar el Ic de una
distribucin de frecuencia de clase siempre y cuando el mismo sea aplicable. Algunos investigadores consideran que
el mtodo de Sturges pierde eficacia cuando el nmero total de datos de una serie de valores es muy extenso,
considerando como extenso un N500. En una distribucin de frecuencia de clase el Ic se puede determinar
aplicando la siguiente frmula:
Ic LRS LRI
Es recomendable que el Ic sea un nmero impar para que el punto medio o marca de clase de una distribucin
coincida con un nmero entero lo cual facilitar clculos posteriores.
. Punto ..Medio. El
X
LAI LAS
X
2
El punto medio de una clase se determina por la semisuma del lmite inferior y superior de
una clase, tal como lo indica la formula siguiente:
5.-Frecuencia de clase
La frecuencia de clase se le denomina frecuencia absoluta y se le designa con las letras fi. Es el nmero total de
valores de las variables que se encuentran presente en una clase determinada, de una distribucin de frecuencia de
clase.
6.- Frecuencia Relativa
La frecuencia relativa es aquella que resulta de dividir cada uno de los fi de las clases de una distribucin de
frecuencia de clase entre el nmero total de datos(N) de la serie de valores. Estas frecuencias se designan con las
letras fr; si cada fr se multiplica por 100 se obtiene la frecuencia relativa porcentual (fr %).
7.-Frecuencias acumuladas
Las frecuencias acumuladas de una distribucin de frecuencias son aquellas que se obtienen de las sumas sucesivas
de las fi que integran cada una de las clases de una distribucin de frecuencia de clase, esto se logra cuando la
acumulacin de las frecuencias se realiza tomando en cuenta la primera clase hasta alcanzar la ultima. Las
frecuencias acumuladas se designan con las letras fa. Las frecuencias acumuladas pueden ser menor que (fa que)
y frecuencias acumuladas mayor que (faque).
8.-Frecuencia acumulada menor que
Las frecuencias acumuladas menor que (fa que) son aquellas frecuencias acumuladas que se forman con el fi de
los valores ms pequeos de las variables de cada clase hacia los valores mayores de la misma. Para graficar los
polgonos de frecuencias acumuladas (ojiva) fa que, se utilizan como variables independientes los limites
superiores de cada clase y como ordenada los diferentes valores de la fa que.
9.-Frecuencia acumulada mayor que
Las frecuencias acumuladas mayor que (fa que) son aquellas frecuencias acumuladas que se forman de las fi de
los valores mayores de las variables de cada clase hacia los valores menores de la misma. Para graficar los
polgonos de frecuencias acumuladas (ojiva) fa que, se utiliza como variable independiente los limites inferiores
de cada clase con los valores de fa que como ordenada en el plano cartesiano.
10.- Frecuencia acumulada relativa
La frecuencia acumulada relativa es aquella que resulta de dividir cada una de las fa de las diferentes clases que
integran una distribucin de frecuencia de clase entre el nmero total de datos (N) de la serie de valores, estas
frecuencias se designan con las letras far. Si las far se multiplican por 100 se obtienen las frecuencias acumuladas
relativas porcentuales y las mismas se designan as: far %.
Problema tipo
1.- Sean los siguientes datos las horas extras trabajadas por un grupo de obreros petroleros de la zona durante un
mes. Con esos datos elabore una distribucin de frecuencia de clase utilizando el mtodo de Sturges.
22
32
54
56
45
39
33
56
33
43
37
26
57
58
40
28
60
58
40
28
23
39
39
36
60
39
33
40
25
41
24
40
34
42
37
38
27
45
33
42
31
34
53
45
31
35
22
52
55
45
36
30
52
29
30
28
31
28
52
28
23
37
36
38
40
27
33
37
28
37
38
41
40
38
28
40
39
26
38
44
22
58
34
32
40
23
59
25
42
39
36
56
23
53
57
27
41
32
58
60
Para elaborar la distribucin de frecuencia hay que realizar los siguientes clculos:
1.- Calcular el rango R as:
R = XM Xm + 1 UM,
R = 60 22 + 1
R = 39.
2.- Se calcula el Ic de la serie de valores aplicando el mtodo de Sturges as:
R
Ic
1 3,322. log .N
R = 39, N = 100, Log. 100 = 2.0.
39
39
5.10.
1 3,322 x 2.0 7.64
Como el Ic = 5.10 se redondea al impar ms cercano que en este caso es Ic = 5.0. Ahora se procede a buscar el
lmite inferior de la primera clase de la distribucin, para ello se busca un mltiplo del Ic que no sea superior al
menor valor de los datos que este caso es 22. Tomando en cuenta este criterio el lmite inferior de la primera clase
ser entonces: 5x4 = 20, que es un mltiplo del Ic y no es mayor que el menor valor de la serie de datos. Se procede
ahora a elaborar las diferentes clases que integraran la distribucin de frecuencia. La primera clase se forma as: 20
24, el resto de las clases y las dems columnas que integran la distribucin se formaran as (se recomienda al
estudiante que realice todos los clculos necesarios para completar la distribucin):
Ic
Clases
2024
2529
3034
3539
4044
4549
5054
5559
6064
Total
fi
8
15
16
21
16
4
6
11
3
100
fa que
8
23
39
60
76
80
86
97
100
faque
100
92
77
61
40
24
20
14
3
22
27
32
37
42
47
52
57
62
fr
0.08
0.15
0.16
0.21
0.16
0.04
0.06
0.11
0.03
1.00
fr %
8.0
15.0
16.0
21.0
16.0
4.0
6.0
11.0
3.0
far que
0.08
0.23
0.39
0.60
0.76
0.80
0.86
0.97
1.00
far %
8.0
23.0
39.0
60.0
79.0
80.0
86.0
97.0
100.0
Para calcular las faque de la distribucin, se inicia la acumulacin de los fi desde la ltima clase de la
distribucin, que es donde se encuentran los valores mayores de las variables, hasta llegar a la primera clase que es
donde se ubican los valores menores de los datos. Los clculos de las dems columnas de la distribucin se
explicaran ampliamente en la teora.
2.- Los datos que se presentan a continuacin corresponden al consumo de carne de ganado, en un trimestre, de un
grupo de familia de un barrio de la ciudad de Ecatepec, Edo. de Mxico. Con los mismos elabore una distribucin
de frecuencia de clase utilizando para ello el mtodo de Sturges.
25
29
10
13
10
3
28
12
17
12
5
24
15
17
14
3
28
16
13
20
8
27
12
11
19
10
2
10
9
17
12
30
8
7
16
14
22
5
7
27
3
21
5
9
15
8
20
8
22
16
10
26
11
13
14
12
4
25
18
10
15
8
30
19
23
27
10
17
14
18
30
12
18
15
19
28
15
13
11
22
25
16
11
9
17
30
12
9
7
12
24
10
6
7
9
26
8
7
8
30
Ic
29
29
R
3.8. Ic
1 3,322 x 2.0 7.64
1 3,322. log .N
Como se puede observar el Ic = 3.8, hay que redondear este Ic al impar ms cercano, que en este caso seria 3.0.
Ahora se procede a buscar el lmite inferior de la primera clase de la distribucin esta sera un mltiplo del Ic que
sea menor o igual al menor de los datos de la serie de valores.
En este caso el mnimo mltiplo del Ic es 3, pero el lmite inferior de la serie de valores no se puede iniciar con 3
ya que de ser as quedaran valores fuera de la clase como es el caso de 2 que no sera incluido en la clase, en este
caso se tiene que utilizar como lmite inferior de la primera clase el menor valor de la serie de datos, es decir, 2.
Luego la primera clase seria: 2 4, y as sucesivamente hasta completar todas las clases. Se proceder ahora a
completar la distribucin de frecuencia, se recomienda al estudiante realizar los diferentes clculos necesarios para
completar la misma.
CLASES
24
57
810
1113
14 16
17 19
20 22
23 25
26 28
29 31
TOTAL
fi
5
9
20
16
13
11
6
6
8
6
100
faque
5
14
34
50
63
74
80
86
94
100
faque
100
95
86
66
50
37
26
20
14
6
fr
.005
0.09
0.20
0.16
0.13
0.11
0.06
0.06
0.08
0.06
1.00
3
6
9
12
15
18
21
24
27
30
fr %
5.0
9.0
20.0
16.0
13.0
11.0
6.0
6.0
8.0
6.0
100.0
farque
0.05
0.14
0.34
0.50
0.63
0.74
0.80
0.86
0.94
1.00
far %que
5.0
14.0
34.0
.50.0
63.0
74.0
80.0
86.0
94.0
100.0
Se recomienda al estudiante que realice todos los clculos necesarios para completar los datos que conforman el
cuadro de la distribucin de frecuencia anterior.
3.- Los datos que a continuacin se presentan corresponden al consumo de azcar trimestralmente por un grupo de
familias del municipio de Coacalco. Con los mismos elabore una distribucin de frecuencia de clase, para ello
utilice el mtodo de Sturges.
14
44
24
34
32
28
38
20
40
22
30
30
26
34
16
44
18
46
28
36
30
30
40
22
42
24
32
30
28
36
18
46
20
48
28
36
34
30
42
24
22
22
20
30
24
22
38
26
24
46
28
26
48
30
18
38
16
16
30
14
24
24
16
28
26
20
30
32
18
32
38
14
26
50
18
24
52
34
22
48
36
20
46
40
18
16
42
16
18
44
14
20
50
28
24
14
32
22
38
52
Para elaborar la distribucin de frecuencia de clase lo primero que se hace es calcular el rango de la serie de valores
as:
XM = 52, Xm = 14, UM = 16 14 = 2, UM = 2; R = XM Xm + 1 UM.
En este caso se puede observar que la unidad de medida es puesto que la serie de valores sigue una secuencia de
nmeros mltiplos de dos.
R = 52 14 + 2; R = 40. El nmero total de datos es 100 y el Log. 100 = 2.0.
Ic
R
40
40
5.24 Ic 5.24.
1 3,322. log .N 1 3,322 x 2.0 7.64
fi
5
13
22
12
19
9
9
7
4
100
faque
5
18
40
52
71
80
89
96
100
faque
100
95
82
60
48
29
20
11
4
12
17
22
27
32
37
42
47
52
fr
0.05
0.13
0.22
0.12
0.19
0.09
0.09
0.07
0.04
fr %
5.0
13.0
22.0
12.0
19.0
9.0
9.0
7.0
4.0
farque
0.05
0.18
0.40
0.52
0.71
0.80
0.89
0.96
1.00
far %que
5.0
18.0
40.0
52.0
71.0
80.0
89.0
96.0
100.0
Se recomienda al estudiante realizar todos los clculos necesarios para completar el cuadro.
Grficos de la distribucin de frecuencias de clases
Con los cuadros de las distribuciones de frecuencias se pueden elaborar varios tipos de grficos, los ms utilizados
son: Los histogramas, los polgonos de frecuencias y la ojiva o polgono de frecuencias acumuladas. El mtodo
ms utilizado para graficar los datos de una distribucin de frecuencia es el histograma.
Histograma
El histograma es un diagrama en forma de columna, muy parecido a los grficos de barras. Se define como un
conjunto de rectngulos paralelos, en el que la base representa la clase de la distribucin y su altura la magnitud
que alcanza la frecuencia de la clase correspondiente. Son barras rectangulares levantadas sobre el eje de las
abscisas del plano cartesiano utilizando escalas adecuadas para los valores que asume la variable en la distribucin
de frecuencia. El ancho de la base de los rectngulos es proporcional a cada clase de la distribucin, de tal manera
que, cuando la distribucin tiene clases de igual el tamao de todos los rectngulos tendrn bases iguales. Los
lados del rectngulo se levantan sobre los puntos del eje de las x que corresponden a los limites de cada clase y la
longitud de los mismos ser igual a la frecuencia que tenga esa clase, los lados por lo tanto corresponden a la
frecuencia de cada clase de la distribucin de frecuencia.
Cuando se elaboran grficas estadsticas en el plano cartesiano es recomendable que en el eje de las ordenadas se
representen las frecuencias y en el eje de las abscisas las variables independiente. El eje de las y que representa
las frecuencias debe empezar siempre en cero. Es importante sealar que la longitud del eje de las y que representa
la altura tenga el 75 % de la longitud del eje de las x, es decir, si las variable independientes ocupan en el eje x
8 cm., la mxima altura que ocuparan las frecuencias en el eje y tendr que ser de 6 cm.
Pasos para construir un histograma
1.- Se trazan dos ejes de coordenadas, el de abscisas y el de ordenada.
2.- Se coloca sobre el eje de las x los limites inferiores de cada clase y el ultimo lmite superior de la distribucin,
y
sobre el eje de las y se coloca la magnitud de la frecuencia de cada clase.
3.- Se trazan perpendiculares por los lmites de cada clase, la altura de las perpendiculares ser igual a la frecuencia
de cada clase; y para finalizar se unen las dos perpendiculares que representan a cada clase, el resultado final ser
el histograma.
Problemas
1.- Dada la siguiente distribucin de frecuencia correspondiente al consumo de arroz durante un trimestre por un
grupo de familias de una colonia del municipio de Tultitln. Elabore un histograma. Es recomienda al estudiante
elaborar los clculos respectivos.
Clases
2024
2529
3034
3539
4044
4549
5054
5559
6064
Total
Cuadro resumen:
Clases
2024
2529
3034
3539
4044
4549
5054
5559
6064
Total
fi
8
15
16
21
16
4
6
11
3
100
fa que
8
23
39
60
76
80
86
97
100
faque
100
92
77
61
40
24
20
14
3
22
27
32
37
42
47
52
57
62
fi
8
15
16
21
16
4
6
11
3
100
fr
0.08
0.15
0.16
0.21
0.16
0.04
0.06
0.11
0.03
fr %
8.0
15.0
16.0
21.0
16.0
4.0
6.0
11.0
3.0
far que
0.08
0.23
0.39
0.60
0.76
0.80
0.86
0.97
1.00
far %
8.0
23.0
39.0
60.0
79.0
80.0
86.0
97.0
100.0
Histograma correspondiente a las horas extras laboradas por un grupo de obreros petroleros.
25
21
20
1516 16
15
Frecuencias
10
8
4
5
0
11
6
3
0
1520253035404550556065
Limites Inferiores
Clases
24
57
810
1113
14 16
17 19
20 22
23 25
26 28
29 31
TOTAL
fi
5
9
20
16
13
11
0
6
8
6
100
Cuadro resumen:
Clases
24
57
810
1113
14 16
17 19
20 22
23 25
26 28
29 31
TOTAL
fi
5
9
20
16
13
11
0
6
8
6
100
3
6
9
12
15
18
21
24
27
30
faque
5
14
34
50
63
74
80
86
94
10
faque
100
95
86
66
50
37
26
20
14
6
Polgono de frecuencia
Es un diagrama de lneas que representa los puntos medios y las respectivas frecuencias de una distribucin de
frecuencia de clase. Es una representacin grfica cerrada de una distribucin de frecuencia. Es otra de las formas
de graficar los valores de una distribucin de frecuencia de clase.
No existe ninguna razn estadstica para seleccionar los polgonos de frecuencia en vez de los histogramas o
viceversa, los histogramas simplemente representan una manera de graficar y los polgonos de frecuencia otra; la
diferencia entre ambos radica en que una barra vertical rectangular representa una clase y su frecuencia en el
histograma y un punto cumple la misma funcin en el polgono de frecuencia.
Pasos para elaborar un polgono de frecuencia
1.- Se dibuja un plano cartesiano.
2.- Se traza sobre el eje de las abscisas, a distancias iguales, los puntos medios de las diferentes clases de la
distribucin de frecuencia.
3.- Se levantan perpendiculares por cada una de las marcas de clase, con una longitud igual a la frecuencia de cada
una
de las clases que integran la distribucin de frecuencia. Al final de cada perpendicular se marca un punto.
4.- Los puntos resultantes se unen por medio de una lnea recta obtenindose una lnea poligonal.
5.- Con la finalidad de cerrar la lnea poligonal se agrega una clase imaginaria con frecuencia cero a cada extremo
de la distribucin de frecuencia, por tal motivo ambos extremos del polgono se cortan con el eje de las abscisas.
Tambin se puede elaborar un polgono de frecuencia despus de haber graficado un histograma; si se determina el
punto medio de cada rectngulo de un histograma y esos puntos medios se unen por medio de segmentos de recta
dan como resultado el polgono de frecuencia.
Problemas tipo
1.- Sea la siguiente distribucin correspondiente a las horas extras trabajadas por un grupo de obreros petroleros
de la zona durante un mes. Con esos datos elabore un polgono de frecuencia. Elabore los clculos respectivos.
Clases
2024
2529
3034
3539
4044
4549
5054
5559
6064
Total
fi
8
15
16
21
16
4
6
11
3
100
Cuadro resumen:
Clases
2024
2529
3034
3539
4044
4549
5054
5559
6064
Total
fi
8
15
16
21
16
4
6
11
3
100
22
27
32
37
42
47
52
57
62
faque
8
23
39
60
76
80
86
97
100
faque
10
92
77
61
40
24
20
14
3
Observe que los puntos medios, 17 y 67 del polgono son imaginarios, se utilizan para cerrar la lnea poligonal, lo
que da origen al polgono de frecuencia.
20
15
Frecuencias
15
16
16
11
10
8
6
5
0
4
0
0
0
17 22 27 32
37
42
47
52
57
62
0
67
Puntos Medios
2.- La Distribucin de frecuencia que se presentan a continuacin corresponden al consumo de carne de res en kg.,
en un trimestre, de un grupo de familia de un barrio de la ciudad de El Tigre. Con los mismos elabore un polgono
de frecuencia. Realice los clculos respectivos.
Clases
24
57
810
1113
14 16
17 19
20 22
23 25
26 28
29 31
TOTAL
fi
5
9
20
16
13
11
6
6
8
6
100
Cuadro resumen:
Clases
24
57
810
1113
14 16
17 19
20 22
23 25
26 28
29 31
TOTAL
fi
5
9
20
16
13
11
6
6
8
6
100
3
6
9
12
15
18
21
24
27
30
faque
5
14
34
50
63
74
80
86
94
10
faque
100
95
86
66
50
37
26
20
14
6
Poligono de frecuencia relacionado al consumo en kg. de carne de res,en un trimestre,de un grupo de familias de un barrio de Ecatepec.
25
20
20
16
15
13
Frecuencias
11
10
9
8
6 6
5
0 00 0 0
0
0 3 6 9 12 15 18 21 24 27 30 32
Puntos Medio
Los puntos medios primero y ltimo del polgono son imaginarios, se puede observar que tienen como frecuencia
cera, los mismos se utilizan para cerrar la lnea poligonal y el rea que se ubica debajo de esta es la correspondiente
al polgono de frecuencia.
3.- La siguiente distribucin de frecuencia corresponde a la edad de un grupo de trabajadores de la empresa
PEMEX. Elabore un polgono de frecuencia. Realice los clculos respectivos.
Clases
22 24
25 27
28 30
31 33
34 36
37 39
40 42
43 45
fi
3
5
0
10
8
7
6
7
46
Total
Cuadro resumen:
Clases
22 24
25 27
fi
3
5
23
26
faque
3
8
faque
46
43
28 30
31 33
34 36
37 39
40 42
43 45
0
10
8
7
6
7
29
32
35
38
41
44
8
18
26
33
39
46
38
38
28
20
13
7
Total
Poligono de frecuencia relacionado con la edad de un grupo de trabajadores de la em presa PEMEX.
12
10
10
8
7
Frecuencias
6
5
4
3
2
0
20
0
23
0
26
0
29
0
32
35
38
41
44
47
Puntos Medio
3. Se trazan perpendiculares por los lmites superiores o inferiores de cada clase, segn la ojiva que se desea
graficar,
la altura de la perpendicular tiene que ser igual a la frecuencia acumulada menor que o
mayor que de la clase respectiva y al final de la misma se marca un punto.
4. por ltimo se unen todos los puntos por medio de segmentos de recta, dando origen a la ojiva.
Nota.- algunos investigadores consideran que la ojiva menor que y la mayor que se deberan graficar con los lmites
inferiores de clase y al final el ltimo lmite de la distribucin.
Problemas tipo
1.- Sea la siguiente distribucin correspondiente a las horas extras laboradas por un grupo de obreros petroleros
de la zona durante un mes. Con esos datos elabore un polgono de frecuencia acumulada menor que y otro mayor
que. Realice los clculos respectivos para completar el siguiente cuadro.
Clases
2024
2529
3034
3539
4044
4549
5054
5559
6064
Total
fi
8
15
16
21
16
4
6
11
3
100
Clases
2024
2529
3034
3539
4044
4549
5054
5559
6064
Total
fi
8
15
16
21
16
4
6
11
3
100
100
97
86
80
76
80
60
60
40
39
23
20
8
000
24
29
34
39
44 9
54
59
64
Limites superiores
PM
22
27
32
37
42
47
52
57
62
faque
8
23
39
60
76
80
86
97
100
faque
10
92
77
61
40
24
20
14
3
100
92
80
60
40
20
77
61
40
24
20
14
0 0 0
202530354045505560
Limites Inferiores
2.- La Distribucin de frecuencia que se presentan a continuacin corresponden al consumo de carne de res en kg.,
en un trimestre, de un grupo de familia de un barrio de la ciudad de Ecatepec. Con los mismos elabore un polgono
de frecuencia Acumulado, menor que y otro mayor que. Realice los clculos respectivos para completar el siguiente
cuadro.
Clases
24
57
810
1113
14 16
17 19
20 22
23 25
26 28
29 31
TOTAL
fi
5
9
20
16
13
11
6
6
8
6
100
Clases
24
57
810
1113
14 16
17 19
20 22
23 25
26 28
29 31
TOTAL
fi
5
9
20
16
13
11
6
6
8
6
100
PM
3
6
9
12
15
18
21
24
27
30
faque
5
14
34
50
63
74
80
86
94
100
faque
100
95
86
66
50
37
26
20
14
6
120
100
100
95
86
80
Frecuencias acumuladas
94
74
80
100
86
66 63
60
50 50
40
34
37
26
20
14
20
0 0 0
2 5 8 11 14 17 20 23 26 29 31
Limites Inferiores
Ojiva "Menor Que" correspondiente al consumo de carne de res, en kg., de un grupo de familia de un barrio de Ecatepec.
120
100
100
94
86
80
74
80
14
6
63
60
50
40
20
34
14
5
0 00
21514
8202326
129
Limites Iferiores
120
100
80
Frecuencia Acumulada " Mayor Que".
60
100
95
86
66
50
40
20
37
26
20
14
6
4 7 1013161922252831
Limites Superior
F
im
La ecuacin de definicin consiste de la suma de (n-m + 1) trminos, donde el primer trmino se obtiene
sustituyendo i por m en Fi, el segundo se obtiene remplazando i por (m+1) en Fi, y as sucesivamente, hasta
alcanzar el ultimo trmino al sustituir i por n en Fi. En la ecuacin de sumatoria la letra m se le denomina
lmite inferior de la sumatoria y n se le llama lmite superior de la sumatoria. El smbolo i se le denomina ndice de
la sumatoria. Ejemplos:
4
X1 X 2 X 3 X 4
X3 X4 X5 X6 X7
. Observe que las notaciones colocadas arriba y abajo del signo sumatoria indican
que solo deben ser sumados sucesivamente las primeras cuatro observaciones. Tambin puede darse el siguiente
caso:
i 1
. Se puede observar que las notaciones colocadas arriba y abajo del signo
sumatoria indican que solo deben ser sumados sucesivamente desde la tercera hasta la sptima observacin
Generalmente, con el objeto de simplificar ms aun las formulas que permiten utilizar el smbolo sigma, se pueden
suprimir los subndices, quedando el smbolo de sumatoria expresado de la siguiente manera: X. Esto se puede
hacer cuando no hay ambigedad al referirse a los diferentes valores que toma la variable X.
i 3
PROPIEDADES DE LA SUMATORIA
1. La sumatoria de la suma de dos o ms trminos, es igual a La suma de las sumatorias separadas de los
trminos.
n
i 1
i 1
i 1
i 1
X i Yi Z i X i Yi Z i
X
i 1
Yi Z i
X
i 1
i 1
i 1
Yi Z i .
La sumatoria de una constante multiplicada por una variable, es igual a la constante multiplicada por la
sumatoria de la variable.
n
KX
i 1
K X i ...donde..K ..es..una..constante..cualquira .
i 1
K nK ., donde..K ..es..una..constante..cualquiera .
i 1
que indique el
2
i
i 1
i 1
i 1
i 1
i 1
.,.. y... X i Yi X i . Yi .
Ejemplos:
a )... X ,...b)..
i 1
2
i
a)
i 1
i 1
i 2
i 1
(X
, c)
i 2
2
i
1) 2
(X
c)
Xi
b)
2
i
X i2 X 1 1,.. X 2 1,.. X 3 2
2
i
X 52 X 62 X 72 ...... X n2 .
b)
a )...... X i
i 1
b)
X
i 5
2
i
MEDIA ARITMTICA
La media aritmtica ( X ) o simplemente la media es el parmetro de posicin de ms importancia en las
aplicaciones estadsticas. Se trata del valor medio de todos los valores que toma la variable estadstica de una serie
de datos. Por lo tanto, la medida posicional ms utilizada en los estudios estadsticos viene a ser la media. Por su
fcil clculo e interpretacin, es la medida de posicin ms conocida y ms utilizada en los clculos estadsticos.
La media es el valor ms representativo de la serie de valores, es el punto de equilibrio, es el centro de gravedad de
la serie de datos. La media aritmtica por lo general se le designa con
X.
La media aritmtica de una serie de N valores de una variable X 1, X2, X3; X4,.........Xn, es el cociente de dividir la
sumatoria de todos los valores que toma la variable Xi, entre el nmero total de ellos. La formula se puede expresar
n
i 1
N
as:
.
Desviaciones o desvos.- Son diferencias algebraicas entre cada valor de la serie o cada punto medio y la media
aritmtica de dicha serie, o un valor cualquiera tomado arbitrariamente. Los desvos o desviacin se designan con la
letra di.
Dado una serie de valores X 1, X2, X3, .......Xn , se llama desvo a la diferencia entre un valor cualquiera X i de la
serie y un valor indicado k de esa misma serie. Si el valor indicado k de la serie corresponde precisamente a la
media aritmtica de esos valores dados, se dice entonces que los desvos son con respecto a la media aritmtica. En
smbolo:
d i ( X i X ).
0.
i
1. La suma de las desviaciones con respecto a la media aritmtica es igual a cero.
2. La suma de las desviaciones al cuadrado de los diversos valores con respecto a la media aritmtica es menor
que la suma de las desviaciones al cuadrado de los diversos valores con respecto a cualquier punto K, que no
i
i
sea la media aritmtica.
.
3. La media aritmtica total o conjunta de dos o ms serie de datos, se puede calcular en funcin de las medias
aritmticas parciales y del nmero de datos de cada una de ellas, mediante la siguiente frmula:
Xt
n1 X 1 n 2 X 2 n3 X 3 ........ nk X k
X
n1
X
n2
X
n3
.......
X
nk
Adems,
4
La media del producto de una constante por una variable, es igual al producto de la constante por la media de
la variable.
X
5
Donde:
KX
X
N
K X.
La media de la suma de una constante ms una variable, es igual a la media de la variable ms la constante.
X Xi K
X
n
K
n
X K.
resta.
Ejemplo:
1. Calcule la media aritmtica de los siguientes valores:
X
N
5 7 8 9 11 14 54
9.
6
6
Por lo tanto la media es 9.
Cuando se construye una distribucin de frecuencia, los datos se agrupan en clases definidas por unos lmites.
Cuando se trabaja con la distribucin de frecuencia se parte del supuesto de que todos los datos comprendidos en un
intervalo de clase se distribuyen uniformemente a lo largo de este, entonces se puede tomar la marca de clase o
) del intervalo como adecuada representacin de los valores que conforman el mencionado
punto medio ( X
intervalo. El punto medio se designa con la letra X . Para calcular la media en estas condiciones se pueden
utilizar tres mtodos: El mtodo directo o largo y dos mtodos abreviados.
MTODO DIRECTO
Este mtodo se le conoce tambin como mtodo largo; el mismo resulta demasiado engorroso cuando las
magnitudes de los puntos medios o de las frecuencias de clase son muy grandes, debido a que los clculos son
demasiados extensos. Los pasos a seguir para calcular la media con este mtodo son los siguientes:
1. Se agrupan los datos en clases y se llevan a una columna, se calculan los puntos medios de cada clase y se
colocan en sus respectivas columnas, se determinan las frecuencias de cada clase y se ubican en sus respectivas
columnas.
2. Se multiplican los puntos medios de cada clase por sus respectivas frecuencias, luego se obtiene la sumatoria
de las frecuencias (fi) multiplicadas por el punto medio ( X ) as:
3. Luego se calcula la media aritmtica aplicando la formula:
f X f X
N
f N
i
f X
i
...Donde..N
fi
75-------79
80-------84
85-------89
90-------94
95 ------99
20
40
60
100
140
N =360
fi
f i X
75-------79
80-------84
85-------89
90-------94
95 ------99
TOTAL
77
82
87
92
97
20
40
60
100
140
1540
3280
5220
9200
13580
f X
CLASES
=360
32820
91.17.
360
MTODOS ABREVIADOS
f X
i
32820
Los mtodos abreviados para calcular la media son preferibles en la mayora de los casos, especialmente cuando el
nmero de clases de las distribuciones de frecuencias son grandes. Es un mtodo fcil de aplicar. Existe un mtodo
abreviado que se utiliza para cualquier tipo de distribucin de frecuencia sin importar si tiene o no intervalos
constantes de clase y hay otro que se utiliza solamente cuando en la distribucin el intervalo de clase es constante,
en esta ctedra se analizar el primero.
Si se selecciona un punto medio ( X )
esa, entonces la suma algebraica de las desviaciones ( i ) con respecto al valor seleccionado ser diferente de cero.
Si la suma algebraica de las desviaciones es dividida por el nmero de datos totales (N) de la serie y el cociente
resultante es sumado al valor seleccionado, el resultado final ser igual al de la media aritmtica de la serie. Este
mtodo permite ahorrar una considerable cantidad de tiempo cuando en una serie de valores el conjunto de datos es
grande. La media seleccionada arbitrariamente o media imaginaria se le designar con la letra A y los desvos di
vendrn a ser la desviacin de cada valor de la serie con respecto a la media imaginaria A. La frmula para este
caso ser:
X A
f ( X
i
A)
N
fi di
...o.... X A
fd
i
N
La fraccin
se le denomina factor de correccin, A es la media arbitraria o supuesta.
El factor de correccin, ser positivo o negativo segn que A sea menor o mayor que la media aritmtica de la
serie de valores.
d i ( X i A)
fd .
i
X A
fd
i
1.-Dada la siguiente distribucin de frecuencia, correspondiente al peso en Kg. de un grupo de obreros, calcule la
media aritmtica, aplicando el mtodo abreviado. Realice los clculos respectivos para completar el siguiente
cuadro.
En este caso se tomar como media arbitraria el punto medio, A =87.0.
CLASES
fi
75------79
80------84
85------89
90------94
95------99
TOTAL
20
40
60
100
140
N = 360
CLASES
X i
fi
75------79
80------84
85------89
90------94
95------99
77
82
87
92
97
20
40
60
100
140
N = 360
X A
fd
i
X A)
fi di
( i
di
87 77 = - 10
87 82 = - 5
87 87 = 0
87 92 = 5
87 97 = 10
- 200
- 200
0
500
1400
fd
i
87
1500
1500
91.17.
360
Como se puede observar la media
N
Ahora se aplica la formula as:
obtenida es idntica a la obtenida por el mtodo largo. El estudiante puede realizar este problema utilizando
cualquier punto medio de la distribucin, se le deja como practica para que se ejercite con este mtodo, siempre
obtendr el mismo resultado utilizando cualquiera media imaginaria diferente a la utilizada en la resolucin de este
problema.
2 Calcule la media aritmtica de la siguiente distribucin aplicando el mtodo abreviado. Realice los clculos
respectivos para completar el siguiente cuadro.
CLASES
fi
50------54
55-----59
60-----64
65-----69
70-----74
75-----79
80-----84
85-----89
90-----94
Totales
5
10
20
40
100
38
22
9
6
N = 250
Para calcular la media en este caso s escogi como media imaginaria A = 72, por ser este el punto medio ms
cntrico de la serie, se pudo haber tomado otro punto medio diferente de este y el resultado hubiese sido el mismo.
Ahora se aplica la formula:
CLASES
X i
fi
50------54
55-----59
60-----64
65-----69
70-----74
75-----79
80-----84
85-----89
90-----94
TOTALES
52
57
62
67
72
77
82
87
92
5
10
20
40
100
38
22
9
6
N = 250
X A)
( i
di
72 52 = - 20
72 57 = -15
72 62 = -10
72 67 = -5
72 72 = 0
72 77 = 5
72 82 = 10
72 87 = 15
72 92 = 20
fi di
- 100
- 150
- 200
- 200
0
190
220
135
120
fd
i
15
X A
fd
i
72
15
72 0.06 72.06
250
. El estudiante har como ejercicio el clculo de la media con
p Md
N 1
2 , luego el nmero que se obtiene indica el lugar o posicin que
PMd
N
2
N 1
2 , para ubicar la posicin de la mediana. Los datos ordenados quedaran as: 5, 6, 7, 8, 9, 10, 12. La
7 1
p Md
4.
2
posicin
Esto indica que la mediana ocupa la posicin 4 en la serie de valores y por lo tanto esa
PMd
posicin corresponde a los nmeros 8 y 9 que en este caso ocupan la posicin por la izquierda y por la derecha, por
89
8.5
PMd
N
2 . El resultado obtenido determinar la clase donde se encuentra ubicada la mediana, lo cual
la frmula
se conseguir en la clase donde la frecuencia acumulada Fa sea igual o superior a este resultado. Luego se aplica
2 Faa
Md Li
Ic ,
fm
la formula:
en esta frmula Md es la mediana, Li es el lmite real inferior de la clase
donde se encuentra ubicada la mediana, Faa es el valor de la frecuencia acumulada anterior a la clase donde se
Obreros
fi
6
20
18
50
17
16
5
N = 132
Obreros
fi
6
20
18
50
17
16
5
N = 132
Obreros
fa
6
26
44
94
111
127
132
2 Faa
Md Li
Ic
fm
66,
2
N = 132, 2
luego la mediana se encuentra en la clase 70----74, por lo tanto el limite real inferior
de esa clase es 69.5 = Li. La frecuencia fi de esa clase es 50 = fm , Faa = 44 y el
Ic = 5. Aplicando la formula se tiene:
66 44
22
5 69.5
.5 69.5 2.2 71.70.
50
50
Md 69.5
Luego la mediana de esa distribucin es 71.70. Esto quiere decir que un 50 % de los obreros trabajaron horas
extras por debajo de 71.70 horas y el otro 50 % trabajaron horas extras por encima de 71.70 horas.
CARACTERSTICAS DE LA MEDIANA
* La mediana no es afectada por los valores extremos de una serie de valores, puesto que la misma no es calculada
con todos los valores de la serie.
* La mediana no est definida algebraicamente, ya que para su clculo no intervienen todos los valores de la serie.
* La mediana en algunos casos no se puede calcular exactamente y esto ocurre cuando en una serie de valores para
datos no agrupados el nmero de datos es par, en este caso la mediana se calcula aproximadamente.
* La mediana se puede calcular en aquellas distribuciones de frecuencia de clases abierta, siempre y cuando los
elementos centrales puedan ser determinados.
* La suma de los valores absolutos de las desviaciones de los datos individuales con respecto a la mediana siempre
es mnima.
LA MODA
La moda es la medida de posicin que indica la magnitud del valor que se presenta con ms frecuencia en una serie
de datos; es pues, el valor de la variable que ms se repite en un conjunto de datos. De las medias de posicin la
moda es la que se determina con mayor facilidad, ya que se puede obtener por una simple observacin de los datos
en estudio, puesto que la moda es el dato que se observa con mayor frecuencia. La moda se designa con las letras
Mo.
En las representaciones grficas la moda es el punto ms alto de la grfica. La obtencin de la moda para datos
agrupados no es un valor exacto, ya que vara con las diferentes formas de agrupar una distribucin de frecuencia.
En algunas distribuciones de frecuencias o serie de datos no agrupados o agrupados se presentan dos o ms modas,
en estos casa se habla de serie de datos sinodales o multimodales, segn sea el caso. Estos tipos de distribuciones
o series de valores se deben a la falta de homogeneidad de los datos.
Cuando una serie de valores es simtrica, la media, la mediana y el modo coinciden, y si la asimetra de la serie es
moderada, la mediana estar situada entre la media y el modo con una separacin de un tercio entre ambas.
Tomando en cuenta esta relacin, cuando se tengan dos de esta medidas se puede determinar la tercera; sin embargo
es conveniente utilizar esta relacin para calcular solamente la moda ya que para calcular la media y la mediana
existen formulas matemticas que dan resultados ms exactos; la frmula matemtica para calcular la moda por
1
1 2
Mo Li
.Ic
frecuencias de esa clases se les denomina frecuencia modal fm, 1 es la diferencia entre la frecuencia de la clase
modal ( fm) y la frecuencia de la clase anterior a la modal, la cual se designa con fa , entonces, 1 ( fm fa)
; 2 es la diferencia entre la frecuencia de la clase modal (fm) y la frecuencia de la clase siguiente a la modal,
esta se designa con fs , entonces, 2 ( fm fs).
fi
2
2
7
11
12
16
2
1 f m f a 1 16 12 4;.. 2 f m f s 16 2 14
Aplicando la formula se tiene:
1
Mo L i
1 2
4
40
79.5 2.22 81.71.
.10 79.5
18
4 14
Mo 79.5
Este resultado de la moda se interpreta as: La mayora de los trabajadores tiene un peso aproximadamente de
81.71 Kg.
CARACTERSTICAS DE LA MODA
* El valor de la moda puede ser afectado grandemente por el mtodo de elaboracin de los intervalos de clases.
* El valor de la moda no se haya afectado por la magnitud de los valores extremos de una serie de valores, como
sucede en la media aritmtica.
* La moda se puede obtener en una forma aproximada muy fcilmente, puesto que la obtencin exacta es algo
complicado.
* La moda tiene poca utilidad en una distribucin de frecuencia que no posea suficientes datos y que no ofrezcan
una marcada tendencia central.
* No es susceptible de operaciones algebraicas posteriores.
* La moda se utiliza cuando se trabaja con escalas nominales aunque se puede utilizar con las otras escalas.
* La moda es til cuando se est interesado en tener una idea aproximada de la mayor concentracin de una serie
de
datos.
OTRAS MEDIDAS POSICINALES
Cuando se estudio la mediana se pudo detectar que esta divide la serie de valores en dos partes iguales, una
generalizacin de esta medida da origen a unas nuevas medidas de posicin denominadas:
Cuartiles; Deciles y Percentiles. Estas nuevas medidas de posicin surgen por la necesidad de requerir de otras
medidas que expresen diferentes situaciones de orden, aparte de las sealadas por la mediana. Por lo tanto es
interesante ubicar otras medidas que fraccionen una serie de datos en diferentes partes. Es bueno destacar que los
cuarteles, los Deciles y los Percentiles son unas variantes de la mediana: De la misma forma los percentiles abarcan
tanto a los cuarteles como a los Deciles.
LOS CUARTILES.- Son medidas posicinales que dividen la distribucin de frecuencia en cuatro partes iguales.
Se designa por el smbolo Q a en la que a corresponde a los valores 1, 2 y 3., que viene a ser el nmero de Q a
que posee una distribucin de frecuencia de clase. El Q 1 divide la distribucin de frecuencia en dos partes, una
corresponde a 25 % que est por debajo de Q 1 y el otro 75 % por encima de Q 1. El Q2 divide la distribucin de
frecuencia en dos partes iguales, un 50 % que est por debajo de los valores de Q 2 y otro 50 % que est por
encima del valor de Q2. El Q2 es igual a la mediana.
CLCULO DE LOS CUARTILES.- Para datos no agrupados no tiene ninguna utilidad prctica calcular los
cuartiles. Para el clculo de los cuartiles en datos agrupados en una distribucin de frecuencia existe un mtodo por
anlisis grfico y otro por determinacin numrica, por fines prcticos en esta ctedra se utilizara el ltimo mtodo.
Para calcular los cuartiles por el mtodo numrico se procede de la siguiente manera:
PQa
aN
4 , en donde a viene a
aN
4 Faa
Qa Li
.Ic.
fm
nmero del cuartil solicitado; Li = Limite real inferior de la clase donde se encuentra ubicado el cuartil; Faa =
Frecuencia acumulada anterior a la clase donde se encuentra el cuartil; fm = Frecuencia fi que posee el intervalo
PQa
aN
4 = Posicin que ocupa el cuartil en la distribucin de frecuencia,
DECILES. Son medidas de posicin que dividen la distribucin de frecuencia en diez partes iguales y estas van
desde el nmero uno hasta el nmero nueve. Los deciles se les designa con las letras Da, siendo a, el nmero de
los diferentes deciles, que en este caso son nueve. El D2 es el punto debajo del cual se encuentran ubicados el 20
% de los valores de la distribucin o tambin el punto por sobre el cual se encuentra el 80 % de los valores de la
serie de datos. La mediana es igual al D5, puesto que este decil divide la distribucin en dos partes iguale tal como
lo hace la mediana, de la misma forma el decil cinco es igual al cuartil dos.
CLCULO DE LOS DECILES El clculo de los deciles es similar al clculo de los cuartiles, solo que en
estos vara la posicin, la misma se calcula con la formula:
PDa
aN
10 , en esta a corresponde al nmero del decil que se desea calcular, N equivale al nmero de datos de la
distribucin y 10 corresponde a las diez partes en la que se divide la serie de valores de la distribucin.
aN
10 Faa
Da Li
.Ic
fm
Md Q D P . 50%
2
5
50
mediana, al decil 5 y al cuartil 2, es decir:
por encima y 50 % por debajo de los
datos de la distribucin.
El clculo de los percentiles es similar al clculo de los cuartiles y los deciles con una variante en la posicin de
ubicacin de estos, que viene expresada por la siguiente frmula:
aN
100 Faa
Pa Li
.Ic
fm
aN
PPa
fi
85
90
120
70
62
36
463
PQ1
Fa
85
175
295
365
427
463
1x 463 463
115.75.
4
4
3075
115.75 85
.100 299.5
299.5 34.17 333.67.
90
90
Q1 299.5
Este valor de Q1 indica que el 25 % de los obreros en estudio, devengan un salario semanal por debajo de 333.67 $
y el 75 % restante gana un salario por encima de 333.67 $.
PQ 2
2 x 463
231.5
4
, ahora se ubica
5650
231.5 175
.100 399.5
399.5 47.08 446.58.
120
120
Q2 399.5
Este resultado de Q2 establece que el 50 % de los obreros de este estudio, devengan un salario semanal por
debajo de 446.58 $ y el otro 50 % devenga un sueldo por encima de 446.58 $. Calcule la mediana y comprela
con este resultado.
PD 3
3x 463
138.9
10
, ahora se
c) Para determinar D 3 = P30 hay primero que calcular la posicin de este as:
ubica esta posicin en las frecuencias acumuladas para determinar la posicin de D 3, en la tabla de la distribucin
de frecuencia se observa que D 3 se encuentra en la clase 300----399, luego, Li = 299.5, fm = 90, Faa = 85 y
Ic = 100, aplicando la formula se tiene:
138.9 85
.100 299.5 59.89 359.39
90
D3 299.5
salario semanal por debajo de 359.39 $ y el 70 % restante devenga un sueldo por encima de 359.39 $.
d) Calcular, D5 = Q2 = P50, adems
estudiante.
PP 70
70 x 463
324.10
100'
. Ahora se
2910
324.10 295
.100 499.5
499.5 41.57 541.07.
70
70
P70 499.5
Esto indica que el 70 % de los obreros devengan un sueldo semanal que est por debajo de 541.07 $ y que el 30
% de los restantes obreros, ganan un salario por encima de 541.07 $.
PORCENTAJES DE VALORES QUE ESTN POR DEBAJO O POR ENCIMA DE UN VALOR
DETERMINADO
Muchas veces necesitamos conocer el porcentaje de valores que estn por debajo o por encima de un valor
determinado; lo que representa un tipo de problema contrario al estudiado anteriormente, esto es, dado un cierto
valor en el eje de abscisa (X) del plano cartesiano, determinar en la ordenada (Y) el tanto por ciento de valores
inferiores y superiores al valor dado. Operacin que se resuelve utilizando la siguiente frmula matemtica:
f ( P Li 100
p faa i
Ic
N , donde:
p porcentaje que se quiere buscar.
P Valor dado en el eje de las X (valor que se ubica en las clases).
faa Frecuencia acumulada de la clase anterior a la clase donde se encuentra ubicado P.
Solucin:
Datos:
p?
P 450
faa 175
Li 400
I c 100
N = 463
Ahora se aplica la formula:
f ( P Li 100
p faa i
Ic
p 175
463 p 50.75
100
De acuerdo con el resultado se puede afirmar que el 50.75 % de los obreros devengan un salario inferior a 450 $ y el
49.25 % de los obreros ganan un salario superior a 450 $.
MEDIDAS DE DISPERSIN
Las medidas de posicin central son los valores que de una manera condensada representan una serie de datos,
pero realmente no son suficientes para caracterizar una distribucin de frecuencia. Para describir una distribucin
de frecuencia o serie de datos es necesario, por lo menos otra medida que indique la dispersin o variabilidad de los
datos, es decir, su alejamiento de las medidas de posicin central. Estas medidas de posicin central no tienen
ningn valor si no se conoce como se acercan o se alejan esos valores con respecto al promedio, en otras palabras es
conocer como se dispersan o varan esos valores con respecto al promedio de una distribucin de frecuencia.
La dispersin o variabilidad se entiende como el hecho de que los valores de una serie difieran uno de otro, es
decir, como se estn dispersando o distribuyendo en la distribucin. De acuerdo con esto es necesario encontrar una
medida que indique hasta qu punto los valores de una variable estn dispersos en relacin con el valor tpico. Las
medidas de variabilidad son nmeros que expresan la forma en que los valores de una serie de datos cambian
alrededor de una medida de posicin central la cual por lo general es la media aritmtica.
La dispersin puede ser mayor o menor, tomando en cuenta esas diferencias.
La variabilidad es la esencia de la
estadstica, puesto que las variables y atributos se caracterizan siempre por diferencias de valores entre
observaciones individuales. Casi siempre en una distribucin de frecuencia el promedio obtenido difiere de los
datos de la serie; por esto es importante determinar el grado de variacin o dispersin de los datos de una serie de
valores con respecto al promedio. Las medidas de dispersin se clasifican en dos grandes grupos: a).- Las Medidas
de Dispersin Absolutas y las Relativas; las Relativas, vienen expresadas en las mismas medidas que se
identifican la serie de datos, las mismas son: 1).- El Recorrido, 2) La Desviacin cuartilica, 3) La Desviacin
Semicuartilica, 4) La desviacin Media, 5) La Desviacin Tpica o Estndar 6) La varianza.
Las Medidas de Dispersin relativa. Son relaciones entre medidas de dispersin absolutas y medidas de tendencia
central multiplicadas por 100, por lo tanto vienen expresadas en porcentaje, su funcin es la de encontrar entre
varias distribuciones la dispersin existente entre ellas. La medida de dispersin relativa de mayor importancia es el
Coeficiente de Variacin.
Se llama Variacin o Dispersin de los datos, el grado en que los valores de una distribucin o serie numrica
tiende a acercarse o alejarse alrededor de un promedio. Cuando la dispersin es baja indica que la serie de valores
es relativamente homognea mientras que una variabilidad alta indica una serie de valores heterognea.
Cuando los valores observados de una serie estn muy concentrados alrededor del promedio, se dice que ese
promedio es o ser muy representativo; pero si estn muy dispersos con relacin al promedio, es decir muy
esparcidos con respecto al promedio, entonces ese promedio es poco representativo de la serie o distribucin, puesto
que no representan adecuadamente los datos individuales de esa distribucin. Es importante obtener una medida que
indique hasta qu punto las observaciones de una serie de valores estn variando en relacin con el valor tpico de
la serie.
RANGO O RECORRIDO(R) -. Es la primera medida de dispersin, no est relacionada con ningn promedio
en particular, ya que este se relaciona con los datos mismos, puesto que su clculo se determina restndole al dato
mayor de una serie el dato menor de la misma, ms una unidad de medida (UM). El rango es el nmero de
variables diferentes que posee una serie de valores. Su formula se calcula as:
Rango(R) = Dato mayor (XM)Dato Menor (Xm) + Una unidad de medida (1UM):
R = XM Xm + 1 UM. El rango es la medida de dispersin ms sencilla e inexacta dentro de las medidas de
dispersin absoluta. Esta medida tiene bastante uso en el control de calidad de los productos manufacturados.
DESVIACIN NTERCUARTILICA (DC). - La desviacin ntercuartilica es la diferencia que existe entre el
cuartil tres (Q3) y el cuartil uno (Q1) de una distribucin de frecuencia y se expresa as: DC = Q 3 Q1.
DESVIACIN SEMI-NTERCUARTILICA (DSC). - La desviacin semi-ntercuartilica es la diferencia entre el
Q3 y el Q1 dividido entre dos:
DSC
Q3 Q1
2
.
Si los valores de la DC o DSC son pequeos indica una alta concentracin de los datos de la distribucin en los
valores centrales de la serie de datos. Estas medidas se utilizan para comparar los grados de variacin de los valores
centrales en diferentes distribuciones de frecuencias. Los mismos no son afectados por los valores extremos, no se
adaptan a la manipulacin algebraica, por tal motivo son de poco utilidad.
DESVIACIN MEDIA.- La desviacin media de un conjunto de N observaciones x 1, x2, x3,.............xn, es el
promedio de los valores absolutos de las desviaciones (d i) con respecto a la media aritmtica o la mediana. Si se
denomina como DM a la desviacin media, entonces su frmula matemtica ser la siguiente:
N
DM
X
i 1
d
i 1
Esta frmula es para datos no agrupados. Se toma el valor absoluto en la ecuacin, debido a que la primera
propiedad de la media aritmtica establece que los desvos (di) de una serie con respecto a la media aritmtica
siempre son iguales a cero, es decir: di = 0.
DM
X f
X
i
i
N
aplica la siguiente frmula:
i 1
di
i 1
En esta frmula X es el punto medio de cada clase y fi es la frecuencia de cada clase. La Desviacin Media a
pesar de que para su clculo se toman todas las observaciones de la serie, por el motivo de no tomar en cuenta los
signos de las desviaciones (di), es de difcil manejo algebraico. Su utilizacin en estadstica es muy reducida o casi
nula, su importancia es meramente histrica, ya que de esta frmula es la que da origen a la desviacin tpica o
estndar.
DESVIACIN TPICA O ESTNDAR
Es la medida de dispersin ms utilizada en las investigaciones por ser la ms estable de todas, ya que para su
clculo se utilizan todos los desvos con respecto a la media aritmtica de las observaciones, y adems, se toman
en cuenta los signos de esos desvos. Se le designa con la letra castellana S cuando se trabaja con una muestra y con
la letra griega minscula (Sigma) cuando se trabaja con una poblacin. Es importante destacar que cuando se
hace referencia a la poblacin l nmero de datos se expresa con N y cuando se refiere a la muestra l nmero de
datos se expresa con n. La desviacin tpica se define como:
La raz cuadrada positiva del promedio aritmtico de los cuadrados de los desvos de las observaciones con
respecto a su media aritmtica. La desviacin tpica es una forma refinada de la desviacin media.
Caractersticas de la Desviacin Tpica:
* La desviacin tpica se calcula con cada uno de los valores de una serie de datos.
* La desviacin tpica se calcula con respecto a la media aritmtica de las observaciones de una serie de datos, y
mide la variacin alrededor de la media.
* La desviacin tpica es susceptible de operaciones algebraicas, puesto que para su clculo se utilizan los signos
positivos y negativos de los desvos de todas las observaciones de una serie de valores, por lo tanto es una medida
completamente matemtica.
* Es una medida de bastante precisin, que se encarga de medir el promedio de la dispersin de las observaciones
de una muestra estadstica. Las influencias de las fluctuaciones del azar, al momento de seleccionar la muestra la
afectan muy poco. Le da gran significacin a la media aritmtica de la serie de valores.
* Es siempre una cantidad positiva.
INTERPRETACIN DE LA DESVIACIN TPICA
La desviacin tpica como medida absoluta de dispersin, es la que mejor nos proporciona la variacin de los datos
con respecto a la media aritmtica, su valor se encuentra en relacin directa con la dispersin de los datos, a mayor
dispersin de ellos, mayor desviacin tpica, y a menor dispersin, menor desviacin tpica.
Su mayor utilidad se presenta en una distribucin normal, ya que en dicha distribucin en el intervalo determinado
por X
se
encuentra el 95,45% de los datos y entre la X 3 se encuentra la casi totalidad de los datos, es decir, el 99,73%
de los datos; adems, existe una regla general de gran utilidad para la comprobacin de los clculos que dice: una
oscilacin igual a seis veces la , centrada en la media comprende aproximadamente el 99% de los datos. Ver
grfica.
A la zona limitada por la X conoce bajo el nombre de zona normal, ya que se considera a los datos que caen
dentro de esa zona, datos normales en relacin con el grupo estudiado; los datos que estn por encima o por debajo
de dicho intervalo se consideran supranormales e infranormales.
Una regla emprica indica que en cualquier distribucin normal las probabilidades delimitadas entre 1 desviacin
tpica, 2 desviaciones tpicas y 3 desviaciones tpicas son el 68%, 95% y 99% respectivamente. Ver las graficas
siguientes.
Clculo de la Desviacin Tpica.- La desviacin tpica para calcularla se procede de dos formas: A).- Para datos
no agrupados en clases, B). - Para datos agrupados en clases.
A). - Para datos no Agrupados.- Las formulas para determinar la desviacin tpica de una
(X
1. .S
X )2
n 1
S y de una son:
2
i
n 1
2. .d i2 ( X i X ) 2
X i2
3. .S
( X i ) 2
n
n 1
N X i2 ( X i ) 2
n( n 1)
Es importante recordar que cuando se trabaja con la formula para datos no agrupados y se trata de una muestra se
utilizar como denominador n1, para corregir el sesgo, pero si en la muestra n 50 ,entonces se utilizar n,
simplemente.
Para caular la desviacin tipica de una poblacin para datos no agrupados, se utilizan las siguientes formulas:
(X
4. .
2
i
2
i
5. .
X )2
X
N
2
i
X2
Ej.1 Los siguientes valores corresponden a la edad de ios de una muestra tomada de una poblacin: Xi = 3,
4, 5, 6, 7 . Determine la desviacin tpica.
X
n
25
5
5
Xi
(X i X ) d i
35
=-2
d i2
4
4
5
6
7
45 =-1
55 = 0
65 = 1
75 = 2
1. .S
2
i
n 1
25
10
2.5 1.58
1
0
1
4
10
n X i2
3. .S
n(n 1)
5(135 625
50
1.58
5(4)
20
Interpretacin.- El resultado obtenido con las formulas 1 y 3 indican que en promedio, las edades de los ios de
esa muestra se desvian o varian con respecto a la media aritmticaen una cantidad igual a 1.58 aos.
Si este problema se resuelve ahora, considerando los datos como si fueran de una poblacin y se aplica la formula
4 y 5, entonces se tiene:
4. .
5. .
X
N
2
i
2
i
10
60.83 56.25
2 1.41.
135 625
27 25 2 1.41.
5
5
4.58 2.14
En la solucin del problema con las formula 4 y 5 de la poblacin se observa que la de la poblacin es menor
que la S de la muestra, esto es debido a que la S de la muestra utiliz n-1, para corregir el error producto del
sesgo, y la de la poblacin no lo utiliz.
2 Los aos de sevicio de 6 obreros son 5, 5, 8, 7, 9, y 11, los mismos corresponde a una muestra tomada de una
empresa. Clcule la desviacin tpica (S y ).
Se calcula la media
5 5 7 8 9 11 45
7.5
6
6
Xi
(X i X ) d i
5
5
7
8
9
11
Xi = 45
5 7.5 = - 2.5
5 7.5 = - 2.5
7 7.5 = - 0.5
8 7.5 = 0.5
9 7.5 = 1.5
11 7.5 = 3.5
d i2
X i2
6.25
6.25
0.25
0.25
2.25
12.25
25
25
49
64
81
121
27.50
2
i
365
Con esto datos se aplican las formulas 1, 4 y 5 para calcular la muestra, se deja la formula 3 para que sea aplicada
por el participante, el resultado ser igual al de la formula 1. Calculos:
1. .S
2
i
27.5
6 1
n 1
27.5
5.5 2.35.
Ahora se calcular la para la poblacin (considerado los datos como de una poblacin).
4. .
5. .
2
i
2
i
4.58 2.14.
365 45
6 6
27.5
365 2025
4.58 2.14.
6 36
Interpretacin.- El resultado obtenido al aplicar la formula 1, 2, 3, 4 y 5 indica que en promedio, los aos de
servicios de los trabajadores de la empresa se desvian o dispersan con respecto a su media aritmtica en una
cantidad igual a 2.35 ao segn la muestra y de 2.14 aos en la poblacion.
B) Para datos Agrupados en Clases.- Para calcular la desviacin tpica en datos agrupado existen varios
criterios en relacion a la correccin del sesgo que se produce al tomar una muestra, en este estudio se considerar la
formula que corrige el sesgo de aquellas muestras en estudio; sin embargo, cuando n sea mayor que 50, no es
necesario tal correccin. . Existen muchas formulas matemticas para calcular la desvicin tpica, queda a juicio del
estudiante utilizar la formula que l considere ms fcil, siempre y cuando su aplicacin sea valedera.
B).- Formulas Para calcular la muestra y la poblacin de una desviacin tpica con datos agrupados en
clases:
( X
1. .S
X )2 fi
n 1
2. .S
f K
i
2
i
fi
n 1
X i f i
X i fi
n
n 1
2
i
f K
n 1
3. .S
f (X
i
Xa )2
f (X
Xa )
n 1
Para calcular la S de la formula 1 es necesario calcular el punto medio de cada una de las clases de la distribucin,
calcular la media aritmtica y luego calcular los desvos de los puntos medios con respecto a la media aritmtica.
En la formula 2 no es necesario calcular la media.
Xa
En la formula 3,
X
i
X a .Entonces,
X )
K i (X
a
4. .
f ( X
5. .
f X
6. .
7. .
f (X
X )2
2
i
X i2
2
i
Xa ) 2
X i
X2
fd
f X
f K
2
i
f K
f d
i
X i
X i
de cada una de las clases que integran la distribucin de frecuencia, se determinan los desvos
con respecto a la
2
i
* Se calcula la
f X , luego se determina la f X
i
2
i
2.
Ejemplos: 3 Los siguientes datos corresponden a las horas extras trabajadas por los obreros de la empresa
PEMEX, en un mes (se resolver considerando los datos como de una S y ).
X
i
fi
CLASES
40 44
45 49
50 54
55 59
60 64
65 69
70 74
f i X
di =
f i d i2
f i X i
42
42
- 15.26
232.87
1764
6
21
75
23
7
2
135
47
52
57
62
67
72
282
1092
4275
1426
469
144
- 10.26
- 5.26
- 0.26
4.74
9.74
14.74
631.60
581.02
5.07
516.75
664.07
434.54
13254
56784
243675
88412
31423
10368
f X
i
f d
1.82
2
i
=3065.92
=7730
Para resolver el problema lo primero que se debe hacer es calcular la media aritmtica as:
X i
f X
i
2
i
=445680
7730
57.26
135
X
1. S
fd
2. .S
2
i
n 1
2
fiX
i
3065.92
135 1
fX
n 1
3065.92
134
2
22.88 4.78
7730
445680
135
135 1
Xa
Ki = ( i
desviacin
fi
1
6
21
75
23
7
2
Xa
Xa
3065.93
134
22.88 4.78.
) se elabora un cuadro estadstico para resumir los datos y finalmente se procede a buscar la
X i
42
47
52
57
62
67
72
( i
- 15
- 10
- 5
0
5
10
15
Xa
) =Ki
fi. Ki
fi (ki)2
- 15
- 60
- 105
0
115
70
30
225
600
525
0
575
700
450
fK
135
3. .
f i K i2
f K
i
3075
35
fK
i
2
i
3075
35 2
135
135
1225
135 3075 9.07 3065.93 22.71 4.76.
135
135
135
Interpretacin.- Los resultados obtenidos con las formulas 1, 2, y 3, indican que el promedio de las horas extras
laboradas por los trabajadores se desvan o varan con respecto a su media aritmtica en una cantidad igual a 4.78
y 4.76 respectivamente. La misma interpretacin se obtiene con los resultados obtenidos con las formulas 4, 5 y 6.
3075
fd
4. .
5. .
6. .
2
i
f X
i
f i X i2
N
2
i
3065.92
135
445680
3278.62
135
X2
f i X i
22.71 4.76
445680 7730
135
135
22,71 4.76.
4.76.
La aplicacin de la frmula 7 se deja para que el participante la aplique y resuelva el mismo problema, el cual
tendr resultados idnticos a los anteriores.
1
Los siguientes datos corresponden al nmero de panes consumidos por un grupo de familia de una
urbanizacin de la ciudad, durante una semana determinada.
Para resolver el problema se calcula la media y se procede a llenar el cuadro estadstico .siguiente (el estudiante
debe realizar los clculos):
Clases
3032
3335
3638
3941
4244
4547
4850
fi
10
18
60
100
80
14
6
288
f X
X
i
11520
40.0.
288
X i
Clases
fi
3032
3335
3638
3941
4244
4547
4850
10
18
60
100
80
14
6
288
31
34
37
40
43
46
49
6. .
f X
i
2
1
f X
f i X i
f i X i2
310
612
2220
4000
3440
644
294
11520
9610
20808
82140
160000
147920
29624
14404
464508
1. .S
fd
i
n 1
2
i
d i X i X
-9
-6
-3
0
3
6
9
3708
288 1
464508 11520
288
288
f i d i2
810
648
540
0
720
504
486
3708
3708
12.92 3.59.
287
Interpretacin.- Los resultados obtenido con las formulas 1 y 6 indican que en promedio, el consumo de pan de
trigo del grupo de familias de esa urbanizacin se dispersa con respecto a su media aritmtica en una cantidad
igual a 3.59.
La aplicacin de las formulas 2, 3, 4, 5 y 7 quedan como ejercicios de prctica para el participante, los resultados
tienen que ser idnticos a los obtenidos con las formulas 1 y 6. Es muy importante que observe el resultado obtenido
con la formula 1 para l clculo de S y el obtenido con la formula 6 para calcular la , ambos resultados son
idnticos, lo que indica que cuando la muestra es grande tanto la frmula para calcular S como la utilizada para
calcular la poblacin produce al final el mismo resultado.
Es importante sealar que expertos en la materia consideran que cuando las muestras son superiores a 50 datos el
error de sesgo ya no se produce o es insignificante y en consecuencia no es necesario utilizar la formula que se
encarga de corregir el mismo, por tal razn es conveniente utilizar n y no, n-1.
VARIANZA Es otra de las variaciones absolutas y la misma se define como el cuadrado de la desviacin tpica;
viene expresada con las mismas letras de la desviacin tpica pero elevada al cuadrado, as S 2 y 2. Las formulas
para calcular la varianza son las mismas utilizadas por la desviacin tpica, exceptuando las respectivas races, las
cuales desaparecen al estar elevados el primer miembro al cuadrado. La varianza general de la poblacin se expresa
de la forma siguiente:
Propiedades de la Desviacin Tpica:
1 La desviacin tpica de una constante k es cero. Si se parte de que la media aritmtica de una constante es igual
a la constante, esto es as, debida a que al ser todos los datos iguales no habr dispersin en la serie de datos con
respecto a la media aritmtica, por lo tanto (k) = 0.
2. .
1. .
3. .S
( X i ) 2
(X
4. .S
)2
(X
.., para.datos.no.agrupados.
X )2
n 1
..,. para.datos.agrupados.
..,. para.datos.no.agrupados.
La varianza general de la
( X i X )
n 1
..,. para.datos.agrupados.
(X
K )
(Xi )
2 Si a cada uno de los valores de una serie de variables se le suma o se le resta una
constante K, la desviacin tpica no se altera. Esta se apoya en la propiedad de la media aritmtica que establece si
a cada valor de la serie se le suma una constante, la media de la nueva serie es igual a la media de la serie original
ms la constante, igual sucede con la resta, la nueva media vendr disminuida en el valor de dicha constante.
3 Si a cada uno de los trminos de la serie de valores se le multiplica por una constante K, la desviacin tpica de
la serie quedar multiplicada por K, y la nueva desviacin tpica ser igual a la constante K tomada en valor
absoluto por la desviacin tpica original. Esta propiedad se apoya en la propiedad del producto de la media
aritmtica
i
(X
.K )
. K .. ( X i ) .
que:
68.27 % de los datos se encuentran en el intervalo ( X ).
95.45 % de los datos se encuentran en el intervalo ( X 2).
99.73 % de los datos se encuentran en el intervalo ( X 3).
Estos valores se cumplen con bastante aproximacin, para distribuciones que son Normales y para las que son
ligeramente asimtricas
n1 S12 n2 S 22
S
n1 n2
2
T
5 Para dos series de valores, de tamao n 1 y n2, con variaciones S21 y S22, respectivamente,
la varianza combinada S2T de ambas series ser
DISPERSIN RELATIVA.
Las medidas de variabilidad, estudiadas hasta ahora, solo permitan medir las dispersiones absolutas de los trminos
de la muestra. Las medidas, tomadas en esas condiciones, sern de utilidad, solo cuando se trata de analizar una sola
muestra; pero, cuando hay que establecer comparaciones entre distintas muestras, ser necesario expresar tales
medidas en valores relativos, que pueden ser proporciones o porcentajes.
Las medidas de dispersin relativas permiten comparar grupos de series distintas en cuanto a su variacin,
independientemente de las unidades en que se midan las diferentes caractersticas en consideracin. Generalmente
las medidas de dispersin relativas se expresan en porcentajes, facilitando as el estudio con medidas procedentes
de otras series de valores La dispersin relativa viene a ser igual a la dispersin absoluta dividida entre el
promedio.
Existen varias medidas de dispersin relativa, pero, la ms usada es el coeficiente de variacin de Pearson, este es
un ndice de variabilidad sin dimensiones, lo que permite la comparacin entre diferentes distribuciones de
frecuencias, medidas en diferentes unidades. El coeficiente de variacin de Pearson se designa con las letras CV.
La frmula matemtica es:
CV
x100.
X
El CV pierde utilidad, cuando la es muy cercana a cero. Una serie de valores ser ms dispersa que otra
respecto a su mientras que su CV sea mayor.
5 La venta en el mercado de tres productos, vara de acuerdo al siguiente cuadro. Determine el CV de cada uno
y diga cul de ellos presenta mayor variacin y cul la menor.
Producto
1
2
3
X
45
450
4500
Unidades
CV
5
40
350
Bs.
Bs.
Bs.
11.11 %
8.87 %
7.78 %
Para resolver el problema se calcula el CV de cada producto y luego s determina cul presenta mayor o menor
variacin
CV = Sx100/ X
CV1 = 5x100/45 = 11.11 %.
CV2 = 40x100/450 = 8.87 %.
CV3 = 350x100/4500 = 7.78 %.
Se puede observar que la menor dispersin la presenta el producto 3, por lo tanto, de los 3 productos el que menos
varia es ese; por otro lado el de mayor dispersin o variabilidad es el producto 1.
TEORA DE PROBABILIDADES
La teora de probabilidades es muy extensa y sus aplicaciones han adquirido mucha importancia en la administracin pblica y empresarial.
Las probabilidades son de gran importancia en la estadstica. Para iniciar el estudio de las probabilidades es necesario definir una serie de
trminos bsicos para su mejor comprensin.
Experimento Determinstico.- Es aquel experimento en el que es posible predecir el resultado final de ese proceso aun sin haberlo
realizado. Ej. Cuando los qumicos combinan oxigeno ms hidrgeno el resultado es agua; este experimento no es necesario realizarlo para
conocer el resultado.
Experimento Aleatorio.- Es aquel que puede dar lugar a ms de un resultado, por lo que, no se puede predecir uno de ellos en una prueba en
particular. Ej. Los experimentos relacionados con juego de envite y azar, no se pueden predecir los resultados de los ganadores del 5 y 6 en
un domingo cualquiera el resultado del Kino puesto que en estos casos pueden haber mltiples resultados.
Espacio Maestral.- Es el conjunto de los posibles resultados de un experimento aleatorio; generalmente se le designa con la letra S o E. Ej.
El espacio muestral al lanzar un dado es:
S = {1, 2 3 ,4 ,5 ,6} esto es as puesto que un dado tiene 6 caras numeradas de 1 al 6 y cualquiera de estas puede salir. El espacio muestral de
lanzar una moneda es: S = {c, s}, esto es as puesto que al lanzar una moneda puede salir una cara un sello.
Sucesos Eventos.- Es todo aquel resultado o grupo de resultados que pueden dar origen un experimento aleatorio. Tambin se puede decir
que es un subconjunto del espacio muestral. Ej. El espacio muestral de lanzar un dado est formado por varios eventos: { 1 },{ 2 }, { 3 }, { 4 },
{ 5 } y {6}. Los eventos pueden ser simples compuestos.
Eventos Simples.- Son aquellos eventos cuyas caractersticas son las de estar constituidos por un solo elemento; por lo tanto no se pueden
descomponer en otros elementos. Ej. Al lanzar un dado se pueden obtener 6 eventos simples que serian el 1, 2, 3, 4, 5 y 6 respectivamente.
Los eventos simples son mutuamente excluyentes.
Eventos Mutuamente Excluyentes.- Son aquellos eventos que no pueden ocurrir simultneamente al realizar una sola vez un experimento.
Se dice que dos eventos A y B son mutuamente excluyentes si y solo si, su interseccin es el conjunto vaco, es decir AB = . Ej. El
resultado obtenido al lanzar un dado, si sale una cara con un 3, no puede salir otro nmero en este mismo lanzamiento.
Eventos Compuestos.- Son aquellos eventos que se pueden descomponer en una combinacin de eventos. Ej. Obtener un nmero par al
lanzar un dado, el espacio muestral de este evento es:
E = {2, 4, 6}, este es el evento par del lanzamiento de un dado, pero este evento se puede descomponer en 3 eventos simples a saber {2},
{4}: y 6 .
Eventos Imposibles.- Son aquellos sucesos que nunca ocurren. Ej. Obtener un 7 al lanzar un dado normal, esto es imposible por cuanto un
dado normal tiene solamente 6 caras por lo tanto este resultado es el conjunto vaco, {}.
Eventos Seguros.- Son aquellos sucesos constituidos por todos los eventos simples del espacio muestral. Ej. Al lanzar un dado sacar
cualquiera de sus caras.
Eventos Exhaustivos.- Dos eventos A y B son colectivamente exhaustivos si su unin es la totalidad del espacio muestral, es decir, AB = E.
Eventos Dependientes.- Son aquellos sucesos en los que el conocimiento de la verificacin de uno de ellos altera la probabilidad de
verificacin del otro. Se dice que dos o ms eventos son dependientes si la ocurrencia de uno cualquiera de ellos afecta la probabilidad de la
ocurrencia de alguno de los otros eventos. Ej. Consideremos la probabilidad de obtener 2 cartas de basto al sacar sucesivamente 2 cartas de
una baraja de 40 cartas. Al sacar la primera carta la probabilidad de obtener basto es de 10/40 y al no sustituirla quedaran en el paquete 39
cartas de las cuales 9 son de basto, en la segunda extraccin la probabilidad de obtener basto es de 9/39, en este caso la segunda extraccin
depende de la primera que tena como probabilidad 10/40 y la segunda extraccin tendr ahora 9/39 como se puede observar la probabilidad
de la segunda extraccin es afectada por la primera.
Eventos Independientes.- Se dice que dos ms eventos son independientes si la ocurrencia de uno cualquiera de ellos no afecta la
probabilidad de la ocurrencia de ninguno de los otros sucesos. Ej. El evento de obtener simultneamente un 2 al lanzar un dado y sello al tirar
una moneda, est compuesto de 2 sucesos independientes, puesto que la ocurrencia de un 2 en el dado no afecta la probabilidad de la
aparicin de sello en la moneda y viceversa.
Eventos complementarios - Dos eventos A y son complementarios si y solo si, se cumple que: P(A) + P() = P(S), es decir, son eventos
mutuamente excluyentes y su unin es el espacio muestral, entonces tenemos, P(A) + P() = P(S), pero P(S) = 1, entonces,
P(A)+ P() = 1
Eventos no Mutuamente Excluyentes.- Son aquellos eventos que pueden verificarse simultneamente. A estos eventos tambin se les
llaman Sucesos Compatibles.
La probabilidad es una caracterstica que interviene en todos los trabajos experimentales. Es necesario obtener un procedimiento lgicamente
slido para que dichos enunciados tengan validez cientfica. En otras palabras, en virtud de que la probabilidad en definitiva, es un
cuantificador o medida de la posibilidad de ocurrencia de un suceso al que se le asocia un grado de incertidumbre, se debe estudiar la forma
en que esta medida puede ser obtenida.
Existen tres enfoques o escuelas que tratan de dar una definicin de la probabilidad: La Clsica, La de Frecuencia Relativa y La Subjetiva.
Escuela Clsica.- Esta plantea que si un suceso puede ocurrir en a formas y fallar en b formas posibles, entonces el nmero total de
formas posibles en que puede ocurrir o no ocurrir es a + b. S a + b formas son igualmente probables, la probabilidad P de que el suceso
ocurra se define como el cociente
P = a /a + b, y la probabilidad q de que el suceso no ocurra se define como el cociente q = b / a + b,
en otras palabras, la probabilidad de que ocurra o no un suceso, se define como el cociente del nmero de casos favorables entre el nmero de
casos posibles, siendo todos estos casos igualmente probables.
Ej. Al tirar un dado una sola vez puede salir una cara cualquiera de las 6 que posee el dado, todas igualmente probables; la obtencin de un 3
en el lanzamiento del dado, es una de las diferentes caras que posee el dado, se dice que hay un caso favorable para que salga el 3 entre 6
casos posibles; en este caso se tiene que a = 1(caso favorable de obtener un 3), b = 5 (caso no favorable para obtener un 3), de modo que la
probabilidad de acertar es: P=1 / 1 + 5 = 1 / 6 y la probabilidad de fallar es: P = 5 /1 + 5 = 5 / 6
Escuela de la Frecuencia Relativa.- Este enfoque surge por la necesidad de asignar probabilidades a aquellos eventos considerados no
simtricos. Los seguidores de esta corriente afirman que solo a partir de experimentos realizados varias veces en las mismas condiciones, es
posible asignar probabilidades a los eventos de un experimento aleatorio. En trminos generales el empeo de esta teora es destacar que
cuando el nmero de experimentos aumenta, la frecuencia relativa del evento se estabiliza y se acerca bastante a un valor determinado que
podra ser prcticamente igual a la probabilidad del evento con un elevado grado de certeza.
Definicin.- Si se considera un suceso que puede verificarse o fallar al efectuar una prueba, s s observa que ese suceso se verifica m veces
en un total de n pruebas bajo las mismas condicin esenciales, entonces la razn m/n se define como la probabilidad P de que el suceso se
verifique en una cualquiera de las pruebas, entonces, P = m/n. En esta definicin de frecuencia, la probabilidad es un nmero estimado y la
confianza de esta estimacin aumenta con n, es decir, cuando el nmero de observaciones crece. La probabilidad de la frecuencia relativa
est basada en un gran nmero de experimentos y observaciones, y muy a menudo se le llama probabilidad Emprica, Estadstica, A
Posteriori o Teora Objetiva. Esta es la definicin ms utilizada en la teora de probabilidades.
TEORA DE LA PROBABILIDAD SUBJETIVA.- Existen varios sucesos de sumo inters cuyas probabilidades no se pueden
calcular tomando en cuenta los mtodos de frecuencia relativa ni con la teora de la probabilidad clsica. Surge entonces, el punto de vista
subjetivo el cual hace hincapi en la probabilidad que resulta de una opinin, creencia, o juicio personal sobre una situacin determinada. El
enfoque subjetivo denominado tambin probabilidad personal, asigna a los eventos probabilidades, aun cuando los datos experimentales
sean escasos o imposibles de obtener.
Los que toman decisiones utilizando este tipo de probabilidad se fundamentan en sus propias experiencias personales y en muchos casos en
presentimientos. Este enfoque de la probabilidad personal se aplica a problemas de toma de decisiones tales como construcciones de plantas,
compras de equipos, licitaciones de contratos, etc. La probabilidad personal se ha vuelto sistemticamente popular entre los tericos de la
toma de decisiones. Los defensores de esta corriente tratan de buscar soluciones a la asignacin de probabilidades de aquellos eventos que
solo ocurren una vez o que no pueden estar sometidos a experimentos repetidos. La asignacin de probabilidades a un evento en estas
condiciones, ms que un juicio arbitrario, es un juicio de valor.
AXIOMAS DE LA TEORA DE PROBABILIDADES.- Los axiomas de las probabilidades son los fundamentos bsicos de las
reglas del clculo de las probabilidades de eventos; estas reglas tambin se conocen como propiedades de las probabilidades y son:
1.- La probabilidad de todo evento o suceso es un nmero no negativo, es decir: P(xi)0.
2.- La suma de las probabilidades de todos los sucesos posibles, mutuamente excluyentes de un experimento aleatorio es la unidad, es decir:
P (X1) + P(X2) + P(X3)+.............+ P(Xn) = 1
3.- La probabilidad de cualquier suceso vara entre 0 y 1, es decir 0 P(XI) 1.
4.- La suma de las probabilidades de que un suceso ocurra y no ocurra es igual a la unidad. Si se designa con P la probabilidad de que un
evento ocurra y con q la probabilidad de que el evento no ocurre, se tiene entonces:
P + q = 1, luego la probabilidad de que un suceso ocurra es: P = 1 q y la probabilidad de que el evento no ocurra es: q = 1 p.
Es importante destacar que las probabilidades se deben expresar por lo menos con 4 decimales y luego a estos expresarlos en porcentaje.
Pn, probabilidades
1.- Se saca al azar una carta de una baraja de 40 cartas. Cul es la probabilidad de que sea un As o un Rey?
Solucin : la probabilidad de sacar un as es 4/ 40 y la probabilidad de sacar un rey es 4 /40, luego la probabilidad buscada se encontrar as:
si se llama P(A)= 4 / 40 obtener un as y probabilidad de obtener un rey se le denominara B, entonces P(B) = 4 / 40, entonces:
P(A o B) = P(A) + P(B), luego
B.- Si los eventos son Compatibles (aquellos que pueden verificarse simultneamente, es decir cuando hay eventos que son comunes o que
hay interseccin entre los sucesos) o no Mutuamente Excluyentes. El teorema se enuncia as:
Sean A y B dos eventos compatibles, es decir eventos que tienen por lo menos un suceso simple en comn; la probabilidad de obtener al
menos uno de ellos, esto es P(A o B) es igual a la probabilidad del evento A, es decir, P(A), ms la probabilidad de B, o sea P(B ) menos la
probabilidad de la interseccin de ambos eventos, es decir P(AB). Simblicamente se puede expresar as: P(A o B) = P(A) + P (B)
P(AB). Ej.
2.- Se lanza una moneda y un dado al aire. Cul es la probabilidad de obtener una cara en la moneda o un dos en el dado?
Solucin : Si llamamos A, el evento de obtener una cara en la moneda y B, al suceso de obtener un 2 en el dado; el espacio muestral de
una moneda es 2, (cara y sello) mientras que el espacio muestra de un dado es seis, (1,2,3,4,5,6). El espacio muestral de ambos eventos ser
la multiplicacin de sus espacios mustrales, es decir, 2x6 = 12. El grfico nos indica el espacio muestral de ambos eventos:
S
C
1S
1C
1
2S
2C
2
3S
3C
3
4S
4C
4
5S
5C
5
6S
6C
6
Eventos de A = 1C, 2C, 3C, 4C, 5C, 6C , P(A) = 6 / 12; el evento B = C, 2S , luego P(B) = 2 / 12, los eventos que son comunes a
ambos, es decir, que se interceptan son:
AB = 2C , luego, P(AB) = 1 / 12, ahora se aplica el teorema de la suma para datos compatibles. Tenemos:
P(A o B) = P(A) + P(B)P(AB),
P(A o B) = 6 / 12 + 2 / 12 1 / 12 = 7 / 12 = 0.5883 = 58.33 %, por lo tanto, esa es la probabilidad buscada.
PROBABILIDAD CONDICIONADA.- La probabilidad de que ocurra un evento B cuando se sabe que ha ocurrido algn otro evento
A, se denomina PROBABILIDAD CONDICIONADA y se designa como P(B/A). l smbolo P(B/A) se lee como la probabilidad de
que ocurra B sabiendo que ocurri A o sencillamente probabilidad de B dado A Las probabilidades condicionadas estn relacionadas a
probabilidades asociadas a los eventos definidos en subpoblaciones o espacios mustrales reducidos.
Se dice que la probabilidad de ocurrencia de un evento dado es condicionada, si esta se afecta por la ocurrencia de otro evento presente.
Definicin.- Sean A y B dos eventos asociados a un experimento aleatorio. La probabilidad que ocurra el evento B, dado que ocurri el
suceso A se llama probabilidad condicionada del suceso B, esta se simboliza por P(B/A) y se calcula mediante la frmula:
A P PA AB ,
PB
El conjunto P(AB), se le denomina probabilidad conjunta de los eventos A y B. El conjunto AB se define como la interseccin de A y
B, es decir, los eventos comunes entre A y B.
A P PA AB ,
PB
P(A) = 18 / 50.
P(AB) = 10 / 50.
10
5
A P PA AB 18 50 10
,
18 9
PB
50
Aprobaron Con
20 puntos.
No Aprobaron
Con 20 puntos
TOTAL
ADMINIST.
INGENIERO
ECONOMISTA
TOTAL
10
18
20
32
10
30
10
50
En la tabla se observa que el espacio muestral de 50 se redujo a 18, que vienen a ser los casos posibles de acuerdo con el planteamiento del
problema; por otro lado los ingenieros que aprobaron con 20 en este caso son 10, que vendran a ser los casos favorables, por lo tanto la
probabilidad buscada ser el cociente que resulta de dividir los casos favorables (CF) entre los casos posibles (CP), as:
CF 10 5
0.5556 55.56.%.
CP 18 9
4.- Se lanza un dado y se obtiene un nmero par. Cul es la probabilidad de que el nmero obtenido sea mltiplo de 3?
Solucin: Sea A, el evento de obtener un nmero par, y sea B el evento de obtener un nmero mltiplo de 3, entonces el evento comn
entre los sucesos A y B ser AB. El espacio muestral del lanzamiento de un dado es 6, ahora bien los diferentes eventos del problema
sern:
A = 2, 4,6 , entonces P(A) = 3/6
B = 3, 6 .
AB = 6 , luego
P(AB) = 1/6
PB
Este problema tambin se puede resolver aplicando una tabla o matriz de doble entrada, en donde se observan todos los eventos del problema
planteado, observemos la siguiente tabla:
Eventos
Son
Eventos
No son
TOTAL
que
pares
que
pares
Nmeros Mltiplos
De
3
6
Nmeros
no
Mltiplos de 3
2, 4
TOTAL
1,
Solucin: En esta tabla se observa que los eventos pares en total son 3, por lo tanto el espacio muestra original que era 6 se redujo a 3. En la
fila de los eventos que son pares se observan los que cumplen con la condicin de ser mltiplo de 3, por lo tanto es un solo caso favorable,
de la misma forma se observa que solo hay 3 caso posibles de nmeros pares, luego la probabilidad buscada ser el cociente que resulta
de:
CF !
0.3333 33.33.%,
CP 3
B
P A
P A B
.P A P A B P A.P B
A
P A
6.- Si la probabilidad de un evento A es igual 0.65, la probabilidad de un evento B es de 0.40 y la probabilidad conjunta de A y B es
igual a 0.20. Determine entonces si los eventos A y B son independientes.
Solucin: Para que los eventos A y B sean independientes tiene que cumplirse que su probabilidad conjunta sea igual a 0.20, para ello
aplicamos la formula de la probabilidad conjunta de eventos independientes de esta forma:
P(AB) = P(A) P(B) = 0.65 x 0.40 = 0.26, por lo tanto los eventos A y B no son independientes puesto que la probabilidad conjunta entre
A y B es igual a 0.20 de acuerdo con los datos dados y esta es diferente de la probabilidad conjunta obtenida, que es 0.26.
7.- Cul es la probabilidad de sacar primero cuatro nmeros 3 y despus otro nmero diferente de 3 en 5 tiros de un dado equilibrado?.
Solucin: Los 5 tiros del dado son independientes, el obtener un nmero determinado en un dado tiene una probabilidad de 1/6, puesto
que el espacio muestral del lanzamiento de un dado posee 6 eventos diferentes. Ahora bien la probabilidad de obtener un nmero diferente de
3 es:
1 1/6 = 5/6. Si llamamos A, B, C y D los eventos de obtener un 3 y llamamos E el suceso de sacar un nmero diferente de 3, entonces
las probabilidades de A, B, C, D y E, sern:
P(A) = P(B) = P(C) = P(D) = 1/6, y P(E) = 5/6, por ser el problema una probabilidad conjunta de eventos independientes se aplicar a
siguiente frmula:
P(ABCDE) = P(A) P(B) P(C) P(D) P(E) = (1/6)4 x (5/6) = 5/ 7776 = 0.0006 = 0.06 %, esta es la probabilidad conjunta solicitada.
8.- Cul es la probabilidad de sacar 2 ases consecutivos en 2 cartas tomadas al azar de un juego ordinario de barajas de 40 cartas, si se
sustituye la primera carta antes de tomar la segunda?
Solucin: Este es un problema de probabilidad conjunta para eventos independientes por cuanto son suceso aleatorio con sustitucin. El
espacio muestral es 40; un juego de barajas tiene 4 ases, por lo tanto la probabilidad de sacar un as es P(4/40)= 1/10. Si llamamos A, el
evento de sacar la primera carta y B el suceso de sacar la segunda carta, entonces:
P(A) = P(B) = 1/10, ahora se aplica la formula de la probabilidad conjunta para eventos independientes as:
P(AB) = P(A) PB) = 1/10 x1/10 = 1/100 = 0.01 = 1.0 %, esta es la probabilidad buscada.
9.- Cul es la probabilidad de sacar 2 ases consecutivos en 2 cartas tomadas al azar de un juego ordinario de una baraja de 40 cartas, si no
se sustituye la primera carta antes de sacar la segunda carta?
Solucin: Este es un problema de probabilidad conjunta para eventos dependientes por cuanto no hay sustitucin del primer evento al sacar
el segundo. Si llamamos A, el suceso de tomar la primera carta, entonces la probabilidad de A ser P(A) = 4/40 = 1/10, si ahora llamamos B el
evento de sacar la segunda carta sin reposicin, entonces la probabilidad de B ser (B) = P(B/A)= 3/39, esto es as por cuanta B depende de
A, al ocurrir el suceso A entonces en el juego de cartas quedan 39 barajas de las cuales 3 son ases. Ahora aplicamos la formula de la
probabilidad conjunta para eventos dependientes se tiene:
P(AB) = P(A) P(B/A) = 1/10x 3/ 39 = 1/130 = 0.0077 = 0.77 %, esta es la probabilidad conjunta buscada.
10.- Una caja contiene 100 bombillos, se sabe que hay 15 defectuosos. Se toman 2 bombillos aleatoriamente sin remplazarlos. Cul es
la probabilidad de que los 2 bombillos estn defectuosos?
Solucin: Lo primero que se observa es un experimento sin reposicin, por lo tanto la probabilidad a buscar es la conjunta para eventos
dependientes. Si se llama A, el evento de sacar el primer bombillo defectuoso, entonces la probabilidad de A ser P(A)= 15/100, y si
llamamos B el suceso de sacar el segundo bombillo defectuoso, entonces su probabilidad ser:
P(B) = P(B/A) = 14/99, esto es as por ser B un suceso dependiente de la ocurrencia de A, es decir, que al ocurrir el evento A, entonces
quedan en la caja 99 bombillos de los cuales solo 14 sern defectuoso. Ahora se aplica la formula de la probabilidad conjunta para sucesos
dependientes as:
P(AB) = P(A) P(B/A) = 15/100 x 14/99 = 21/ 990 = 0.0212 = 2.12 %, esta es la probabilidad conjunta buscada.
11.- Un comerciante recibe en su negocio una caja con un pedido que contiene 6 cepillos verde, 4 blancos y 5 azules. Se extraen de la caja
aleatoriamente 3 cepillos sin remplazarlos. Cul es la probabilidad de que sean extrados de la caja en el orden verde, blanco y azul?
Solucin: Como la extraccin de los cepillos de la caja es sin reemplazo, entonces los sucesos a obtener son eventos dependientes. El total de
cepillos es de 15; si se denomina con V el evento de extraer el primer cepillo verde, entonces su probabilidad de extraerlo ser P(V) =
6/15, si ahora se llama B el evento de sacar en la segunda extraccin un cepillo blanco, entonces su probabilidad de salir ser P(B) =P(V(/B)
= 4/14, esto es as por ser B un evento que depende de la ocurrencia de V, por lo tanto al salir el primer evento verde en la caja quedan 14
cepillos, finalmente se denomina con A, el suceso de la extraccin del tercer cepillo que ser azul y su probabilidad de salir es P(A) =
P(A/VB) = 5/13, con estos datos se aplica la siguiente frmula:
P(VBA) = P(V) P(B/V) P(A/VB) = 6/15 x 4/14 x 5/13 = 4/91 = 0.0440 = 4.40 %, esta es la probabilidad conjunta buscada.
12.- Las probabilidades de que A y B resuelvan un determinado problema son 2/3 y 3/4 respectivamente . Encuentre la probabilidad de
que el problema sea resuelto cuando menos por uno de los dos.
Solucin: Este problema quedar resuelto si A y B no fallan simultneamente en la solucin del mismo. Para ello calculamos la
probabilidad de fallar de A y B as:
P(A) = 1q, entonces, q =1P(A) = 12/3 = 1/3, luego la probabilidad de fallar el evento B es as:
q = 1P(B) = 1P(B) = 13/4 =1/4... Si la probabilidad de fallar A se le denomina P(A 1), entonces la de fallar B ser P(B 1), luego tenemos
que P(A1) = 1/3 y P(B1) =1/4, ahora calculamos la probabilidad conjunta de A1 y B1 as: P(A1B1) = p(A1) P(B1) = 1/3 x 1/4 = 1/12, esta
es la probabilidad conjunta de fallar A y B, ahora bien, para saber cul es la probabilidad de acertar aplicamos la formula: P = 1q, como q =
1/12, esta es la probabilidad de fallar conjuntamente A y B, entonces se tiene que:
P = 11/12 = 11/12 = 0.9167 = 91.67 %, esta es la probabilidad de que el problema sea resuelto cuando menos por uno de los dos.
13.- Se tiene una caja con 20 fusibles, se sabe que 5 fusibles estn defectuosos. Se eligen al azar 2 fusibles y se retiran de la caja en
forma sucesiva sin remplazar al primero. Cul es la probabilidad de que ambos fusibles sean defectuosos?
Solucin: De acuerdo con el planteamiento del problema se trata de una probabilidad conjunta para eventos dependientes, ya que el mismo
es sin sustitucin. Si se denomina con A, el evento de sacar el primer fusible defectuoso, entonces la probabilidad de ocurrencia ser:
P(A) = 5/20, si ahora llamamos B el suceso de sacar el segundo fusible defectuoso, la probabilidad de ocurrencia ser: P(B) = P(B/A) =
4/19, esto es as debido a que el evento B depende de la ocurrencia de evento A y como se sabe que ocurri A, entonces en la caja quedan
19 fusibles de los cuales 4 son defectuosos. Ahora aplicamos la formula de la probabilidad conjunta para sucesos dependientes as:
P(AB) = P(A) P(B/A) = 5/20 x 4/19 = 1/19 = 0.0526 = 5.26 %, esta es la probabilidad de sacar 2 fusibles defectuosos consecutivamente.
SUCESOS DE PRUEBAS REPETIDAS.- Los sucesos de pruebas repetidas son de gran importancia en el clculo de probabilidades y
sus aplicaciones. Este problema se presenta cuando un experimento u observacin se repite cierto nmero de veces bajo las mismas
condiciones. Se dice que un suceso simple interviene en una prueba si necesariamente ocurre o deja de ocurrir una sola vez . Se dice que un
suceso simple interviene en pruebas repetidas si necesariamente bajo exactamente las mismas condiciones, ocurre o deja de ocurrir, cada vez,
una vez.
Si un evento ocurre en una prueba, se acostumbra a decir que se acierta, y que la probabilidad de que el suceso ocurra es la probabilidad de
acertar. De la misma forma, si un evento no ocurre en una prueba, se acostumbra a decir que el suceso falla , y que la probabilidad de que el
suceso no ocurra es la probabilidad de fallar.
TEOREMA 1 (Ley del binomio).- Sea P la probabilidad de acertar y q = 1 P la probabilidad de fallar en un suceso de una
prueba. Entonces la P1 de exactamente r aciertos en n pruebas repetidas est dada por La formula
P1 = C (n, r) pr qnr
r n.
si
En esta frmula n es el nmero total de suceso, r es el nmero total de aciertos, n1 es el nmero total de fallar, C es la combinacin de
los eventos n y r, p es la probabilidad de acertar un evento determinado, q es la probabilidad de fallar y P1 es la probabilidad buscada.
Recuerde que en los problemas donde se aplica este teorema la palabra EXACTAMENTE es la clave. Ej.
14.- Calcular la probabilidad de obtener exactamente 3 cuatros en 5 lanzamientos de un dado normal.
Solucin: Cada tiro del dado es una prueba, llamaremos acertar el acto de obtener un cuatro. La probabilidad de obtener un 4 en el dado o
acertar es de 1/6, entonces p = 1/6, la probabilidad de no obtener un 4, es decir, la probabilidad de fallar es:
11/6 =5/6 = q, como n = 5, r = 3, nr = 2, p =1/6, C(5,3) = 10, ahora se aplica la frmula del teorema 1 as :
P1 = C (n, r) pr qnr
3
1 5
P1 10
6 6
10 x 25 250
0.0322
65
7776
En este problema n = 8, r = 6,
1 1
2 2
P1 C n ,r p r q n r C 8, 6
8 x7 x18
28
buscada.
TEOREMA 2.- Sea P la probabilidad de acertar y q = 1p la probabilidad de fallar de un suceso en una prueba. Entonces la
probabilidad P2 de obtener por lo menos r aciertos en n pruebas est dada por la relacin
P2
r r
( n ,r )
p n q n r ,..........r n.
r n
Esta frmula es similar a la del teorema 1, pero para determinar la probabilidad en este caso se calculan todo los valores de n y finalmente
se suman todas las probabilidades y el resultado de la sumatoria es la probabilidad buscada. En la aplicacin de esta frmula hay una frase
clave que es: por lo menos, lo cual significa que se deben tomar las probabilidades desde r hasta n y luego sumarlas todas y esa ser la
probabilidad buscada. Ejemplo:
16.- Una moneda de 5 bolvares se lanza al aire 8 veces. Cul es la probabilidad de que por lo menos aparezcan 6 caras?
Solucin: Este es un problema que se resuelve aplicando el teorema 2 por cuanto presenta la palabra clave por lo menos, que indica la
aplicacin de la frmula del teorema mencionado. En el lanzamiento de una moneda la probabilidad de acertar es 1/2 y la de fallar es 1/2
por lo tanto la
P2
18
28
8x18
28
28x18
28
37
0.1445 14.45%
256
, esa es la probabilidad buscada.
17.- La probabilidad de que un hombre de 50 aos viva 20 aos ms, es de 60.0 %. Dado un grupo de 5 hombres de 50 aos, cul
es la probabilidad de que por lo menos 4 hombres lleguen a 70 aos?
Solucin: De acuerdo con el planteamiento del problema se trata de sucesos de pruebas repetidas tal y como lo plantea el teorema 2, por
cuanto presenta la frase clave por lo menos. En este problema la probabilidad de que un hombre viva 70 aos es:
La probabilidad que llegue a 70 aos es: 60/100 = 6/10 = p, la probabilidad que no llegue a los 70 aos es 4/10 = q, n = 5, r = 4 y n r =
1. Aplicando la frmula del teorema 2 se tiene:
P1 = C (n, r) pr qnr = C(5,5) (6/10)5 + C(5, 4) (6/10)4 (4/10) =
7776 / 100000 + 25920 / 100000 = 1053 /3125 =0.3370 =33.70 %, esta es la probabilidad buscada.