Beruflich Dokumente
Kultur Dokumente
Este libro ha sido creado usando el sistema de edicion de textos de LATEX en un procesador
Atom Intel a 1.6GHz en una laptop hp-mini 1100. Esta editado especialmente para el uso
de los estudiantes de la Licenciatura de Fsica de la Facultad Experimental del Ciencias
de la Universidad del Zulia, sin embargo, su contenido es totalmente general y pudiera
ser usado por cualquier estudiante de ciencias o afines ya que su contenido se adapta a
muchos de los programas modernos de Metodos Matematicos. El programa que comprende
estas notas ha sido formateado a partir de los programas oficiales de la Facultad para esta
Licenciatura, de tal manera que se pueden encontrar en http://www.fec.luz.edu.ve y
esta a disposicion para todos. Todo el contenido ha sido compilado y creado por David
Sierra Porta. Diseno de la cubierta por David Sierra Porta. Imagen de la portada: www.
morguefile.com (2013). Escrito e ideado por David Sierra Porta. Notas de Clase - Libro
de Texto. Fsica-Matematica.
Estadstica y probabilidad. Una introduccion. Notas de Clase.
Fsica-Matematica
Estadstica y Probabilidad
19 de mayo de 2015
David Sierra Porta Es graduado en la Licenciatura de Matematicas y Fsica en la Fa-
cultad de Humanidades y Educacion de la Universidad del Zulia, LUZ, en el ano 2001.
Es Magister Scientiarum en la Maestra de Fsica Fundamental del Postgrado en Fsica
Fundamental de la Facultad de Ciencias de la Universidad de los Andes, ULA, en 2004.
Tambien Doctor en Fsica Fundamental en la ULA (2015). Se desempena actualmente co-
mo profesor-investigador Asociado a dedicacion exclusiva de la Facultad Experimental de
Ciencias de la Universidad del Zulia desde el ano 2005, en el Departamento de Fsica. Miem-
bro fundador del Laboratorio de Astronoma y Fsica Teorica, LAFT, y del Laboratorio de
Campos y Partculas, LCP, de la Facultad Experimental de Ciencias de la Universidad del
Zulia. Autor de varios libros y publicaciones en el area de las Ciencias Fsicas. Sus intere-
ses personales en investigacion versan sobre gravitacion y cosmologa, teoras cuanticas de
campo, Relatividad General, modificacion de la gravedad y teoras de calibre.
A Mai, Santi y Sami.
Indice general
Presentacion 13
Prologo 15
1. Introduccion a la Estadstica 17
1.1. Pequena definicion y algunos conceptos basicos . . . . . . . . . . . . . . . . 17
1.2. Poblacion y muestra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.3. Variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.4. Metodos de recoleccion de datos . . . . . . . . . . . . . . . . . . . . . . . . 21
1.4.1. La entrevista . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
1.4.2. La encuesta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
1.4.3. Cuestionario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
1.4.4. La observacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2. La estadstica descriptiva 25
2.1. Distribuciones de frecuencia . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.1.1. Terminologa adicional . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.1.2. Creando una tabla de frecuencias . . . . . . . . . . . . . . . . . . . . 28
2.1.3. Notacion Matematica . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.1.4. Frecuencia acumulada . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.1.5. La frecuencia relativa . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.1.6. Los histogramas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.2. Medidas de Tendencia Central (MTC) . . . . . . . . . . . . . . . . . . . . . 36
2.2.1. La Media Aritmetica . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.2.2. La Mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
2.2.3. La moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
2.2.4. Relacion emprica entre la media, mediana y moda . . . . . . . . . . 41
2.2.5. Propiedades de la media, mediana y moda . . . . . . . . . . . . . . . 42
2.2.6. El promedio ponderado . . . . . . . . . . . . . . . . . . . . . . . . . 44
2.2.7. Otros tipos de medias . . . . . . . . . . . . . . . . . . . . . . . . . . 45
2.2.8. Formas de las distribuciones de datos . . . . . . . . . . . . . . . . . 46
2.3. Medidas de variacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
2.3.1. Rango . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
2.3.2. La Varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
2.3.3. La Desviacion Estandar . . . . . . . . . . . . . . . . . . . . . . . . . 51
7
Indice general
4. Analisis Combinatorio 81
4.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
4.2. Principio Fundamental de Conteo . . . . . . . . . . . . . . . . . . . . . . . . 81
4.3. Arreglos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
4.4. Variaciones (o arreglos) con repeticion . . . . . . . . . . . . . . . . . . . . . 83
4.5. Permutaciones (u ordenaciones) sin repeticion . . . . . . . . . . . . . . . . . 84
4.6. Permutaciones (u ordenaciones) con repeticion . . . . . . . . . . . . . . . . 84
4.7. Combinaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
4.8. Combinaciones con repeticion . . . . . . . . . . . . . . . . . . . . . . . . . . 85
4.9. Analisis y Metodologa propuesta para la resolucion de problemas de Teora
de conteo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
4.10. Problemas de final de captulo . . . . . . . . . . . . . . . . . . . . . . . . . . 86
5. Probabilidad 89
5.1. Introduccion: La probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . 89
5.2. La probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
5.3. Experimentos de Probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . 91
8
Indice general
9
Indice general
10
Indice de figuras
11
Indice de figuras
7.9. p(Z > k) = p(Z k). La simetra permite reducir este caso al que ya
esta tabulado. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
7.10. p(k1 Z k2 ). Probabilidad comprendida entre dos valores. . . . . . . . . 122
7.11. p(Z k2 ) en la primera imagen. p(Z k1 ) en la segunda. Al restar obte-
nemos el area pedida. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
12
Presentacion
(...) Conseguimos obtener as la formula estadstica para conocer aproximadamente la posicion de
un electron en un instante determinado. Pero, personalmente, no creo que dios juegue a los dados.
- Albert Einstein
13
Indice de figuras
experimentos sino que bastara con la definicion matematicamente abstracta del mismo pa-
ra el calculo de probabilidades, es decir, se plantea de manera idealizada el experimento,
considerando las caractersticas del mismo y sus consecuencias, los resultados posibles del
experimento y as lograr una idealizacion matematica del mismo. Se encontrara esto muy
provechoso ya que no siempre se cuenta con el tiempo, los medios, la infraestructura fsi-
ca, humana y computacional para llevar a cabo los experimentos. En el captulo siete se
estudian las distribuciones de probabilidad como una generalizacion de experimentos alea-
torios haciendo enfasis en las mas usadas, la normal y la binomial y se resuelven problemas
usando estas tecnicas. En los captulos ocho y nueve, se presenta una introduccion al es-
tudio de pruebas de hipotesis como paso al estudio de estadstica inferencial. Por ultimo,
se presenta dos apendices, el primero, con una nota sobre la redaccion y presentacion de
informes y resultados, y el segundo, sobre calculo de errores y variaciones, muy importante
en la consideracion de medidas experimentales.
Buen provecho..!
14
Prologo
The same set of statistics can produce opposite conclusions at different levels of aggregation.
- Thomas Sowell. Penetrating the Rhetoric, The Vision of the Anointed (1996), 102.
15
1. Introduccion a la Estadstica
The Charms of Statistics.It is difficult to understand why statisticians commonly limit their
inquiries to Averages, and do not revel in more comprehensive views. Their souls seem as dull to
the charm of variety as that of the native of one of our flat English counties, whose retrospect of
Switzerland was that, if its mountains could be thrown into its lakes, two nuisances would be got
rid of at once. An Average is but a solitary fact, whereas if a single other fact be added to it, an
entire Normal Scheme, which nearly corresponds to the observed one, starts potentially into
existence. Some people hate the very name of statistics, but I find them full of beauty and interest.
Whenever they are not brutalised, but delicately handled by the higher methods, and are warily
interpreted, their power of dealing with complicated phenomena is extraordinary. They are the
only tools by which an opening can be cut through the formidable thicket of difficulties that bars
the path of those who pursue the Science of man.
Los metodos estadsticos pueden ser usados para responder preguntas como:
17
1. Introduccion a la Estadstica
Existen dos tipos de estadsticas: Descriptiva: tabula, representa y describe una serie
de datos que pueden ser cuantitativos o cualitativos, sin sacar conclusiones, y la Inferen-
cial: infiere propiedades de gran numero de datos recogidos de una muestra tomada de la
poblacion. La muestra se diferencia de la poblacion en el hecho de que la primera es un
subconjunto de la segunda, ademas, la muestra debe estar contenida necesariamente dentro
de la poblacion. La estadstica descriptiva es una ciencia que analiza series de datos (por
ejemplo, edad de una poblacion, altura de los estudiantes de una escuela, temperatura en
los meses de verano, etc) y trata de extraer conclusiones sobre el comportamiento de estas
variables.
Definicion 1.3 (Muestra) Una muestra es un conjunto mas pequeno de medidas toma-
dos a partir de la poblacion.
18
1.3. Variables
Ejemplo 1.3 Por ejemplo, si estamos interesados en medir los salarios de todos los cientfi-
cos de las universidades del pas, el conjunto de datos que representan la poblacion sera en
este caso la lista de todos los salarios de cualquier universidad en Venezuela. Una mues-
tra podra ser obtenida seleccionando 10 universidades de una lista unos cuantos estados
seleccionados al azar con sus respectivos salarios, por su puesto.
1.3. Variables
Al conjunto de resultados posibles de una caracterstica que desea estuadiarse en un
cierto problema particular, suele llamarsele variable. En terminos mas formales, la variable
es basicamente la caracterstica que desea medirse o estudiarse, mientras que al conjunto
de resultados posibles se le llama dominio de la variable. Si la variable solo toma un valor
se le llama variable constante. Las variables pueden ser de dos tipos:
19
1. Introduccion a la Estadstica
Discretas: solo pueden tomar valores enteros (1, 2, 8, -4, etc.). Por ejemplo: numero
de hermanos (puede ser 1, 2, 3....,etc, pero, por ejemplo, nunca podra ser 3,45).
Continuas: pueden tomar cualquier valor real dentro de un intervalo. Por ejemplo,
la velocidad de un vehculo puede ser 80,3 km/h, 94,57 km/h...etc.
Cuando se estudia el comportamiento de una variable hay que distinguir los siguientes
conceptos:
1. Individuo: cualquier elemento que porte informacion sobre el fenomeno que se es-
tudia. As, si estudiamos la altura de los ninos de una clase, cada alumno es un
individuo; si estudiamos el precio de la vivienda, cada vivienda es un individuo.
2. Poblacion: conjunto de todos los individuos (personas, objetos, animales, etc.) que
porten informacion sobre el fenomeno que se estudia. Por ejemplo, si estudiamos el
precio de la vivienda en una ciudad, la poblacion sera el total de las viviendas de
dicha ciudad.
Ejemplo 1.4 Usando el conjunto de datos que describen los salarios de los cientficos,
nosotros pudieramos calcular el salario promedio de los cientficos que laboran en las uni-
versidades Venezolanas. este promedio calculado debe tomarse por un parametro. Mientras
20
1.4. Metodos de recoleccion de datos
Es por su puesto, muy sencillo darse cuenta que la poblacion es un conjunto mucho
mas grande que la muestra. Note que la poblacion pudiera ser finita o infinita. En es-
te ultimo caso es donde la eleccion de una muestra es realmente indispensable. Ademas,
debe advertirse que si la poblacion tomada y seleccionada es muy grande, entonces proba-
blemente sera imposible poder calcular parametros de algun interes particular. A menos
que la poblacion sea bastante pequena calcular sera muy difcil. Sin embargo, seleccionar
poblaciones muy pequenas es problematico, ademas de peligroso, y miente en el sentido
cientfico. En esencia, la idea general es poder seleccionar siempre muestras, mas pequenas,
por su puesto, que la poblacion y encontrar o calcular estadsticos muestrales que pudie-
ran dar explicaciones preliminares de lo que pasa en la data total o poblacion. La idea
fundamental es usar estos estadsticos para inferir o estimar los parametros poblacionales,
que es lo que en realidad importa. La pericia de los cientficos se encuentra en tratar de
construir buenas muestras a partir de poblaciones muy grandes, tales que los estadsticos
calculados a partir de estas muestras, sean buenas para estimar los parametros necesarios.
Desafortunadamente, estimar estadsticos nunca es 100 % seguro, pero si que podra ser en
alguna medida cercana. Existen varios segun los valores que toman los datos.
1. Datos nominales: pueden ser del tipo cualitativos solamente. Los valores para
los datos sirven para etiquetar, pero las etiquetas no tienen atributo de orden. Por
ejemplo: el tipo de sangre, el grado de estudio, el tipo de raza, el tipo de bacteria en
el intestino de una cierta especie de pescado.
2. Datos ordinales: pueden tanto de tipo cualitativos como cuantitativos. Los valores
atribuidos a los datos son etiquetas, pero a diferencia de los anteriores, para estos si
esta prescrito un orden en particular. Por ejemplo: las posiciones del torneo de futbol
profesional Venezolano, el nivel de censura de una pelcula.
3. Datos intervalos: solo son cuantitativos. Los valores que toman los datos son
numericos, tienen un orden natural y la diferencia entre los valores que toman los
datos son significativas. Por ejemplo: la temperatura, el ano de nacimiento.
4. Datos razon: son siempre cuantitativos. Los valores son numericos, tienen orden, y
la tanto la diferencia como la razon entre los valores son significativas. Por ejemplo,
el peso de una persona, el volumen.
21
1. Introduccion a la Estadstica
1.4.1. La entrevista
Las entrevistas se utilizan para recabar informacion en forma verbal, a traves de pre-
guntas que propone el analista. Quienes responden pueden ser gerentes o empleados, los
cuales son usuarios actuales del sistema existente, usuarios potenciales del sistema pro-
puesto o aquellos que proporcionaran datos o seran afectados por la aplicacion propuesta.
El analista puede entrevistar al personal en forma individual o en grupos algunos analistas
prefieren este metodo a las otras tecnicas que se estudiaran mas adelante. Sin embargo, las
entrevistas no siempre son la mejor fuente de datos de aplicacion. Dentro de una organiza-
cion, la entrevistas es la tecnica mas significativa y productiva de que dispone el analista
para recabar datos. En otras palabras, la entrevistas es un intercambio de informacion
que se efectua cara a cara. Es un canal de comunicacion entre el analista y la organiza-
cion; sirve para obtener informacion acerca de las necesidades y la manera de satisfacerlas,
as como concejo y comprension por parte del usuario para toda idea o metodo nuevos.
Por otra parte, la entrevista ofrece al analista una excelente oportunidad para establecer
una corriente de simpata con el personal usuario, lo cual es fundamental en transcurso del
estudio. Realizar entrevistas toma tiempo; por lo tanto no es posible utilizar este metodo
para recopilar toda la informacion que se necesite en la investigacion; incluso el analista
debe verificar los datos recopilados utilizando unos de los otros metodos de recoleccion de
datos. La entrevista se aplican en todos los niveles gerencial y de empleados y dependa de
quien pueda proporcionar la mayor parte de la informacion util para el estudio los ana-
listas que estudian la administracion de inventarios pueden entrevistar a los trabajadores
del embarque y de recepcion, al personal de almacen y a los supervisores de los diferentes
turnos, es decir. Aquellas personas que realmente trabajan en el almacen, tambien entre-
vistaran a los gerentes mas importante. La habilidad del entrevistador es vital para el exito
en la busqueda de hecho por medio de la entrevista. Las buenas entrevista depende del
conocimiento del analista tanto de la preparacion del objetivo de una entrevista especfica
como de las preguntas por realizar a una persona determinada.
22
1.4. Metodos de recoleccion de datos
1.4.2. La encuesta
Hoy en da la palabra encuesta se usa mas frecuentemente para describir un metodo de
obtener informacion de una muestra de individuos. Esta muestra es usualmente solo una
fraccion de la poblacion bajo estudio. Por ejemplo, antes de una eleccion, una muestra de
electores es interrogada para determinar como los candidatos y los asuntos son percibidos
por el publico - un fabricante hace una encuesta al mercado potencial antes de introducir
un nuevo producto - una entidad del gobierno comisiona una encuesta para obtener infor-
macion para evaluar legislacion existente o para preparar y proponer nueva legislacion. No
tan solo las encuestas tienen una gran variedad de propositos, sino que tambien pueden
conducirse de muchas maneras, incluyendo por telefono, por correo o en persona. Aun as,
todas las encuestas tienen algunas caractersticas en comun. A diferencia de un censo, don-
de todos los miembros de la poblacion son estudiados, las encuestas recogen informacion
de una porcion de la poblacion de interes, dependiendo el tamano de la muestra en el
proposito del estudio. En una encuesta, la muestra no es seleccionada caprichosamente o
solo de personas que se ofrecen como voluntarios para participar. La muestra es seleccio-
nada cientficamente de manera que cada persona en la poblacion tenga una oportunidad
medible de ser seleccionada. De esta manera los resultados pueden ser proyectados con
seguridad de la muestra a la poblacion mayor. La informacion es recogida usando procedi-
mientos estandarizados de manera que a cada individuo se le hacen las mismas preguntas
en mas o menos la misma manera. La intencion de la encuesta no es describir los individuos
particulares quienes, por azar, son parte de la muestra sino obtener un perfil compuesto
de la poblacion. El tamano de muestra requerido en una encuesta depende en parte de la
calidad estadstica necesaria para los establecer los hallazgos; esto a su vez, esta relacionado
en como esos hallazgos seran usados. Aun as, no hay una regla simple para el tamano de
muestra que pueda ser usada en todas las encuestas. Mucho de esto depende de los recur-
sos profesionales y fiscales disponibles. Los analistas frecuentemente encuentran que una
muestra de tamano moderado es suficiente estadstica y operacionalmente. Por ejemplo,
las muy conocidas encuestas nacionales frecuentemente usan cerca de 1,000 personas para
obtener informacion razonable sobre actitudes y opiniones nacionales.
1.4.3. Cuestionario
Los cuestionarios proporcionan una alternativa muy util para la entrevista; si embargo,
existen ciertas caractersticas que pueden ser apropiada en algunas situaciones e inapropia-
das en otra. Al igual que la entrevistas, deben disenarse cuidadosamente para una maxima
efectividad. Recabacion de datos mediante cuestionarios. Para los analistas los cues-
tionarios pueden ser la unica forma posible de relacionarse con un gran numero de personas
para conocer varios aspectos del sistema. Cuando se llevan a cabo largos estudios en varios
departamento, se puede distribuir los cuestionarios a todas las personas apropiadas para
recabar hechos en relacion al sistema. En mayor parte de los casos, el analista no vera a
los que responde; no obstante, tambien esto es una ventaja porque aplican muchas entre-
23
1. Introduccion a la Estadstica
vista ayuda a asegurar que el interpelado cuenta con mayor anonimato y puedan darse
respuestas mas honesta ( y menos respuestas prehechas o estereotipadas). Tambien las
preguntas estandarizadas pueden proporcionar datos mas confiable. Seleccion de for-
mas para cuestionarios. El desarrollo y distribucion de los cuestionarios; por lo tanto,
el tiempo invertido en esto debe utilizarse en una forma inteligente. Tambien es importante
el formato y contenido de las preguntas en la recopilacion de hechos significativos. Exis-
ten dos formas de cuestionarios para recabar datos: cuestionarios abiertos y cerrados, y se
aplican dependiendo de si los analistas conocen de antemano todas las posibles respuestas
de las preguntas y pueden incluirlas. Con frecuencia se utilizan ambas formas en los estu-
dios de sistemas. Cuestionario Abierto. Al igual que las entrevistas, los cuestionarios
pueden ser abiertos y se aplican cuando se quieren conocer los sentimientos, opiniones y
experiencias generales; tambien son utiles al explorar el problema basico, por ejemplo, un
analista que utiliza cuestionarios para estudiar los metodos de verificacion de credito, es
un medio.El formato abierto proporciona una amplia oportunidad para quienes respondan
escriba las razones de sus ideas. Algunas personas sin embargo, encuentran mas facil esco-
ger una de un conjunto de respuestas preparadas que pensar por s mismas. Cuestionario
Cerrado. El cuestionario cerrado limita las respuestas posibles del interrogado. Por medio
de un cuidadoso estilo en la pregunta, el analista puede controlar el marco de referencia.
Este formato es el metodo para obtener informacion sobre los hechos. Tambien fuerza a los
individuos para que tomen una posicion y forma su opinion sobre los aspectos importantes.
1.4.4. La observacion
Otra tecnica util para el analista en su progreso de investigacion, consiste en observar
a las personas cuando efectuan su trabajo. Como tecnica de investigacion, la observacion
tiene amplia aceptacion cientfica. Los sociologos, sicologos e ingenieros industriales utilizan
extensamente esta tecnica con el fin de estudiar a las personas en sus actividades de grupo
y como miembros de la organizacion. El proposito de la organizacion es multiple: permite
al analista determinar que se esta haciendo, como se esta haciendo, quien lo hace, cuando
se lleva a cabo, cuanto tiempo toma, donde se hace y por que se hace. El analista de
sistemas puede observar de tres maneras basicas. Primero, puede observar a una persona
o actitud sin que el observado se de cuenta y su interaccion por aparte del propio analista.
Quiza esta alternativa tenga poca importancia para el analisis de sistemas, puesto que
resulta casi imposible reunir las condiciones necesarias. Segundo, el analista puede observar
una operacion sin intervenir para nada, pero estando la persona observada enteramente
consciente de la observacion. Por ultimo, puede observar y a la vez estar en contacto con
las personas observas. La interaccion puede consistir simplemente en preguntar respecto a
una tarea especfica, pedir una explicacion, etc.
24
2. La estadstica descriptiva
If we betake ourselves to the statistical method, we do so confessing that we are unable to follow
the details of each individual case, and expecting that the effects of widespread causes, though very
different in each individual, will produce an average result on the whole nation, from a study of
which we may estimate the character and propensities of an imaginary being called the Mean
Man.
- James Clerk Maxwell. Does the Progress of Physical Science tend to give any advantage to
the opinion of necessity (or determinism) over that of the continuency of Events and the Freedom
of the Will? In P. M. Hannan (ed.), The Scientific Letters and Papers of James Clerk Maxwell
(1995), Vol. 2, 1862-1873, 818.
25
2. La estadstica descriptiva
Estadstica descriptiva proporciona resultados simples sobre la muestra y sobre las obser-
vaciones que se han hecho. Estos resultados pueden ser tanto las estadsticas cuantitativas,
es decir, promedios, o graficos visuales, para entender mas facilmente la situacion. Estos
resultados o bien puede formar la base de la descripcion inicial de los datos como parte
de un analisis estadstico mas extenso, o pueden ser suficientes en s mismas para una
investigacion concreta.
Por ejemplo, el porcentaje de bateo en beisbol es una estadstica descriptiva que resume
el rendimiento de un jugador o un equipo. Este numero es el numero de hits realizados
dividido por el numero de total de veces que se ha presentado ante el pitcher. Por ejemplo,
un jugador que tiene average de 0.33, indica que de tres veces que va al bate, conecta
un hit. El porcentaje resume o describe varios eventos discretos. Otro ejemplo tambien
es el promedio de notas de un estudiante. Este numero unico describe el comportamiento
general de un estudiante en toda la gama de experiencias de un curso.
El uso de la estadstica descriptiva tiene una historia extensa y, de hecho, la simple
tabulacion de las poblaciones y de los datos economicos fue la primera forma en que el
tema de las estadsticas aparecio. Mas recientemente, una coleccion de tecnicas se han
formulado bajo el epgrafe de analisis exploratorio de datos: un ejemplo de esta tecnica es
el grafico de caja.
Los analisis que provienen de la estadstica pueden ser de situaciones de una variable o
de dos o mas variables.
El analisis univariante
El analisis univariante implica describir la distribucion de una sola variable, incluyendo
su tendencia central (incluyendo la media, mediana y moda) y de dispersion (incluyendo
la gama de percentiles del conjunto de datos, y las mediciones de propagacion de errores,
tales como la varianza y la desviacion estandar, etc.). La forma de la distribucion tambien
puede ser descrita a traves de ndices tales como la asimetra y curtosis. Las caractersticas
de distribucion de una variable tambien se pueden representar en forma grafica o tabular,
incluyendo histogramas y diagramas de tallo y hojas.
El analisis bivariado
Cuando una muestra se compone de mas de una variable, la estadstica descriptiva
se puede usar para describir la relacion entre los pares de variables. En este caso, las
estadsticas descriptivas incluyen: las tabulaciones cruzadas y las tablas de contingencia,
representacion grafica mediante diagramas de dispersion, las medidas cuantitativas de la
dependencia, y descripciones de distribuciones condicionales. Las medidas cuantitativas de
la dependencia incluyen la correlacion (como el coeficiente r de Pearson cuando ambas
variables son continuas, o -de Spearman si uno o los dos no lo son) y covarianza (que
refleja la escala de relacion en la que las variables se miden). La estadstica descriptiva es
limitada en tanto que solo permite hacer resultados sobre las personas u objetos que se
26
2.1. Distribuciones de frecuencia
han medido. Usted no puede utilizar los datos que ha recogido para generalizar a otras
personas u objetos (es decir, utilizando datos de una muestra para inferir las propiedades
/ parametros de una poblacion). Por ejemplo, si se prueba un medicamento para combatir
el cancer y trabajo en sus pacientes, no se puede afirmar que funcionara en otros pacientes
de cancer, sin embargo, la estadstica inferencial si dara esta oportunidad.
Para empezar nuestra discusion de la metodologa que usa la estadstica descriptiva
para resolver problemas, vamos a ir, paso a paso, determinando las cosas que pueden irse
haciendo. As, una vez que se tienen los datos que describen una cierta muestra de una
cierta situacion de la que quiera averiguarse algo, lo primero es reducir los datos para
presentarlos en una forma conveniente para trabajar y empezar la discusion.
Ejemplo 2.1 Supongase que 20 estudiantes de estadstica poseen las siguientes notas a
continuacion en una escala de 0 a 100 puntos: 97, 92, 88, 75, 83, 67, 89, 55, 72, 78,
81, 91, 57, 63, 67, 74, 87, 84, 98, 46. Puede construirse una tabla de frecuencias para
cada nota, as en esta tabla tendramos unas 100 filas aproximadamente. Para resumir
espacio pudiera organizarse todo en clases tales como 90-99, 80-89, 70-79 etc. y contando
el numero de datos pertenecientes a cada intervalo. As obtendramos algo como sigue:
Note que la suma de la columnas de frecuencias es igual a 20, el numero de todos los
datos existentes.
27
2. La estadstica descriptiva
9. Marca de clase: es por lo general el valor medio de los datos de cada intervalo.
Pudiera escogerse otro criterio para definir la marca de clase, no tiene mucha impor-
tancia, sin embargo, cualquiera sea la escogencia que se haga, lo importante es que
este dato represente todo el intervalo de clase. Lo denotaremos por xM i .
li + ls
xM
i = . (2.1)
2
Ejemplo 2.2 Para la tabla de frecuencias anterior de las notas de los examenes de es-
tadstica, se tiene que: los lmites superiores de clase son: 99, 89, 79, 69, 59, y 49; los
lmites inferiores de clase son: 90, 80, 70, 60, 50, y 40. Las marcas de clase son: 94.5,
84.5, 74.5, 64.5, 54.5, y 44.5. El ancho de cada clase es 10.
1. Lo mas importantes es contar o disponer de alguna data que sea de utilidad y con la
cual se quisiera estimar algunos valores y/o caractersticas importantes de interes.
28
2.1. Distribuciones de frecuencia
2. Decidir de acuerdo al numero de datos y las caractersticas de los mismos las clases
(N ) necesarias para optimizar los resultados y agilizar los calculos seguidos.
3. Dividir el rango de la data por el numero de clases para obtener un estimado del
ancho de las clases.
Rango de la data R
Rango del intervalo = = , (2.2)
Numero de clases N
El numero de tramos en los que se agrupa la informacion es una decision que debe tomar
el analista: la regla es que mientras mas tramos se utilicen menos informacion se pierde,
pero puede que menos representativa e informativa sea la tabla. Sin embargo no todo es
tan libre de desicion. Existen algunas reglas que son reconocidas por todos y en las que
estamos de acuerdo para que todos usen una misma metodologa.
La formula de Sturges
Una manera de decidir el numero total de clases es usar lo que se conoce como la formula
de Sturges. La regla de Sturges, propuesta por Herbert Sturges en 1926, es una regla
practica acerca del numero de clases que deben considerar al elaborarse un histograma.
Este numero viene dado por la siguiente expresion:
N = 1 + log2 N, (2.4)
29
2. La estadstica descriptiva
La tabla de Ryan
Es recomendable que no sean pocos los intervalos o clases debido a que al condensar la
perdida de informacion sera importante con relacion a los datos originales. Por otra parte,
el numeron excesivo de clases, si bien produce poca perdida de la informacion no simplifica
el trabajo.
Otro criterio para determinar el numero de clases es el propuesto por Ryan en 1982
presentado en la siguiente tabla:
Cuadro 2.2.: Tabla de Ryan para la determinacion del numero de intervalos de clase.
30
2.1. Distribuciones de frecuencia
N
X
fi = f1 + f2 + ... + fN = N. (2.6)
i=1
Ejemplo 2.4 En la data presentada acerca de las notas de los examenes de estadstica
pudiera construirse la siguiente tabla de frecuencias acumuladas:
Ejemplo 2.5 Anadiremos a la tabla de frecuencias para el caso de los consumos de gaso-
lina, dos nuevas columnas para la frecuencia acumulada creciente y decreciente respectiva-
mente. Tendremos en definitiva algo como lo que sigue:
31
2. La estadstica descriptiva
fi
fri = . (2.7)
N
En vista que el numero fi es siempre menor que N , por razones mas que obvias, es
entonces inmediato que fri es un numero que puede oscilar entre los valores 0 y 1, es decir,
0 fri 1. Adicionalmente pudiera definirse la frecuencia relativa porcentual como:
Las frecuencias relativas porcentuales son usadas a menudo para hacer descripciones en
terminos de proporciones de ocurrencias de ciertas caractersticas de la data.
Note que la suma de todas las frecuencias relativas en la columna, suma aproximada-
mente 1, coincidente con el hecho de que existe una posibilidad de 100 % de que pudiera
ocurrir cualquiera de las cosas que describen la data, si pasa alguna de ellas, por su
puesto.
32
2.1. Distribuciones de frecuencia
Construccion de un histograma
1. Paso 1: Determinar el rango de los datos. Rango es igual al dato mayor menos el
dato menor.
4. Paso 4: Construir los intervalos de clases: Los intervalos resultan de dividir el rango
de los datos en relacion al resultado del PASO 2 en intervalos iguales.
5. Paso 5: Graficar el histograma: En caso de que las clases sean todas de la misma
amplitud, se hace un grafico de barras, las bases de las barras son los intervalos de
33
2. La estadstica descriptiva
clases y altura son la frecuencia de las clases. Si se unen los puntos medios de la base
superior de los rectangulos se obtiene el polgono de frecuencias.
Ejemplo 2.7 A una fabrica de envases de vidrio, un cliente le esta exigiendo que la ca-
pacidad de cierto tipo de botella sea de 13 ml, con una tolerancia de mas menos 1 ml. La
fabrica establece un programa de mejora de calidad para que las botellas que se fabriquen
cumplan con los requisitos del cliente. Al realizar el muestreo se obtienen los siguientes
datos de las capacidades de botellas al azar: 11, 12, 13, 12, 13, 14, 14, 15, 11, 12, 13, 12,
14, 15, 11, 12, 16, 16, 14, 13, 14, 14, 13, 15, 15. En este caso puede seguirse los pasos
anteriormente explicitados y entonces:
Rango = Mayor valor Menor valor = 16 11 = 5.
# de clases = 25 = 5.
5
Longitud de la clase = 5 = 1.
Se tiene entonces:
Clase Intervalo Marca de Clase Frec. Frec. Acum. Frec. Relat.
Clase I 11-12 11.5 3 3 .12
Clase II 12-13 12.5 5 8 .20
Clase III 13-14 13.5 5 13 .20
Clase IV 14-15 14.5 6 19 .24
Clase V 15-16 15.5 6 25 .24
El histograma de frecuencias se muestra a continuacion:
34
2.1. Distribuciones de frecuencia
35
2. La estadstica descriptiva
Figura 2.3.: (a) Ojiva, histograma de frecuencias acumuladas y (b) Histograma de frecuen-
cias para dos datos.
Figura 2.4.: (a) Histograma de datos apilados y (b) Diagrama circular de proporciones.
36
2.2. Medidas de Tendencia Central (MTC)
quier medida que estime el centro o medida centarl de un conjunto de datos orenados por
magnitud. Al describir grupos de observaciones, con frecuencia se desea describir el grupo
con un solo numero. Para tal fin, desde luego, no se usara el valor mas elevado ni el valor
mas pequeno como unico representante, ya que solo representan los extremos. Mas bien
que valores tpicos. Entonces sera mas adecuado buscar un valor central. Las medidas que
describen un valor tpico en un grupo de observaciones suelen llamarse medidas de ten-
dencia central. Es importante tener en cuenta que estas medidas se aplican a grupos mas
bien que a individuos. un promedio es una caracterstica de grupo, no individual. Entre las
medidas de tendencia se encuentran las siguientes.
37
2. La estadstica descriptiva
n1 m1 + n2 m2 + n3 m3 + + nk mk
X = , (2.13)
n1 + n2 + n3 + + nk
es decir, una media ponderada de todas las medias (mas adelante vera esto).
4. Si a cada uno de los resultados de un conjunto de datos xi se les suma una cantidad
b, produciendo un nuevo conjunto de datos yi , entonces,
yi = b + xi 7 y = b + x. (2.14)
Ejemplo 2.10 Veamos de manera sencilla como las propiedades anteriores son ciertas en
general. La primera de las propiedades es se demuestra haciendo que:
N N N N N N N
X X X X xi X X xi X
(xi x) = xi x = N x = N x 1 = N xN x = 0. (2.16)
N N
i=1 i=1 i=1 i=1 i=1 i=1 i=1
N
X
(xi a)2 = f (xi ), (2.17)
i=1
por tanto la primera de las condiciones para maximos y mnimos de una funcion y el
teorema fundamental del calculo, se tiene que
N
d X
f (xi ) = 0 7 2 (xi a) = 0 7 xi = a. (2.18)
dxi
i=1
38
2.2. Medidas de Tendencia Central (MTC)
Para la tercera tenemos que si tenemos conjuntos de datos xi estan divididos en varias
partes de tamanos n1 , n2 ,..., nk , entonces el total de datos es N = n1 + n2 + n3 + + nk ,
por tanto,
N N
X xi X xi
X = =
N n1 + n2 + n3 + + nk
i=1 i=1
(x1,1 + + x1,n1 ) + (x2,1 + + x2,n2 ) + + (xk,1 + + xk,nk )
=
n1 + n2 + n3 + + nk
x1,1 + x1,2 + + x1,n1 x2,1 + x2,2 + + x2,n2 xk,1 + xk,2 + + xk,nk
= + ++
n1 + n2 + n3 + + nk n1 + n2 + n3 + + nk n1 + n2 + n3 + + nk
n1 x1,1 + x1,2 + + x1,n1 n2 x2,1 + x2,2 + + x2,n2
= + +
N n1 N n2
nk xk,1 + xk,2 + + xk,nk
++
N nk
PN
n1 m1 + n2 m2 + n3 m3 + + nk mk j=1 nj mj
= = PN , (2.19)
n1 + n2 + n3 + + nk k=1 nk
Por ultimo si dado un conjunto de datos xi a los cuales se les multiplica una cierta
cantidad c, dando zi := cxi , se tiene que
N N N
X zi X czi X zi
z = = =c = z. (2.22)
N N N
i=1 i=1 i=1
Esta propiedades son muy utiles en algunos casos. Veamos algunos ejemplos.
Ejemplo 2.11 De los 80 empleados de una empresa, 60 cobran mil 30 bolvares la hora y
el resto 15 bolvares la hora. En este caso n1 = 60, n2 = 20, m1 = 30 y m2 = 15, luego la
media de todos es
n1 m1 + n2 m2 60 30 + 20 15 2100
X = = = 26, 25. (2.23)
n1 + n2 60 + 20 80
39
2. La estadstica descriptiva
2.2.2. La Mediana
La mediana es un valor el cual separa el 50 % de los valores mayores de la data del
50 % restante menor. Para calcular la mediana, lo mas sencillos es localizar todos los datos
en orden, y entonces buscar el punto medio de los mismos. Si n es impar, el valor medio
sera justamente la mediana; por el contrario si n es par, entonces la mediana sera el valor
medio de los dos valores centrales. Utilizaremos como notacion la siguiente para referirnos
a este valor, x0,5 .
Ejemplo 2.13 La mediana para el conjunto de datos de las notas del examen de fsica
puede calcularse ordenando as:
vemos el n = 11, por tanto la mediana es el dato del centro de esta distribucion ordenada,
el cual es el dato con el orden 6to, es decir x0,5 = 10.
40
2.2. Medidas de Tendencia Central (MTC)
Ejemplo 2.14 Calcular la mediana de cada uno de los ejemplos explicitados en las sec-
ciones anteriores.
2.2.3. La moda
De todos los valores de la data, la moda resulta ser el valor que aparece repetida el mayor
numero de veces en el conjunto, o lo que es lo mismo, el dato con mayor frecuencia. Pudiera
pasar que dos o varios datos se repitieran con la misma frecuencia, en este caso, se considera
llamar a la distribucion con un nombre particular en virtud de cuantos valores moda
existan, as, si solo un valor es que el tiene mayor frecuencia, entonces, a esta distribucion
se le llamara unimodal; si tiene dos modas, entonces, se le llamara bimodal y si tiene mas
se le llamara polimodal.
Ejemplo 2.15 La moda para el conjunto de datos de las notas del examen de fsica puede
calcularse ordenando as: 7, 8, 8, 10, 10, 10, 15, 15, 16, 17, 19. Vemos el dato con mayor
frecuencia es el 10, por tanto la moda es el 10.
Ejemplo 2.16 Calcular la moda de cada uno de los ejemplos explicitados en las secciones
anteriores.
En el caso de datos agrupados donde se haya construido una curva de frecuencia para
ajustar los datos, la moda sera el valor (o valores) de x correspondiente al maximo (o
maximos) de la curva, Ese valor se denota por x. La moda tambien puede deducirse de
una distribucion de frecuencias o de un histograma de frecuencias a partir de la formula
1
m = L1 + c, (2.28)
1 + 2
41
2. La estadstica descriptiva
2. Todo conjunto de datos de nivel de intervalo y de nivel de razon tiene un valor medio.
5. La media es una medida muy util para comparar dos o mas poblaciones.
9. Minimiza las desviacionesPn cuadraticas de los datos respecto de cualquier valor prefija-
2
i=1 (xi k)
do, esto es, el valor de N es mnimo cuando k = x. Este resultado se conoce
como Teorema de Konig. Esta propiedad permite interpretar uno de los parametros
de dispersion mas importantes: la varianza.
10. Si uno pudiera asumir que el polgono de frecuencia tiene una curva suave que lo re-
presenta, digamos f (x), entonces ahora los datos dejan de ser discretos y se convierten
en continuos, de este modo se demuestra que
Z x Z +
f (x)dx = f (x)dx. (2.31)
x
11. Si se suma (o se resta) una constante a cada una de las observaciones, el promedio
aritmetico se vera aumentado (o disminuido) en esa constante , es decir,
yi := xi 7 y = x . (2.32)
42
2.2. Medidas de Tendencia Central (MTC)
12. Si se multiplica (o se divide) cada una de las observaciones por una constante , el
promedio aritmetico se vera multiplicado (o dividido) por esa constante , es decir
yi := xi 7 y = x, (2.33)
xi x
yi := 7 y = . (2.34)
13. En general si los datos sufren una transformacion afn (cambios de origen y escala),
esto es, si yi = xi + entonces y = x + , donde y es la media aritmetica de los
yi , para i = 1, ..., N y y numeros reales.
Propiedades de la mediana
1. Es unica, solo existe una mediana para un conjunto de datos.
3. Puede calcularse para una distribucion de frecuencias con una clase de extremo abier-
to, si la medina no se encuentra en una clase de tal extremo.
4. Puede obtenerse para datos de nivel de razon, de intervalo y ordinal (excepto para
el nominal).
Propiedades de la moda
1. Puede determinarse para todos los niveles de datos: nominal, ordinal, de intervalo y
de razon.
3. Al igual que la mediana, puede utilizarse como medida de tendencia central para
distribuciones con clases de extremo abierto.
43
2. La estadstica descriptiva
4. Para muchos conjuntos de datos no hay valor modal porque ningun valor aparece
mas de una vez.
5. Para algunos conjuntos de datos hay mas de una moda (bimodal = que tiene dos
modas).
6. La moda, cuando los datos estan agrupados, es un punto que divide el intervalo modal
en dos partes de la forma p y c p, siendo c la amplitud del intervalo, que verifiquen
que:
p fi fi1
= , (2.35)
cp fi fi+1
siendo fi la frecuencia absoluta del intervalo modal y fi1 y fi+1 las frecuencias
absolutas de los intervalos anterior y posterior, respectivamente.
o:
x1 w1 + x2 w2 + x3 w3 + ... + xn wn
xW = . (2.37)
w1 + w2 + w3 + ... + wn
Un ejemplo es la obtencion de la media ponderada de las notas de una oposicion en
la que se asigna distinta importancia (peso) a cada una de las pruebas de que consta el
examen.
Ejemplo 2.17 Promedio de puntos del grado. Asignamos a los grados las letra con los
valores: A = 4, B = 3, C = 2, D = 1, F = 0, y entonces cada valor del grado se cuenta
segun el numero de los creditos ganados con ese grado. Calcular el grado de un estudiante
que ha ganado 12 creditos de las A, 21 creditos de los B, 5 creditos de las C y 3 creditos
de Ds.
Ejemplo 2.18 Grado del curso. El nota final en este curso se calcula segun la escala
siguiente: La preparacion cuenta con el 15 %, el 20 % por cada examen de tres que hay, y el
examen final vale el 25 %. Podemos sacar la cuenta para cada componente del grado final
44
2.2. Medidas de Tendencia Central (MTC)
con su porcentaje para calcular el grado final. Calcular la cuenta final para un estudiante
que ha anotado 95 en la preparacion, tiene notas de los examenes de 83, 94, y 77, y una
nota en el examen final es de 88.
Media geometrica
La media geometrica de una cantidad finita de numeros (digamos n numeros) es la raz
n-esima del producto de todos los numeros.
v
u n
uY
x = tn
xi = n x1 x2 xn . (2.39)
i=1
Solo es relevante la media geometrica si todos los numeros son positivos. Si uno de ellos
es 0, entonces el resultado es 0. Si hay un numero negativo (o una cantidad impar de ellos)
entonces la media geometrica es, o bien negativa o bien inexistente en los numeros reales.
En muchas ocasiones se utiliza su trasformacion en el manejo estadstico de variables con
distribucion no normal. La media geometrica es relevante cuando varias cantidades son
sumadas para producir un total.
45
2. La estadstica descriptiva
Media armonica
La media armonica resulta poco influida por la existencia de determinados valores mucho
mas grandes que el conjunto de los otros, siendo en cambio sensible a valores mucho mas
pequenos que el conjunto. La media armonica no esta definida en el caso de la existencia
en el conjunto de valores nulos.
Media generalizada
aritmetica, con m = 1,
geometrica, con m = 0,
armonica, con m = 1,
cuadratica, con m = 2.
Observese que para valores de m 0 la expresion solo tiene sentido si todos los xi 0.
Ejemplo 2.19 Calcule los valores de las medias anteriormente definidas para todas las
situaciones y conjunto de datos anteriores.
46
2.2. Medidas de Tendencia Central (MTC)
Figura 2.6.: Una distribucion simetrica. Vease la igual proporcion de barras con alturas
aproximadas a ambos lados de la media.
Simetrica
La distribucion de datos es aproximadamente de la misma forma a ambos lados de la
linea central, en donde se encuentra aproximadamente la media. La media y la mediada (y
la moda, si es modalidad) son practicamente iguales en una distribucion simetrica.
Sesgada a la derecha
Unos cuantos valores se encuentran la izquierda de la media, pero la mayora de todos los
datos se encuentran muy agrupados y acumulados a la derecha de la misma. Generalmente
la mediana es mas pequena que la media. Por lo tanto, en este caso, la media se encuentra
a la derecha de la mediana.
Sesgada a la izquierda
Unos cuantos valores se encuentran la derecha de la media, pero la mayora de todos los
datos se encuentran muy agrupados y acumulados a la izquierda de la misma. Generalmente
la mediana es mas grande que la media. Por lo tanto, en este caso, la media se encuentra
a la izquierda de la mediana.
Uniforme
Todos los datos estan igualmente representados.
47
2. La estadstica descriptiva
Figura 2.7.: Una distribucion sesgada a la derecha. Vease la desigual proporcion de barras
con alturas mayores a la derecha de la media.
Figura 2.8.: Una distribucion sesgada a la izquierda. Vease la igual proporcion de barras
con alturas mayores a la izquierda de la media.
48
2.3. Medidas de variacion
Figura 2.9.: Una distribucion uniforme. Las barras tienen aproximadamente la misma al-
tura a ambos lados de la media.
Para conseguir una vision completa y comprensiva de los datos hay que complementar
las medidas de tendencia central con las de otras propiedades de los mismos. La dispersion
o variacion de los datos intenta dar una idea de cuan esparcidos se encuentran los datos
de una cierta distribucion de datos. Por ejemplo, el grado en que los datos se parecen o
diferencian entre s. A esta propiedad se la denomina variabilidad o variacion. Entre los
indicadores de variacion mas utilizados estan la varianza y la desviacion tpica.
Las medidas de dispersion, como tambien se les conoce, muestran la variabilidad de una
distribucion, indicando por medio de un numero o estadstico si las diferentes puntuaciones
de una variable estan muy alejadas de la media. Cuanto mayor sea ese valor mayor sera la
variabilidad, cuanto menor sea, mas homogeneo sera a la media. As se sabe si todos los
casos son parecidos o varan mucho entre ellos.
Para calcular la variabilidad que una distribucion tiene respecto de su media, se calcula
la media de las desviaciones de las puntuaciones respecto a la media aritmetica. Pero la
suma de las desviaciones es siempre cero, as que se adoptan dos clases de estrategias
para salvar este problema. Una es tomando las desviaciones en valor absoluto (Desviacion
media) y otra es tomando las desviaciones al cuadrado (Varianza).
49
2. La estadstica descriptiva
2.3.1. Rango
El rango estadstico es la diferencia entre el valor mnimo y el valor maximo en un grupo
de numeros. Para averiguar el rango de un grupo de numeros: ordenamos los numeros
segun su tamano, y luego restamos el valor mnimo del valor maximo.
2.3.2. La Varianza
Es el promedio de las distancias al cuadrado desde los valores en xi hasta la media x en
una muestra de n sujetos. Se denota usualmente por s2x
(xi x)2
P
s2x = i=1 , varianza muestral, (2.44)
n1
(xi )2
P
2
sx = i=1 , varianza poblacional. (2.45)
N
La varianza es una variable estadstica que mide la dispersion de los valores respecto a
un valor central (media), es decir, la media de las diferencias cuadraticas de n puntuaciones
respecto a su media aritmetica. Esta medida en unidades distintas de las de la variable.
Por ejemplo, si la variable mide una distancia en metros, la varianza se expresa en metros
al cuadrado. La varianza tiene como valor mnimo 0.
Hay que tener en cuenta que la varianza puede verse muy influida por los valores atpicos
y no se aconseja su uso cuando las distribuciones de las variables aleatorias tienen colas
pesadas. En tales casos se recomienda el uso de otras medidas de dispersion mas robustas.
Propiedades
2 0.
La varianza es siempre positiva o 0: SX
50
2.3. Medidas de variacion
2
Propiedad distributiva: S(X+Y 2 2
) = SX + SY .
donde P
ni xi
xT = Pi . (2.49)
i ni
51
2. La estadstica descriptiva
2.3.6. Covarianza
La covarianza entre dos variables es un estadstico resumen indicador de si las puntua-
ciones estan relacionadas entre s. La formulacion clasica, se simboliza por la letra griega
sigma (xy ) cuando ha sido calculada en la poblacion. Si se obtiene sobre una muestra, se
designa por la letra sxy .
La formula suele aparecer expresada como:
Pn Pn
i=1 xi yi (Xi X)(Yi Y )
Sxy = = i=1 . (2.56)
n1 n1
52
2.3. Medidas de variacion
Este tipo de estadstico puede utilizarse para medir el grado de relacion de dos variables
si ambas utilizan una escala de medida a nivel de intervalo/razon (variables cuantitativas).
La expresion se resuelve promediando el producto de las puntuaciones diferenciales por
su tamano muestral (n pares de puntuaciones, n 1 en su forma insesgada). Este estadsti-
co, refleja la relacion lineal que existe entre dos variables. El resultado numerico fluctua
entre los rangos de +infinito a -infinito. Al no tener unos lmites establecidos no puede
determinarse el grado de relacion lineal que existe entre las dos variables, solo es posible
ver la tendencia.
Propiedades
Sxy +.
Se tiene que
> 0, Correlacion directa. Recta de regresion creciente.
Sxy = = 0, No hay correlacion. , (2.57)
< 0. Correlacion inversa. Recta de regresion decreciente.
Propiedades
El coeficiente de correlacion, r, presenta valores entre -1 y +1.
Cuando r es proximo a 0, no hay correlacion lineal entre las variables. La nube de
puntos esta muy dispersa o bien no forma una lnea recta. No se puede trazar una
recta de regresion.
53
2. La estadstica descriptiva
Cuando r es cercano a +1, hay una buena correlacion positiva entre las variables
segun un modelo lineal y la recta de regresion que se determine tendra pendiente
positiva, sera creciente.
Cuando r es cercano a -1, hay una buena correlacion negativa entre las variables
segun un modelo lineal y la recta de regresion que se determine tendra pendiente
negativa: es decreciente.
54
2.4. Medidas de simetra
a la cual podemos llamar el r-esimo momento. El primer momento, con r = 1, e sla media
aritmetica x. De esta manera puede definirse el r-esimo momento respecto de la media
como
N
(xi x)r
:= (x x)r .
X
mr := (2.62)
N
i=1
Vease que si r = 1, entonces m1 = 0, ya que hemos demostrado que las desviaciones
respecto de la media es cero. Mientras que si r = 2, entonces m2 = s2 , es decirl es el
segundo momento es la varianza.
Para evitar unidades particulares podemos definir momentos adimensionales respecto de
la media como:
mr mr
ar := r = r , (2.63)
s m2
donde s = m2 es la desviacion estandar, ya que m1 = 0 y m2 = s2 , entonces se tiene que
a1 = 0 y a2 = 1.
Las correciones de Sheppard para los momentos son como siguen:
c2
m2 (corregido) = m2 , (2.64)
12
c2 7c4
m4 (corregido) = m4 m2 + , (2.65)
2 240
los momentos m1 y m3 no requieren ninguna correccion.
55
2. La estadstica descriptiva
Figura 2.11.: Distintas posibilidades de la forma del histograma en relacion con el valor
numerico de el coeficiente de Fisher.
Curtosis
El Coeficiente de Curtosis analiza el grado de concentracion que presentan los valores
alrededor de la zona central de la distribucion. Esto se traduce en cuan puntiaguda es la
56
2.5. Teorema que envuelven cuestiones sobre la Desviacion Estandar
Para una distrubicion normal el coeficiente anterior es 3. De all que es usual encontrarse
que el Coeficiente de Curtosis viene definido por la siguiente formula:
4
P
i (xi x)
n
k = hP 3 (2.70)
x)2 2
i
i (x i
n
k = 0 (distribucion mesocurtica).
Ejemplo 2.21 Calcule los valores de los coeficientes de simetra de Fisher y de Curtosis
para todas las situaciones y conjunto de datos anteriores. Identifique los tipos de graficas
que sean.
57
2. La estadstica descriptiva
Figura 2.12.: Distintas posibilidades de la forma del histograma en relacion con el valor
numerico de el coeficiente de curtosis.
Nota: el teorema de Chebychev establece solo los lmites inferiores para en los cuales
se encuentra una determinada cantidad de datos, mientras que la regla emprica si que da
58
2.6. Medidas de Posicion
buenas aproximaciones.
Ejemplo 2.22 Haga uso de los teoremas anteriores sobre la desviacion estandar para ha-
cer un analisis de las distribuciones de las situaciones y conjunto de datos anteriores.
Cuartiles: Hay 3 cuartiles que dividen a una distribucion en 4 partes iguales: pri-
mero, segundo y tercer cuartil.
Deciles: Hay 9 deciles que la dividen en 10 partes iguales: (primero al noveno decil).
Percentiles: Hay 99 percentiles que dividen a una serie en 100 partes iguales: (pri-
mero al noventa y nueve percentil).
2.6.1. Cuartiles
Los cuartiles son los tres valores que dividen al conjunto de datos ordenados en cuatro
partes porcentualmente iguales.
59
2. La estadstica descriptiva
en una tabla de frecuencia. La formula para el calculo de los cuartiles cuando se trata de
datos agrupados es la siguiente:
N
k 4 Fk
Qk = Lk + c, para k = 1, 2, 3 (2.71)
fk
donde:
N = Numero de datos,
2.6.2. Deciles
Los deciles son ciertos numeros que dividen la sucesion de datos ordenados en diez partes
porcentualmente iguales. Son los nueve valores que dividen al conjunto de datos ordenados
en diez partes iguales, son tambien un caso particular de los percentiles. Los deciles se
denotan D1 , D2 ,..., D9 , que se leen primer decil, segundo decil, etc. Los deciles, al igual
que los cuartiles, son ampliamente utilizados. Para datos agrupados los deciles se calculan
mediante la formula.
N
k 10 Fk
Dk = Lk + c, para k = 1, 2, ..., 9 (2.72)
fk
donde:
N = Numero de datos,
60
2.6. Medidas de Posicion
N = Numero de datos,
Ejemplo 2.23 Calcule los valores de los tres cuartiles, los diez deciles y algunos de los
centiles para todas las situaciones y conjunto de datos anteriores.
Ejemplo 2.24 La tabla siguiente muestra una distribucion de frecuencias de 400 valvulas
de radio probadas en la empresa L&M. Vamos a hacer un estuido completo descriptivo de
la misma.
Vida media (horas100) Numero de tubos
3-3.99 14
4-4.99 46
5-5.99 58
6-6.99 76
7-7.99 68
8-8.99 62
9-9.99 48
10-10.99 22
11-11.99 6
Vease que aqu se presenta la tabla de los datos ya agrupados en clases, de hecho se han
dispuesto nueve clases. Esto esta aproximadamente de acuerdo con la regla de Sturges
dado que N = 1 + 3,3log(400) = 9,58. Los autores de la tabla han elegido un intervalo de
61
2. La estadstica descriptiva
clase menos, sin embargo, la tabla anterior esta bastante bien construida. Para resolver el
problema de calcular todos los estadsticos para esta situacion se tiene que podemos ampliar
la tabla anterior como sigue:
li ls xM fi fr fr % Fa xi fi (xi x) |xi x|fi (xi x)2 fi (xi x)3 fi (xi x)4 fi
3 3.99 3.49 14 0.035 3.5 14 48,93 -3.65 51.17 187.02 -683.58 2498.48
4 4.99 4.49 46 0.115 11.5 60 206.77 -2.65 122.13 324.25 -860.89 2285.68
5 5.99 5.49 58 0.145 14.5 118 318.71 -1.65 95.99 158.86 -262.91 435.13
6 6.99 6.49 76 0.19 19 194 493.62 -0.65 49.78 32.60 -21.35 13.98
7 7.99 7.49 68 0.17 17 262 509.66 0.34 23.46 8.09 2.79 0.96
8 8.99 8.49 62 0.155 15.5 324 526.69 1.34 83.39 112.15 150.85 202.89
9 9.99 9.49 48 0.12 12 372 455.76 2.34 112.56 263.95 618.97 1451.48
10 10.99 10.49 22 0.055 5.5 394 230.89 3.34 73.59 246.15 823.40 2754.27
11 11.99 11.49 6 0.015 1.5 400 68.97 4.34 26.07 113.27 492.17 2138.50
400 1 100 2860 638.14 1446.39 259.43 11781.41
A partir de la tabla anterior podemos ver que la media esta dada por
X xi fi 2860
x = = = 7,15. (2.74)
N 400
Para el calculo de la mediana, veamos que basta con calcular el cuartil 2, en este caso se
tendra que N/2 = 200, por lo que la mediana se encuentra en la clase (7;7.99), el lmite
inferior de esta clase es 7, la frecuencia acumulada de la clase que antecede a esta es 194,
mientras que la frecuencia absoluta de la clase que lo contiene es 68, el ancho de la clase
es 1.99, por tanto,
200 194
x0,5 = Q2 = 7 + 1,99 = 7,17. (2.75)
68
La moda es claramente m = 7,49, aunque usando la correccion dada para la moda dada en
la formula (2.28), se tiene que Delta1 = 68 62 = 6, Delta2 = 76 68 = 8, luego
1 8
m = L1 + c = 7,49 + 1,99 = 8,62. (2.76)
1 + 2 14
Por otro lado viendo ahora las medidas de dispersion tendremos que el rango es 7.99,
mientras que la desviacion media dara
X |xi x|fi 638,14
dM := = = 1,59. (2.77)
N 400
La varianza dara
X (xi x)2 fi
1446,39
s2 := = = 3,61, (2.78)
N 400
p
y por tanto la desviacion estandar sera de = (s2 ) = 1,90. Notese que ambas desvia-
ciones dan como resultado un valor cercano. El coeficiente de dispersion de Pearso o de
variabilidad para esta situacion es entonces p := /x = 0,26, lo que es obviamente mayor
que 0.20 y por tanto la media no es muy representativa. Por ultimo las medidas de simetra
daran como resultado
P (xi x)3 fi
N 0,64
Coef. Fisher g := = = 0,09,
P (xi x)2 fi 3/2 6,87
N
62
2.7. Problemas de final de captulo
P (xi x)4 fi
N 29,45
Coef. curtosis k := P 2 3 = 3 = 0,74.
2
(xi x) fi 13,07
N
Como conclusion general puede verse que la media de los tubos es de 715 horas, por lo que
se espera que la mayora de los tubos duren este tiempo. Ademas se conoce que 200 tubos
tienen tiempos menores o iguales a 717 horas, mientras que otros 200 tubos tienen tiempos
mayores a 717 horas. Tambien 68 tubos, lo cual representa el 17 % de todos los tubos tienen
un tiempo de 749 horas. El error cometido al tratar de estimar la duracion de los tubos
es 190 horas, lo cual representa mucho en virtud del coeficiente de variabilidad p = 0,26,
que es mayor que 0.20 y por tanto la media deja de ser representativa de los datos. Esto
quiere decir que no pueden establecerse conclusiones fiables a partir de la media, lo que
obliga a estimar con otras medidas como la mediana y algunos percentiles. La distribucion
de los datos es ademas simetrica pero ligeramente platicurtica, lo cual esta de acuerdo con
el hecho de que el error sea un poco grande para esta media.
63
2. La estadstica descriptiva
9. Hallar el segundo decil, el cuarto decil, el percentil noventa y el percentil 68 para los
datos de los decimales de .
10. Dado un conkunto de datos cuyos cuartiles son conocidos, pudiera establecerse otro
coeficiente de variacion sabiendo que dado los cuartiles Q1 y Q3 determinan que:
1 1
2 (Q1 + Q3 ) es una medida de tendencia central o promedio, mientras que 2 (Q3 Q1 )
es el rango intercuartil, es una medida de dispersion, entonces un coeficiente de
variacion pudiera estar dado por
1
2 (Q3 Q1 ) (Q3 Q1 )
VQ := 1 = , (2.80)
2 (Q3 + Q1 ) (Q3 + Q1 )
a este coeficiente pudieramos llamarlo el coeficiente de variacion cuartil. Use los datos
del problema de los decimales de para hallar el coeficiente de variacion de Pearson
(el estandar) y compare con el conseguido con la formula anterior.
11. Considere ahora los primeros 100 decimales del numero irracional e, el usado como la
base del logaritmo neperiano, para calcular el porcentaje de datos entre x , x 2
y x 3 y compare con la regla emprica para la desviacion estandar.
12. Use los datos de los problemas de los decimales de y de los decimales de e para
hallar la desviacion corregida de Sheppard y comparar con los nuevos coeficientes de
variabilidad.
13. Una compana de farmacos en La Coruna, Espana, esta probando un nuevo medica-
mento experimental para los espasmos musculares, al cual se le ha dado el nombre de
ESPASMIN. Se les suministra dicho medicamento a un grupo de pacientes de control
durante 5 das, todos ellos padecen de espasmos musculares (todos los das tienen los
musculos contraidos). Se realiza un estudio sobre el numero de das que un paciente
sufre mejora con el anterior medicamento obteniendo la tabla:
(a) Realizando el grafico adecuado y hallando los promedios (Media aritmetica, Me-
dia armonica, Media geometrica, Moda, y Mediana), indicar cual sera el que mejor
64
2.7. Problemas de final de captulo
representara los datos, (Contesta razonadamente y con el mayor detalle posible). (b)
Calcula tambien el porcentaje de pacientes que sienten mejora con el medicamento
en todos los das del tratamiento. (c) Por que no calculamos el coeficiente de varia-
cion para ver la representatividad de la media? (d) Habra que hallarlo?. (e) Calcula
el D3 , Q3 , P65 . Que significados tienen?
A aquellos pacientes que sienten mejora todos los das del tratamiento se les realiza
un estudio sobre el tiempo de reaccion del medicamento (en minutos), encontrandose
recogido los datos en la siguiente tabla:
Se pide: (a) Escribir las formulas de las diferentes medias e indicar cual de las tres te
parece mas adecuada para aplicar en este ejercicio (Razonadamente). (b) A todos los
pacientes que tardan en reaccionar mas de 35 se le aplica el medicamento comple-
mentario MUSCULING para acelerar los efectos de ESPASMIN. Hallar el numero de
pacientes a los que se le aplica este segundo medicamento. (c) Estudiar la representa-
tividad del tiempo medio de reaccion. Es representativo? Por que? (d) El Gobierno
esta pensando en introducir un medicamento con las caractersticas de ESPASMIN.
Existen en el mercado junto con este dos productos mas. El tiempo medio de reaccion
de cada uno de ellos es respectivamente 25 y 30 minutos, con una varianza de 200
y 300 minutos2 . Explica detalladamente que criterio de seleccion estadstico podra
aplicar el Gobierno. Segun el criterio anterior que medicamento sera el que pasara
a engrosar la lista de medicamentos de la Seguridad Social.
14. Se ha realizado una encuesta a 30 personas en la que se les pregunta el numero de
personas que conviven en el domicilio habitualmente. Las respuestas obtenidas han
sido las siguientes: 1, 4, 4, 1, 3, 5, 3, 2, 4, 1, 6, 2, 3, 4, 5, 5, 6, 2, 3, 3, 2, 2, 1, 8, 3,
5, 3, 4, 7, 2, 3. (a) Calcule la distribucion de frecuencias de la variable obteniendo
las frecuencias absolutas, relativas y sus correspondientes acumuladas. (b) Que pro-
porcion de hogares esta compuesta por tres o menos personas? Que proporcion de
individuos vive en hogares con tres o menos miembros? (c) Dibuje el diagrama de
barras de frecuencias y el diagrama en escalera. (d) Agrupe por intervalos de ampli-
tud 2 los valores de la variable, calcule su distribucion de frecuencias y represente el
histograma correspondiente.
15. Tenemos la siguiente informacion sobre el gasto semanal en ocio de un grupo de
estudiantes universitarios.
65
2. La estadstica descriptiva
# de Litros # de Automoviles
1-7 4
7-10 8
10-12 35
12-14 30
14-18 20
18-25 3
66
2.7. Problemas de final de captulo
Se pide: (a) Media aritmetica, mediana y moda. (b) Desviacion tpica, coeficiente
de correlacion, coeficiente de variacion de Pearson. (c) Coeficientes de asimetra de
Fisher y de Curtosis, compruebe con la forma del polgono de frecuencias. Para todo
haga siempre un analisis de los datos y los estimadores calculados.
Se pide: (a) Calcular el beneficio medio de estas 38 empresas madrilenas. (b) Cual
es el beneficio mayor de la mitad de las empresas mas modestas? (c) Determinar el
beneficio mas frecuente. (d) Estudiar la dispersion de esta distribucion a partir del
recorrido intercuartlico, desviacion tpica y coeficiente de variacion de Pearson. (e)
Estudiar la forma de esta distribucion.
20. La distribucion del importe de las facturas por reparacion de carrocera de una mues-
tra de 80 vehculos en un taller, viene dada por la tabla siguiente:
67
2. La estadstica descriptiva
21. Una empresa tena a finales de 2003 mil seiscientos cincuenta accionistas distribuidos
de la siguiente forma:
# de acciones # de accionistas
0-20 1030
20-60 380
60-100 180
100-500 50
500-1000 10
Se pide: (a) Hallar el numero medio de acciones por accionista y su desviacion tpica.
(b) Hallar la mediana. (c) Decida, con base estadstica, el grado de concentracion
de las acciones. (d) Que porcentaje del total de acciones poseen los accionistas
mayoritarios? (e) Que porcentaje de los accionistas minoritarios posee el 20 % del
total de acciones?
22. Suponga que usted es el estadstico oficial de lneas aereas KLM y que el presidente
del consejo de administracion le ha pedido que recoja y organice datos relativos a las
operaciones de vuelo. Su interes principal a partir de los valores diarios se centra en
la variable de numero de pasajeros. Ha obtenido estos datos de los diarios de vuelo
de los ultimos 50 das y ha reflejado esta informacion:
68, 71, 77, 83, 79, 72, 74, 57, 67, 69, 50, 60, 70, 66, 76, 70, 84, 59, 75, 94, 65, 72, 85,
79, 71, 83, 84, 74, 82, 97, 77, 73, 78, 93, 95, 78, 81, 79, 90, 83, 80, 84, 91, 101, 86, 93,
92, 102, 80, 69.
Usted debe analizar la situacion completa. Calcule todos los estadsiticos descriptivos,
haga graficos, calcule las medidas de posicion que crea convenientes e interesantes.
De una conclusion general de la situacion.
23. Mr. Bissey, el vicepresidente del Bank One de Indianapolis, lleva tambien un registro
de las cuentas de ahorro personal. Los saldos de las 40 nuevas cuentas que se abrieron
el ultimo mes fueron:
179.8, 1200, 293, 602.02, 1482, 579, 312.52, 100, 695.15, 287, 1175.00, 952.51, 1112.52,
783.00, 1212.43, 510.52, 1394.05, 1390.00, 783, 1101, 666.66, 780, 793.1, 501.01,
1555.10, 352, 112.17, 470.53, 415.00, 1009.1, 712.1, 1150, 890, 937.01, 711.11, 1422.03,
1595.1, 217, 1202, 1273.01. Haga el mismo analisis que para el problema anterior.
68
3. Metodos cuantitativos de analisis
predictivo, regresion
One of the main purposes of scientific inference is to justify beliefs which we entertain already;
but as a rule they are justified with a difference. Our pre-scientific general beliefs are hardly ever
without exceptions; in science, a law with exceptions can only be tolerated as a makeshift.
Scientific laws, when we have reason to think them accurate, are different in form from the
common-sense rules which have exceptions: they are always, at least in physics, either differential
equations, or statistical averages. It might be thought that a statistical average is not very
different from a rule with exceptions, but this would be a mistake. Statistics, ideally, are accurate
laws about large groups; they differ from other laws only in being about groups, not about
individuals. Statistical laws are inferred by induction from particular statistics, just as other laws
are inferred from particular single occurrences.
69
3. Metodos cuantitativos de analisis predictivo, regresion
en las relaciones que se pueden hacer cuando una o mas variables estan emparentadas a
traves de alguna(s) funcion(es) matematicas. El presente captulo esta dedicado a estas
cuestiones. Esto sera, como veremos util para resolver muchos problemas.
70
3.3. La idea de la correlacion
Figura 3.2.: Regresion lineal: Los puntos tienden a describirse a partir de una recta que los
representa aproximadamente a todos.
Ejemplo 3.2 Una persona se entrena para obtener el carnet de conducir repitiendo un
test de 50 preguntas. En la grafica se describen el numero de errores que corresponden a
los intentos realizados. Observa que hay una correlacion muy fuerte (los puntos estan casi
alineados) y negativa (la recta es decreciente).
Ejemplo 3.3 A 12 alumnos de un centro se les pregunto a que distancia estaba su resi-
dencia de la Universidad, con fin de estudiar si esta variable estaba relacionada con la nota
media obtenida. Se obtuvieron los datos que figuran en la siguiente tabla:
Distancia (en Km) 0.05 0.1 0.12 0.4 0.5 0.7 1 1.2 2.1 2.5 3 3
Nota media 8.4 4 5.7 9.1 6.3 6.7 4.3 5.4 7.8 4.5 7.2 8.1
71
3. Metodos cuantitativos de analisis predictivo, regresion
Figura 3.3.: Regresion lineal: la cantidad de intentos a medida que aumenta hace que el
numero de error disminuya.
Observamos una nube de puntos que no nos sugiere ninguna recta concreta, porque la
correlacion es practicamente inexistente, es decir, no tiene nada que ver con el rendimiento
academico la distancia del domicilio a la Universidad.
Figura 3.4.: Regresion lineal: Al parecer existe relacion entre la distancia a la que se vive
de la Universidad y la calificacion que se obtiene.
72
3.4. Encontrando la relacion. Regresion
Cuando r es cercano a +1, hay una buena correlacion positiva entre las variables
segun un modelo lineal y la recta de regresion que se determine tendra pendiente
positiva, sera creciente.
Cuando r es cercano a -1, hay una buena correlacion negativa entre las variables
segun un modelo lineal y la recta de regresion que se determine tendra pendiente
negativa: es decreciente.
Surge de modo natural la pregunta: cual es la relacion analtica que mejor se ajusta
a nuestros datos? El metodo de cuadrados mnimos es un procedimiento general que nos
permite responder esta pregunta. Cuando la relacion entre las variables X e Y es lineal, el
metodo de ajuste por cuadrados mnimos se denomina tambien metodo de regresion lineal.
En este captulo discutiremos este ultimo caso. El lector puede consultar a continuacion
73
3. Metodos cuantitativos de analisis predictivo, regresion
una discusion del caso general de cuadrados mnimos cuando el modelo es no lineal y los
datos estan afectados de errores.
La dispersion de los valores esta asociada a la fluctuacion de los valores de cada variable.
Observamos o suponemos una tendencia lineal entre las variables y nos preguntamos sobre
cual es la mejor recta:
y(x) = ax + b, (3.4)
74
3.4. Encontrando la relacion. Regresion
que es una medida de la desviacion total de los valores observados yi respecto de los
predichos por el modelo lineal ax + b. Los mejores valores de la pendiente a y la ordenada
al origen b son aquellos que minimizan esta desviacion total, o sea, son los valores que
remplazados en la ecuacion (3.4) minimizan la funcion 2 , ecuacion (3.5). Los parametros
a y b pueden obtenerse usando tecnicas matematicas que hacen uso del calculo diferencial.
Aplicando estas tecnicas, el problema de minimizacion se reduce al de resolver el par de
ecuaciones:
d 2 d 2
= 0, = 0, (3.6)
da db
de donde resulta despues de algunos calculos
P P P
N x i yi x i yi
a= , (3.7)
N x2i ( xi )2
P P
N x2i
P P P P
yi x i x i yi
b= . (3.8)
N x2i ( xi )2
P P
75
3. Metodos cuantitativos de analisis predictivo, regresion
r se aparta de estos extremos decimos que una expresion lineal no es una buena descripcion
de los datos. En este caso, conviene analizar el grafico y buscar una relacion no-lineal que
aproxime mejor la dependencia. Dado que r mide el grado de correlacion lineal entre los
datos, si, por ejemplo, los pares de puntos (X,Y) tienen una relacion tal que caen sobre
un crculo, aunque ellos estan correlacionados, tendramos r 0. Desde luego, si los pares
(X,Y) no tienen correlacion alguna entre ellos, tambien tendramos r 0.
Frecuentemente el resultado que deseamos determinar de nuestro experimento es alguno
de los parametros de la ecuacion (3.4). Por ejemplo, si deseamos determinar la constante
elastica k de un resorte a partir de mediciones de fuerzas aplicadas Fi y estiramientos xi
que le producen al resorte, k sera precisamente la pendiente de la recta que mejor se ajusta
a los datos. Otro ejemplo es la obtencion de la resistencia electrica R de un conductor, que
deseamos determinar a partir de mediciones de tension Vi y la corriente que lo atraviesa
Ii . Por consiguiente, es util disponer de un modo de estimar las incertidumbres asociadas
a la determinacion de los parametros a y b de la ecuacion (3.4).
La importancia del metodo de cuadrados mnimos reside en el hecho que nos permite
obtener valores de la desviacion estandar o sea los errores asociados a los parametros
a y b, que denotaremos con los smbolos a y b . En esta seccion solo presentamos los
resultados de utilidad mas frecuente en el laboratorio; el lector interesado podra encontrar
un tratamiento mas exhaustivo en las referencias. Las incertidumbres de los parametros
del ajuste vienen dadas por las expresiones:
s
2N
a = , (3.13)
N V ar(x)
s
2N x2i
P
b = , (3.14)
N V ar(x)
donde 2N , conocido como el valor de Chi-cuadrado por grado de libertad, viene dada por:
1
2N = 2 . (3.15)
N 2
Las incertidumbres de los parametros a y b tambien pueden escribirse en terminos del
coeficiente de correlacion r del siguiente modo:
s
a2
1
a = 1 , (3.16)
N 2 r2
b = a < x2 >, (3.17)
donde
x2i
P
2
< x >= . (3.18)
N
Estas expresiones son de mucha utilidad para estimar a y b , ya que la mayora de
las plantillas de calculo y programas de ajuste, por los regular indican los valores de los
parametros a y b que mejor ajustan los datos y el valor de r.
76
3.5. Problemas de final de captulo
Precauciones en el analisis
No siempre es suficiente admitir que dos variables siguen una relacion lineal guiandonos
por lo que muestra un grafico de los datos en escalas lineales. Menos aun si solo evaluamos
el coeficiente de correlacion del ajuste lineal que propondramos a partir de este grafico.
Un grafico de Y = X 1,1 (variables sin correlacion lineal) puede ajustarse por una recta y
obtenerse a la vez un coeficiente de correlacion lineal (inexistente) de, por ejemplo, 0,998.
Un grafico de datos experimentales de Y = X con algo de dispersion fortuita de los puntos,
podra devenir en un coeficiente de, por ejemplo, 0,995, menor que el anterior. Entre los
coeficientes hay una diferencia, apenas, del 3 por mil. Pero en un grafico log-log, la diferen-
cia de pendientes sera la que hay entre 1.1 y 1.0, lo que representa un 10 % de discrepancia
entre los exponentes de la variable X.
Estos metodos de analisis nos ensenan que los efectos de correlacion pueden estar en-
mascarados por el efecto del ruido de los datos. En ocasiones lo difcil es establecer si
existe correlacion entre las variables, aun cuando los datos provengan de fuentes limpias
que hayan producido datos con relativamente poca dispersion.
Muchas veces la decision entre dos alternativas debe hacerse usando otros criterios. Por
ejemplo, la consistencia con otros conjuntos de datos o sobre la base de consideraciones de
simetra o concordancia con teoras bien establecidas.
Ejemplo 3.4 Imaginemos un experimento donde se mide la distancia que recorre un movil
sobre una lnea recta mientras una fuerza constante actua sobre el. Esperamos que el mo-
vimiento sea uniformemente acelerado. Supongamos que el cuerpo parte del reposo, que
medimos x(t) a tiempos largos. En la figura se ven los resultados.
Si los datos experimentales se analizan sobre el grafico de escalas lineales, el ajuste por
un modelo lineal es mas que tentador. Hecho esto, se obtiene la ecuacion de la mejor recta
y un coeficiente de correlacion muy alto, r = 0,99959. Sin embargo, un modelo basado en
las ecuaciones de la dinamica dice que
1
x = at2 , (3.19)
2
donde a es la aceleracion. En la Figura estan los logaritmos de los mismos datos, de donde
se ve claramente la proporcionalidad x t2 que predice el modelo, difcilmente demostrable
a partir del grafico de la Figura. Evidentemente, el uso de una aproximacion lineal no
es buena en este problema y el mero juicio del valor del coeficiente de correlacion no es
suficiente.
77
3. Metodos cuantitativos de analisis predictivo, regresion
Figura 3.7.: Representacion de x(t) para un cuerpo que se mueve con movimiento unifor-
memente acelerado. (a) A tiempos largos no se aprecia bien la curvatura de
la curva y, dado que el coeficiente de correlacion lineal es muy cercano a la
unidad, podra suponerse que la correlacion es lineal. (b) log(x) en funcion de
log(t), de donde se deduce que la relacion no es lineal sino cuadratica.
Estudiante 1 2 3 4 5 6 7 8 9 10
Matematicas (< 30) 20 23 8 29 14 11 11 20 17 17
Fsica (< 40) 30 35 21 33 33 26 22 31 33 36
78
3.5. Problemas de final de captulo
1 2 3 4 5 6 7 8 9 10 11 12
x 4.4 6.7 10.5 9.6 12.4 5.5 11.1 8.6 14.0 10.1 7.2 7.9
y 586 565 515 532 478 560 493 533 575 490 530 515
Calcular el valor del coeficiente de correlacion del momento del producto entre x e
y. Evaluar la significacion estadstica de su valor e interpretar sus resultados.
3. El diametro de las plantas tipo lquenes mas largas que crecen en lapidas se midieron
y se presentan los resultados en la siguiente tabla
Haga un diagrama de sipersion de los puntos. Calcule las media de cada variable
as como sus varianzas y tambien el coeficiente de correlacion entre ambas variables.
Concluya.
X 11 17 26
Y 23 18 19
79
3. Metodos cuantitativos de analisis predictivo, regresion
X 11 17 26
Z
Complete la tabla anterior y evalue el coeficiente de correlacion ahora entre las varia-
2 . Establezca ademas el resultado del coeficiente de correlacion entre
bles X y Z, RXZ
2
Y y Z, RY Z Trate de hacer relaciones entre estos tres coeficientes de correlacion.
Edad 1 2 3 4 5 6 7 8
No. de bacterias 34 106 135 181 192 231 268 300
Grafique estos en un diagrama de dispersion con el x-eje con una escala de hasta 15
das, y el eje-y de hasta 410 millones. Calcular el valor de R2 y comentar sobre sus
resultados.
Algunas lecturas finales se tomaron y se les da a continuacion.
Edad 13 14 15
No. de bacterias 400 403 405
Agrega estos puntos a tu grafica y describir lo que que muestran. Calcule de nuevo
el coeficiente de correlacion con estas nuevas medidas.
Temperatura (o C) 15 20 25 30 35 40
Longitud (cm) 100 103.8 106.1 112 116.1 119.9
Dibujar un diagrama de dispersion para mostrar los datos y evaluar R2 . (L vs. T.)
Sospecha una inexactitud importante en cualquiera de los valores registrados? Si es
as, deseche cualquiera que usted considere indigno de confianza y encontrar el nuevo
valor de R2 .
80
4. Analisis Combinatorio
Whenever you can, count.
- Sir Francis Galton. Quoted in James R. Newman, Commentary on Sir Francis Galton (1956),
1169.
4.1. Introduccion
Hay muchas situaciones en las que sera demasiado difcil y / o demasiado tedioso enume-
rar todos los resultados posibles de un espacio muestral. En esta leccion, vamos a aprender
diferentes maneras de contar el numero de elementos en un espacio de muestra sin tener
que identificar los resultados especficos. Las tecnicas especficas de recuento que explora-
remos incluyen la regla de la multiplicacion, permutaciones y combinaciones. El analisis
combinatorio, o calculo combinatorio, permite enumerar tales casos o sucesos y as obtener
la probabilidad de eventos mas complejos.
La Teora Combinatoria estudia las agrupaciones que pueden ser formadas cuando se
toman todos, o algunos, de los elementos de un conjunto ...nito. Los elementos del conjunto
pueden ser de cualquier naturaleza: numeros, personas, empresas, artculos producidos por
una fabrica, etc. La Teora Combinatoria estudia especialmente el numero de agrupaciones
que pueden ser obtenidas bajo algun modo de composicion de los elementos. Para ello,
distingue basicamente tres conceptos: arreglos, permutaciones y combinaciones.
Para calcular probabilidades, muchas veces es necesario determinar la cantidad de ele-
mentos de un conjunto dado (cardinal del conjunto), o la cantidad de elementos del conjunto
integrado por las agrupaciones que podemos realizar tomando algunos de los elementos.
A menudo, la tarea de contarlos uno a uno resulta tediosa. En cambio, para poder con-
tar resulta de mucha utilidad el llamado Principio Fundamental de Conteo y los aportes
realizados por la Teora Combinatoria.
81
4. Analisis Combinatorio
Ahora, n es muy grande el proceso de calculo se vuelve tedioso y muy cargado, incluso
para una computadora, por lo que se utiliza la aproximacion de Stirling a n!:
2n+1
n! 2n 2 en . (4.2)
Ejemplo 4.1 Una familia desea adquirir una vivienda en un balneario y se le presentan
las siguientes posibilidades: casa o apartamento. A su vez, cada una puede ser de 1, 2 o
3 dormitorios. Cuantos tipos posibles de vivienda tiene a disposicion? Como existen dos
niveles, y se tienen 2 opciones para el primer nivel (casa o apartamento) y 3 opciones para
el segundo (numero de dormitorios), se puede aplicar el principio fundamental de conteo
para obtener la respuesta: 2 3 = 6 tipos de vivienda. Este resultado puede ser visualizado
claramente con la ayuda de un diagrama de arbol.
4.3. Arreglos
Dado un conjunto de n elementos, se define como arreglo de n de orden k (k < n)
a cada k-upla ordenada que puede formarse tomando k elementos diferentes entre los
n dados. Como una k-upla esta constituida por k elementos dispuestos en determinado
orden, dos arreglos seran diferentes, aun conteniendo los mismos elementos, si los mismos
se encuentran en distinto orden. Al numero de arreglos de n de orden k lo notaremos como
Ank .
Para calcular dicho numero, es posible utilizar el principio fundamental de conteo. El
primer lugar de la k-upla puede estar ocupado por uno cualquiera de los n elementos,
mientras el segundo lugar puede estar ocupado por cualquiera de los elementos que no
estan en el primer lugar, es decir por uno de los (n 1) elementos restantes, ya que los k
82
4.4. Variaciones (o arreglos) con repeticion
elementos deben ser diferentes. El tercer lugar puede estar ocupado por cualquiera de los
elementos que no estan ni en el primer lugar ni en el segundo, es decir por uno cualquiera
de los (n 2) elementos restantes. Si se continua el razonamiento, para ocupar el k-esimo
lugar se tendran (n k + 1) elementos posibles. Entonces, el numero de arreglos de n de
orden k es:
Ank = n(n 1)(n 2)...(n + k 1), (4.3)
recordando la definicion de factorial de un numero natural puede obtenerse otra formula
para el calculo del numero de arreglos:
(n k)(n k 1)..,1 n!
Ank = n(n 1)(n 2)...(n + k 1) = , (4.4)
(n k)(n k 1)..,1 (n k)!
Los arreglos reciben tambien el nombre de Variaciones.
Ejemplo 4.2 De una caja que contiene cuatro bolillas numeradas del 1 al 4 se extraen su-
cesivamente 2 sin reposicion. Cuantas extracciones diferentes pueden resultar si se supone
que interesa el orden de extraccion? Las diferentes posibilidades son todos los arreglos de
4 de orden 2, es decir todos los pares ordenados posibles: (1,2), (1,3), (1,4), (2,1), (2,3),
(2,4), (3,1), (3,2), (3,4), (4,1), (4,2), (4,3). Entonces, pueden resultar A42 = 4 (4-1) = 12
extracciones posibles.
Ejemplo 4.3 Sea el mismo conjunto A = {a, b, c, d}, cuantas ordenaciones sin repeticion
se pueden obtener? Lo que resulta es: ab, ac, ad, ba, bc, bd, ca, cb, cd, da, db, dc. Son 12
en total.
Ejemplo 4.4 Sea A = {a, b, c, d}, cuantas palabras de dos letras se pueden obtener?. Se
pide formar permutaciones u ordenaciones de 2 letras, cuando el total de letras es 4. En
este caso r = 2 y n = 4. Las palabras formadas son: aa, ab, ac, ad, ba, bb, bc, bd, ca, cb,
cc, cd, da, db, dc, dd. En total son 16.
83
4. Analisis Combinatorio
Ejemplo 4.5 Se lanza un dado tres veces. Cuantos resultados diferentes pueden obte-
nerse? Obviamente, es posible que el mismo numero salga dos o incluso tres veces. Los
resultados seran todos los arreglos con repeticion de 6 (cantidad de caras numeradas del
dado) de orden 3 (cantidad de veces que se lanza el dado). Entonces la cantidad de resul-
tados posibles sera: (AP )63 = 63 = 216.
Ejemplo 4.6 De una bolsa que contiene tres fichas numeradas del 1 al 3 se extraen sucesi-
vamente 4 con reposicion. Cuantas extracciones diferentes pueden resultar? Las diferentes
posibilidades son todos los arreglos con repeticion de 3 de orden 4, es decir todas las cuater-
nas posibles, donde los elementos no son necesariamente distintos. Uno de ellos sera, por
ejemplo: (3,2,3,1). Entonces, la cantidad de extracciones posibles sera: (AR)34 = 34 = 81.
n! n!
Pnn = Pn = = = n!. (4.6)
(n n)! 0!
Ejemplo 4.7 De cuantas maneras podemos colocar cuatro bolas de distintos colores en
fila? La primera puede ser cualquiera de las cuatro. La segunda, cualquiera de las tres
restantes, etc. La respuesta es 4 3 2 1 = 4! = 24.
Ejemplo 4.8 Cuantas palabras, con o sin sentido, pueden obtenerse usando todas las
letras de la palabra PRENSA? Como la palabra no tiene letras repetidas, la respuesta es
6! = 720. Mas adelante nos encontraremos la situacion de palabras con letras repetidas.
84
4.7. Combinaciones
4.7. Combinaciones
Dado un conjunto de n elementos, llamaremos combinacion de n de orden k (k < n) a
cada subconjunto que puede formarse tomando k elementos diferentes entre los n dados.
Como en los conjuntos no interesa el orden de los elementos, dos combinaciones seran
diferentes si contienen por lo menos algun elemento diferente.
Considerese, por ejemplo, un conjunto de n elementos diferentes del cual se extraen k
sucesivamente y sin reposicion, sin que interese el orden de extraccion, o del cual se extraen
k elementos simultaneamente. En cualquiera de estos dos casos las extracciones posibles
son todas las combinaciones de n de orden k.
El numero de combinaciones de n de orden k se denota Ckn (tambien llamado numero
combinatorio). Para calcular este numero buscaremos la relacion existente entre este y los
numeros Ank y Pk .
Ank
n n.(n 1).(n 1)...(n r + 1) n!
Cnr = = = = , (4.8)
Pk r r! r!(n r)!
o, que es lo mismo,
Pr
n
Cnr = = n. (4.9)
r r!
Ejemplo 4.10 En una bodega hay cinco tipos diferentes de botellas. De cuantas formas
se pueden elegir cuatro botellas? Exactamente de
4 4+51 (4 + 5 1)! 8!
RC5 = = = = 70. (4.11)
4 4!(5 1)! (4!)2
85
4. Analisis Combinatorio
1. Cuantos resultados distintos pueden producirse al lanzar una moneda cuatro veces
al aire.
2. Cuantos numeros de cuatro cifras distintos pueden formarse con los elementos del
conjunto 1, 2, 3, 4, 5, 6, 7.
86
4.10. Problemas de final de captulo
3. De cuantas formas diferentes se pueden repartir tres juguetes diferentes entre cuatro
ninos, de manera que ningun nino tenga mas de un juguete?
4. De cuantas formas diferentes se pueden distribuir cinco bolas distintas en tres cajas
diferentes?
5. En un examen se proponen diez preguntas; cada pregunta tiene tres respuestas posi-
bles (a,b,c). Si se contestan al azar, cuantos examenes distintos pueden producirse?
6. Se extraen sucesivamente dos bolas de una bolsa que contiene seis de diferentes
colores. Cuantos resultados distintos pueden producirse? a) Con devolucion. b) Sin
devolucion.
8. De A a B puede irse en coche, avion, moto, tren o barco. De cuantas formas posibles
se puede hacer el viaje de ida y vuelta?
2
9. Resuelve: Vm2 + Vm2 2
+ Vm4 = 98.
10. Una matrcula de coche de un pas europeo esta formada por 3 letras elegidas entre 27
y 4 numeros escogidos entre los numeros comprendidos entre 0 y 9. Cuantos coches
se pueden matricular en cada pas con este sistema?
11. Tiras dos dados diferentas al aire. Cuantos resultados distintos pueden producirse?
12. De Cuantas formas distintas pueden sentarse cuatro personas alrededor de una mesa.
14. De Cuantas formas pueden actuar en T.V. cuatro cantantes y tres humoristas.
15. De Cuantas formas distintas puede obtenerse la suma 8 al lanzar tres dados distintos
y sumar los numeros aparecidos.
16. De cuantas formas pueden ordenarse siete personas, entre las que figuran Juan y
Mara de manera que Juan y Mara esten colocados uno al lado de otro.
17. Se lanza una moneda ocho veces seguidas y se anotan sucesivamente los resultados
obtenidos en cada uno de los lanzamientos. Los ocho lanzamientos constituyen una
experiencia. En cuantas experiencias se pueden obtener cinco caras y tres cruces?
19. Cuantos numeros de cinco cifras distintas se pueden formar con los numeros 0, 1, 2,
3, 4.
87
4. Analisis Combinatorio
21. Cuantas comisiones de tres alumnos pueden formarse con los 35 alumnos de una
clase?
22. Cuantos equipos de 5 atletas se podran formar para participar en una competicion
con los doce atletas mejor preparados?
23. En una carrera en la que toman parte 8 caballos se juega una apuesta que consiste en
acertar los dos primeros sin tener en cuenta el orden. Cuantas apuestas diferentes
pueden jugarse en esa carrera?
24. De los 48 trabajadores de una empresa se presentan 6 como candidatos a ocupar dos
puestos de representante de los trabajadores. Cuantas elecciones son posibles?
25. En un salon hay 6 matrimonios. Se eligen al azar dos de esas personas: (a) Cuantas
elecciones distintas son posibles? (b) En cuantas de las elecciones posibles habra dos
hombres? (c) En cuantas habra una mujer y un hombre? (d) En cuantas de las
posibles elecciones habra un matrimonio?
26. En una lnea ferrea hay 18 estaciones. Si el tren para en todas las estaciones, cuantos
viajes distintos pueden realizarse entre ellas?
27. Un alumno puede elegir 3 entre sus 15 companeros de clase para realizar un viaje,
cuantas elecciones distintas pueden hacerse?
28. Con 5 clase de vino, cuantas mezclas se pueden formar de tres vinos?
29. De cuantas formas posibles pueden elegirse dos botellas entre 18 existentes.
30. Con seis pesas de 1, 2, 5, 10, 20 y 50 gr, cuantas pesadas posibles pueden realizarse?
88
5. Probabilidad
What the use of P [the significance level] implies, therefore, is that a hypothesis that may be true
may be rejected because it has not predicted observable results that have not occurred.
89
5. Probabilidad
90
5.2. La probabilidad
en una carta a Max Born: Jedenfalls bin ich uberzeugt, da der Alte nicht wurfelt. (Estoy
convencido de que Dios no tira el dado). No obstante hoy en da no existe un medio mejor
para describir la fsica cuantica si no es a traves de la teora de la probabilidad. Mucha
gente hoy en da confunde el hecho de que la mecanica cuantica se describe a traves de
distribuciones de probabilidad con la suposicion de que es por ello un proceso aleatorio,
cuando la mecanica cuantica es probabilstica no por el hecho de que siga procesos aleatorios
sino por el hecho de no poder determinar con precision sus parametros fundamentales,
lo que imposibilita la creacion de un sistema de ecuaciones determinista. (Tomado de
wikipedia, busque probabilidad).
5.2. La probabilidad
La probabilidad es una medida de la posibilidad de que un evento ocurra. En vista de
la caracterstica de esta medida, la cantidad que la describe es siempre un numero que se
encuentra en un intervalo [0, 1], donde o equivale a una posibilidad nula de que el evento
ocurra mientras que 1 representa el hecho de que evento va a ocurrir con toda seguridad. En
otras palabras, la medida de la probabilidad es siempre una fraccion o decimal indicando
la porcion o porcentaje de la veces que un evento ocurre.
Ejemplo 5.1 40 % de chance de que llueva, average de bateo de .313, la probabilidad de
obtener un royal flush en poker es 1:649740. La interpretacion: Un 40 % de chance de
que llueva significa que si nosotros miramos todos los das con caractersticas similares,
entonces de cada 100 das con estas condiciones, 40 de ellos seran das con lluvia; un
porcentaje de bateo de .313 significa que el jugado llegara a una base o hara un hit en el
31.3 % (.313) de todos los intentos al bateo, es decir, de cada 100 veces que batea, solo 31
veces aproximadamente hace un hit; dramaticamente se tendra que si uno quiere obtener
un royal flush en una partida de poker, entonces quizas tenga que esperar hasta 649740
manos para obtener uno.
91
5. Probabilidad
S = {1, 2, 3, 4, 5, 6} (5.2)
Ejemplo 5.4 En el caso de el experimento de lanzar un dado, uno podra definir dos
nuevos eventos del universo tomando algunos que tienen una caracterstica comun, as
Como se puede uno imaginar, existen eventos que siempre, no importa el numero de
experimentos o su situacion, ocurren, y en cambio existen otros que nunca ocurren. Los que
siempre ocurren son los eventos seguros, y los que nunca son los eventos imposibles.
Sin embargo, no todos los resultados son al azar, pues si un experimento es cualquier
proceso entonces los resultados pueden tomar cualquier tipo de valor. Por esta razon, se
define como experimento aleatorio al proceso en el que se pueden predecir con certeza
la ocurrencia de sus eventos, con excepcion del seguro o del imposible. Hay que hacer la
observacion que esta definicion habla en terminos generales y no especficamente sobre
algun experimento en particular.
92
5.4. Calculando la probabilidad de un evento
A aquella variable que esta asociada a un experimento de este tipo se le denomina va-
riable aleatoria. En cambio, a un experimento no aleatorio se le denomina experimento
determinstico.
Cuando hablamos de varios eventos dentro del mismo experimento se pueden dar va-
rios casos. Si dos o mas eventos no pueden ocurrir simultaneamente, se llaman eventos
mutuamente excluyentes, es decir, que la interseccion de ambos eventos es vaca.
Por otro lado, en ocasiones un evento o mas eventos dependen de otro evento previo, es
decir, un evento A ocurre dado que ocurrio un evento B. Si existe este tipo de relacion entre
eventos se dice que son eventos dependientes o condicionados (el evento A depende
del evento B, o el resultado del evento A esta condicionado al resultado del evento B). Por
otro lado, si no existe tal relacion entre eventos se dice que son eventos independientes.
Los criterios de dependencia o de independencia se definiran mas adelante, en terminos de
probabilidad condicional.
93
5. Probabilidad
basketball anote una cesta libre de tablero calculando el porcentaje de las veces que lo ha
hecho en el pasado con estadsticas anteriores.
Para calcular la probabilidad de esta manera podra usarse la siguiente formula:
numero de intentos en los que ocurre E
P (E) = . (5.3)
numero de intentos totales
Ejemplo 5.6 Digamos que la siguiente tabla representa las notas que obtienen en un
examenes en base a 100 puntos un grupo de estudiantes:
Notas Numero de estudiantes
90-99 4
80-90 6
70-79 4
60-69 3
50-59 2
40-49 1
Si el evento A es evento en el que un estudiante obtiene entre 90 y 99 puntos, la probabilidad
de sacar un examen al azar y que sea una nota entre 90 y 99 puntos sera:
cantidad de estudiantes que obtienen notas entre 90 y 99 puntos 4
P (A) = = = 0,20.
cantidad total de estudiantes 20
(5.4)
94
5.5. Axiomas de la probabilidad
Note que para el calculo de la probabilidad desde esta perspectiva clasica no es necesario
de ninguna manera que se tenga que confeccionar y realizar el experimento. Vasta, como se
ve, que uno tenga pleno conocimiento de el espacio muestral y sus respectivos resultados,
por su puesto.
n n
!
[ X
P (E1 E2 ... En ) = P Ei = P (Ei ). (5.8)
i=1 i=1
95
5. Probabilidad
Ejemplo 5.8 Si se tiran dos monedas normales (no trucadas), la probabilidad de que las
dos monedas caigan cara es de 41 . Esto quiere decir si alguien apuesta a que las dos monedas
no caen simultaneamente en cara, la posibilidad de ganar la apuesta es de
3
4 0,75 3
3 = = , (5.10)
1 4
0,25 1
96
5.7. Propiedades de la probabilidad de eventos no elementales
Ejemplo 5.10 En la Copa Mundial de Futbol Francia 1998 se deca que el equipo mexicano
tena una posibilidad de 1 a 75 de llegar a ser el campeon del torneo. Si se desea encontrar
la probabilidad de que el equipo mexicano llegase a ser campeon, entonces se tiene que
x 1 1
p= = = = 0,01311, (5.12)
x+y 1 + 75 76
es la probabilidad de que ocurriese el evento. J
Esto tiene la ventaja de que permite, en combinacion con el tercer axioma de la probabi-
lidad, medir la confiabilidad que tienen las opiniones de las personas sobre las posibilidades
que le asignan a algunos eventos. Esto quiere decir que el calculo de las probabilidades de
dos eventos mutuamente excluyentes a partir de las posibilidades otorgadas de manera
subjetiva resulta como un criterio de consistencia.
Ejemplo 5.11 Un criminologo piensa que las posibilidades de que en la proxima semana
la cantidad de delitos en una ciudad aumente con respecto a la anterior es de 5 a 2, de que
sea la misma cantidad de delitos es de 1 a 3 y las posibilidades de que aumente la cantidad
o sea la misma es de 7 a 4. Si se desea saber si son consistentes las probabilidades corres-
pondientes habra que hacer los calculos. Las probabilidades de que aumente la cantidad de
delitos, que sea igual la cantidad de delitos, y de que aumente o sea igual la cantidad de
delitos es, respectivamente, de
5 5 1 1 7 7
paumente = = , pigual = = , paumente = = , (5.13)
5+2 7 1+3 4 7+4 11
y dado que 57 + 14 = 2827
(como son eventos mutuamente excluyentes) no es lo mismo que
7
11 , entonces los criterios del criminologo pueden ser cuestionados.
97
5. Probabilidad
98
5.9. Probabilidad total
o, lo que es lo mismo,
P (A|B) = P (A)P (B). (5.19)
99
5. Probabilidad
1. Con los jugadores de un club de futbol se forman dos equipos para jugar un partido
de entrenamiento; entre los dos equipos se reunen 6 defensas, 8 medios, 6 delanteros
y 2 porteros. El entrenador sabe que en estos partidos, la probabilidad de que se
lesione un jugador es 0.22 si es delantero, 0.11 si es medio, 0.055 si es defensa y 0
si es portero. (a) Calcular la probabilidad de que se lesione uno cualquiera de los
jugadores en este partido. (b) Si se sabe que un jugador se ha lesionado, determinar
la probabilidad de que haya sido un defensa.
2. Tras un estudio estadstico en una ciudad se observa que el 70 % de los motoristas son
varones y, de estos, el 60 % llevan habitualmente casco. El porcentaje de mujeres que
conducen habitualmente con casco es del 40 %. Se pide: (a) Calcular la probabilidad
de que un motorista elegido al azar lleve casco. (b) Se elige un motorista al azar y se
observa que lleva casco. Cual es la probabilidad de que sea varon?
4. Los alumnos de Primero de Biologa tienen que realizar dos pruebas, una teorica y
otra practica. La probabilidad de que un estudiante apruebe la parte teorica es de
0.6, la probabilidad de que apruebe la parte practica es de 0.8 y la probabilidad de
que apruebe ambas pruebas es 0.5. (a) Son independientes los sucesos aprobar la
parte teorica y la parte practica? (b) Cual es la probabilidad de que un alumno no
apruebe ninguno de los dos examenes? (c) Cual es la probabilidad de que un alumno
apruebe solamente uno de los dos examenes? (d) Se sabe que un alumno aprobo la
teora. Cual es la probabilidad de que apruebe tambien la practica?
5. En una baraja de 40 cartas. (a) Se toman dos cartas sin reemplazamiento. Cual es
la probabilidad de que las dos sean de distinto numero? (b) Y si se toman tres cartas,
Cual es la probabilidad de que los tres numeros sean distintos?
100
5.11. Problemas de final de captulo
8. En una caja hay x bolas blancas y 1 bola roja. Al extraer de la caja dos bolas al azar
sin reemplazamiento, la probabilidad de que sean blancas es 1/2. Calcula el numero
de bolas blancas que debe tener la caja.
10. El volumen de produccion en tres plantas diferentes de una fabrica es de 500 unidades
en la primera, 1000 unidades en la segunda y 2000 en la tercera. Sabiendo que el
porcentaje de unidades defectuosas producidas en cada planta es del 1 %, 0.8 % y
2 %, respectivamente, calcula la probabilidad de que al seleccionar una unidad al
azar sea defectuosa.
11. El 20 % de los empleados de una empresa son ingenieros y otro 20 % son economistas.
El 75 % de los ingenieros ocupan un puesto directivo y el 50 % de los economistas
tambien, mientras que de los no ingenieros y no economistas solamente el 20 % ocupan
un puesto directivo. Cual es la probabilidad de que un empleado directivo elegido
al azar sea ingeniero?
12. Se toman dos barajas espanolas de 40 cartas. Se extrae al azar una carta de la primera
baraja y se introduce en la segunda baraja. Se mezclan las cartas de esta segunda
baraja y se extrae una carta, que resulta ser el dos de oros. Cual es la probabilidad
de que la primera carta extrada fuese una espada?
14. Un ladron, al huir de un polica, puede hacerlo por las calles A, B o C, con probabi-
lidades p(A) = 0, 25, p(B) = 0, 6 y p(C) = 0, 15 respectivamente. La probabilidad de
ser alcanzado por la calle es 0,4 si huye por la calle B es 0,5 y si huye por la calle C
es 0,6. (a) Calcule la probabilidad de que la polica alcance al ladron. (b) Si el ladron
ha sido alcanzado, cual es la probabilidad de que haya sido en la calle A?
15. De una urna con 4 bolas blancas y 2 negras se extraen al azar, sucesivamente y sin
reemplazamiento, dos bolas, (a) Cual es la probabilidad de que las bolas extradas
101
5. Probabilidad
sean blancas? (b) Si la segunda bola ha resultado ser negra, cual es la probabilidad
de que la primera tambien lo haya sido?
16. Sean A y B dos sucesos de un experimento aleatorio tales que: P (A) = 0, 6, P (B) =
0, 5 y P (Ac B c ) = 0, 7. (a) Calculese P (A B) y razonese si los sucesos A y B son
independientes. (b) Calculese P (A B).
18. Una urna contiene dos monedas de plata y tres de cobre. Otra contiene cuatro mo-
nedas de plata y tres de cobre. Si se elige una urna al azar y se extrae una moneda
al azar. Cual es la probabilidad de que la moneda extrada sea de plata?.
19. Un dado esta trucado de manera que son iguales las probabilidades de obtener 2, 4
o 6, tambien son iguales las probabilidades de obtener 1, 3 o 5 y la probabilidad de
obtener 2 es doble que la probabilidad de sacar 1. Deducir razonadamente cual es la
probabilidad de que al lanzar el dado dos veces se obtenga una suma igual a 7.
20. Una experiencia aleatoria consiste en preguntar a tres personas distintas, elegidas
al azar, si son partidarias o no de consumir un determinado producto. (a) Escribe
el espacio muestral asociado a dicho experimento, utilizando la letra s para las res-
puestas afirmativas y n para las negativas. (b) Que elementos del espacio muestral
anterior constituyen el suceso A:={al menos dos de las personas son partidarias de
consumir el producto}? (c) Describe el suceso contrario de A:={mas de dos personas
son partidarias de consumir el producto}.
21. En un supermercado el 70 % de las compras las realizan las mujeres; de las compras
realizadas por estas, el 80 % supera las 600 BsF, mientras que de las compras reali-
zadas por hombres solo el 30 % supera esa cantidad. (a) Elegido un ticket de compra
al azar, cual es la probabilidad de que supere las 600 BsF? (b) Si se sabe que el
ticket de compra no supera las 600 BsF cual es la probabilidad de que la compra
haya sido hecha por una mujer?
22. Se extrae una carta de una baraja espanola de 40 cartas. Si la carta extrada es un rey,
nos dirigimos a la urna I; en caso contrario a la urna II. A continuacion, extraemos
una bola. El contenido de la urna I es de 7 bolas blancas y 5 negras y el de la urna II
es de 6 bolas blancas y 4 negras. Halla: (a) La probabilidad de que la bola extrada
sea blanca y de la urna II. (b) La probabilidad de que la bola extrada sea negra.
102
5.11. Problemas de final de captulo
23. En una ciudad el 55 % de los habitantes consume pan integral, el 30 % consume pan
de multicereales y el 20 % consume ambos. Se pide: (I) Sabiendo que un habitante
consume pan integral, cual es la probabilidad de que coma pan de multicereales? (II)
Sabiendo que un habitante consume pan de multicereales, cual es la probabilidad
de que no consume pan integral? (III) Cual es la probabilidad de que una persona
de esa ciudad no consuma ninguno de los dos tipos de pan?
25. Tengo dos urnas, dos bolas blancas y dos bolas negras. Se desea saber como debo
distribuir las bolas en las urnas para que, al elegir una urna al azar, sea maxima la
probabilidad de obtener una bola blanca. La unica condicion exigida es que cada una
tenga al menos una bola.
26. Se estima que solo un 20 % de los que compran acciones en Bolsa tienen conocimientos
bursatiles. De ellos el 80 % obtienen beneficios. De los que compran acciones sin
conocimientos bursatiles, solo un 10 % obtienen beneficios. Se desea saber: (a) El
tanto por ciento de los que compran acciones en Bolsa que obtienen beneficios. (b)
Si se elige al azar una persona que ha comprado acciones en Bolsa y resulta que ha
obtenido beneficios, cual es la probabilidad de que tenga conocimientos bursatiles?
27. El equipo directivo de cierta empresa del sector de hostelera esta constituido por 25
personas de las que un 60 % son mujeres. El gerente tiene que seleccionar a una per-
sona de dicho equipo para que represente a la empresa en un certamen internacional.
Decide lanzar una moneda: si sale cara, selecciona a una mujer y si sale cruz, a un
hombre. Sabiendo que 5 mujeres y 3 hombres del equipo directivo no hablan ingles,
determina, justificando la respuesta, la probabilidad de que la persona seleccionada
hable ingles.
28. Dos personas piensan cada una de ellas un numero del 0 al 9. Calcula la probabilidad
de que las dos personas no piensen el mismo numero.
29. Dos sucesos tienen probabilidades 0,4 y 0,5. Sabiendo que son independientes, calcula
la probabilidad de que no suceda ninguno de los dos.
31. Se escuchan tres discos y se vuelven a guardar al azar. Cual es la probabilidad de que
al menos uno de los discos haya sido guardado en el envoltorio que le corresponda?
103
5. Probabilidad
32. Se considera una celula en el instante t=0. En el instante t=1 la celula puede: bien
reproducirse, dividiendose en dos, con probabilidad 3/4, o bien morir con probabi-
lidad 1/4. Si la celula se divide, entonces en el tiempo t=2 cada uno de sus dos
descendientes puede tambien subdividirse o morir, con las mismas probabilidades
que antes, independientemente uno de otro. (a) Cuantas celulas es posible que haya
en el tiempo t=2? (b) Con que probabilidad?
33. Una caja contiene 10 bolas blancas, 5 negras y 5 rojas. Se extraen dos bolas conse-
cutivamente de la caja. Calcula la probabilidad de que las dos sean blancas si: (a)
Antes de extraer la segunda bola se vuelve a meter la primera en la caja. (b) La
segunda bola se extrae sin haber metido la primera en la caja.
35. En una oficina el 70 % de los empleados son asturianos. De entre los asturianos,
el 50 % son hombres, mientras que de los no asturianos, solo son hombres el 20 %.
Que porcentaje de empleados no asturianos son mujeres? (a) Calcula la probabilidad
de que un empleado de la oficina sea mujer. (b) Fernando trabaja en dicha oficina.
Cual es la probabilidad de que sea asturiano?
38. Un dado ha sido trucado de manera que la probabilidad de sacar un numero par es el
doble que la de sacar un numero impar. Se lanza el dado y se pide: La probabilidad de
obtener un numero par (a) Si, a la vez, se lanza un dado no trucado, la probabilidad
de obtener un numero par y un numero impar. (b) Si, a la vez, se lanza un dado no
trucado, la probabilidad de obtener, al menos, un numero impar.
104
6. Variable aleatoria y funcion de
distribucion
Whether statistics be an art or a science... or a scientific art, we concern ourselves little. It is the
basis of social and political dynamics, and affords the only secure ground on which the truth or
falsehood of the theories and hypotheses of that complicated science can be brought to the test.
6.1. Introduccion
En este tema se tratara de formalizar numericamente los resultados de un fenomeno
aleatorio. Por tanto, una variable aleatoria es un valor numerico que corresponde a un
resultado de un experimento aleatorio. Algunos ejemplos son: numero de caras obtenidas
al lanzar seis veces una moneda, numero de llamadas que recibe un telefono durante una
hora, tiempo de fallo de una componente electrica, etc.
El estudio que se hara en este tema sera analogo al que se hace con las variables es-
tadsticas en descriptiva. As retomaremos el concepto de distribucion y las caractersticas
numericas, como la media y varianza. El papel que all jugaba la frecuencia relativa lo
juega ahora la probabilidad. Esto va a proporcionar aspectos y propiedades referentes a
fenomenos aleatorios que permitiran modelos muy estudiados en la actualidad.
En este tema se introduce el concepto de variable aleatoria y se estudian los distintos
tipos de variables aleatorias a un nivel muy general, lo que nos permitira manejar los
modelos estadsticos para describir los posibles resultados de un experimento aleatorio y
asignar probabilidades a los diferentes sucesos que nos interesen.
Tanto en la vida cotidiana como en el campo cientfico estamos habituados a observar
fenomenos aleatorios cuyos resultados se expresan mediante numeros; por ejemplo el vol-
taje de salida en una fuente de alimentacion, el numero de personas en la cola del cine, la
velocidad de conexion a la red, etc. Incluso en problemas de naturaleza puramente cuali-
tativa es muy frecuente recurrir a la codificacion numerica; en situaciones tales como: el
diagnostico de un paciente sano o enfermo, preguntas del tipo estudias o trabajas?, etc.,
las respuestas son usualmente codificadas con 0 y 1, aunque en realidad podra emplearse
cualquier pareja de smbolos con igual precision.
105
6. Variable aleatoria y funcion de distribucion
X R, X(S) X (6.1)
Ejemplo 6.1 Consideramos un experimento aleatorio de lanzar una moneda al aire tres
veces y anotamos el resultado. Se define la variable aleatoria X como numero de caras
aparecidas en los tres lanzamientos. Calcular el espacio muestral y comprobar que es una
variable aleatoria.
La solucion es la siguiente, el espacio muestral esta dado por E = (C, X, X), (X, C, X), (X, X, C), (C, C, X
en donde
Eventos Valor de la v.a.
X0
(X, X, X) 0X1
(C, C, C)(X, C, X)(X, X, C) 1X2
(C, C, X)(C, X, C)(X, C, C) 2X3
(C, C, C) X>3
En general emplearemos las siglas v.a. para referirnos a una variable aleatoria.
Para caracterizar la distribucion de probabilidad inducida por una v.a. X definiremos
una nueva funcion mas sencilla de manejar:
Definicion. (Funcion de distribucion). Dada la v.a. X se denomina funcion de dis-
tribucion asociada a X, a la funcion F : R 7 R definida por:
2. F () = lmn7 P r[X t] = 0.
106
6.3. Variables discretas
P r(x h X x + h)
f (x) = lm . (6.4)
h70+ 2h
De este modo, surge el concepto de funcion de densidad como la funcion lmite a la cual
se aproxima el histograma. As, la probabilidad de un intervalo (a, b) sera el area limitada
por esta funcion de densidad, las rectas x = a, x = b y el eje de abscisas.
Aunque, de acuerdo con la anterior, la probabilidad de que la variable aleatoria tome un
valor concreto es igual a cero, tiene sentido analizar lo denso que esta repartida la proba-
bilidad en torno a ese valor.
107
6. Variable aleatoria y funcion de distribucion
En general, cualquier funcion real que verifica las propiedades anteriores es la funcion
de densidad de alguna v.a. continua X.
La funcion de distribucion de una v.a. continua X se expresa a partir de la funcion de
densidad como: Z t
F (t) = f (x)dx, x R (6.7)
Esta funcion es continua.
Por lo tanto, la funcion de densidad de una v.a. continua es la derivada de su funcion de
distribucion, f (x) = F 0 (x).
108
6.6. Inecuacion de Chevyshev
Ejemplo 6.2 Una v.a. Y cuya funcion de densidad de probabilidad esta dada por la ex-
presion: f (y) = exp(y), cuando y 0 y cero para cualquier otro valor. Hallar el valor
esperado de dicha funcion de densidad de probabilidad.
xi SX
Z
2 = V ar(X) = E (X )2 = (x )2 f (x)dx,
si X es continua (6.14)
Ejemplo 6.3 Una v.a. Y cuya funcion de densidad de probabilidad esta dada por la expre-
sion: f (y) = exp(y), cuando y 0 y cero para cualquier otro valor. Hallar la varianza
de dicha funcion de densidad de probabilidad.
109
6. Variable aleatoria y funcion de distribucion
seguir un cierto patron que obliga a que no todo tipo de funcion puede ser considerada
para este tipo de representacion. En este orden de ideas, el conocimiento del valor esperado
y la varianza proporciona informacion adicional acerca de la forma de estas funciones y,
en consecuencia, de las probabilidades asignadas a diversos tipos de eventos. Este tipo
de informacion llega hasta el extremo de indicar topes en el valor de la probabilidad de
ocurrencia de ciertos eventos para cualquier tipo de variable aleatoria.
La inecuacion de Chevyschev permite conocer un lmite al valor que puede tener la
probabilidad de un cierto tipo de evento independientemente de la forma de su funcion de
densidad de probabilidades.
Definicion: Sea una variable aleatoria X de la cual solo conocemos su valor esperado
E(X) y su varianza V (X). Sea un evento del tipo kX E(X)k kX , entonces la pro-
babilidad de ocurrencia de este evento tiene un valor mnimo que es una funcion del valor
real positivo k y no depende de la forma de la funcion de densidad de probabilidades de
X.
1
P kX E(X)k kX > 1 2 (6.19)
k
Notas:
1. Se lanza al aire una moneda tres veces. Calcula la funcion de masa y la de distribucion
de X: No de cruces obtenido.
3. Un PEQ consta de 10 preguntas tipo test, cada una de ellas con 4 posibles respues-
tas. Cada pregunta contestada correctamente es un punto. Cada fallo descuenta 0,5
puntos. Como sera la calificacion del alumno si este contesta a todas al azar.
110
6.7. Problemas de final de captulo
6. Los retrasos en las entregas de los pedidos en una fabrica respecto de la planificacion
establecida siguen una variable aleatoria cuya funcion de densidad es:
2 1
f (x) = , si 1 x 1. (6.22)
1 + x2
Cual es el retraso medio de un pedido y la desviacion tpica. Propone un intervalo
de tiempos de retraso, centrado en el retraso medio, para el 90 % de los casos. Sol.
= 0, 2 = 2,28, (-0,84; 0,84)
7. Una fabrica de coches vende de media, al ano, 50 unidades de su modelo mas caro,
con una desviacion tpica de 10. Cuantos coches de este modelo debe de tener dis-
ponibles si se quiere garantizar la demanda al momento de estos vehculos, con una
probabilidad del 95 %? Sol. 95 coches
111
7. Distribuciones de Probabilidad Binomial y
Normal
If we betake ourselves to the statistical method, we do so confessing that we are unable to follow
the details of each individual case, and expecting that the effects of widespread causes, though very
different in each individual, will produce an average result on the whole nation, from a study of
which we may estimate the character and propensities of an imaginary being called the Mean
Man.
- James Clerk Maxwell. Does the Progress of Physical Science tend to give any advantage to
the opinion of necessity (or determinism) over that of the continuency of Events and the Freedom
of the Will? In P. M. Hannan (ed.), The Scientific Letters and Papers of James Clerk Maxwell
(1995), Vol. 2, 1862-1873, 818.
7.1. Introduccion
Estudiaremos en este tema dos de las distribuciones de probabilidad mas importantes y
que son imprescindibles a la hora de adentrarnos en el estudio de la inferencia estadstica.
La distribucion binomial es uno de los primeros ejemplos de las llamadas distribuciones
discretas (que solo pueden tomar un numero finito, o infinito numerable, de valores). Fue
estudiada por Jakob Bernoulli (Suiza, 1654-1705), quien escribio el primer tratado impor-
tante sobre probabilidad, Ars conjectandi (El arte de pronosticar). Los Bernoulli formaron
una de las sagas de matematicos mas importantes de la historia. La distribucion normal
es un ejemplo de las distribuciones continuas, y aparece en multitud de fenomenos sociales
y cientficos. Fue estudiada, entre otros, por J.K.F. Gauss (Alemania, 1777-1855), uno de
los mas famosos matematicos de la historia. La grafica de la distribucion normal en forma
de campana se denomina Campana de Gauss.
113
7. Distribuciones de Probabilidad Binomial y Normal
Para calcular la probabilidad que nos piden, fijemonos en que nos dicen que sacamos
3 cincos y por lo tanto tenemos 3 exitos y 4 fracasos, de cuantas maneras pueden darse
estas posibilidades?. Podramos sacar 3 cincos en las 3 primeras tiradas y luego 4 tiradas
sin sacar cinco, es decir: EEEFFFF. Pero tambien podramos sacar EFEFFFE, es decir
que en realidad estamos calculando de cuantas maneras se pueden ordenar 4 fracasos y
3 exitos. Recordando las tecnicas combinatorias, este problema se reduce a calcular las
permutaciones con elementos repetidos:
7! 765
P73,4 = = = 35 formas (7.1)
3!4! 321
1 5
Y por tanto, como p(E) = 6 y tengo 3 exitos y p(F ) = 6 y tengo 4 fracasos:
1 1 1 5 5 5 5
p(tener 3 exitos y 4 fracasos) = 35 = 0,0781 (7.2)
6 6 6 6 6 6 6
Formalizando lo obtenido, en una variable binomial con 7 repeticiones y con probabilidad
de exito 16 , la probabilidad de obtener 3 exitos es 0.0781, y lo expresaramos:
1
Bin 7; , entonces p(x = 3) = 0,0781 (7.3)
6
Como repetir este proceso sera bastante penoso en la mayora de los casos, lo mejor es
recurrir a la siguiente formula que expresa la probabilidad de obtener cierto numero de
exitos en una distribucion binomial.
114
7.2. La distribucion binomial o de Bernoulli
Ejemplo 7.1 Antes tenamos Bin 7; 16 , y queramos calcular p(X = 3) (obtener 3 exi-
Ejemplo 7.2 Supongamos que la probabilidad de que una pareja tenga un hijo o una hija
es igual. Calcular la probabilidad de que una familia con 6 descendientes tenga 2 hijos. En
este caso Exito = E = tener hijo y p(E) = 0,5. F racaso = F = tener hija y p(F ) = 0,5.
Estamos por tanto ante una binomial Bin(6; 0,5) y nos piden p(X = 2). Si aplicamos la
formula es:
6
p(x = 2) = 0,52 0,54 = 0,2344. (7.6)
2
115
7. Distribuciones de Probabilidad Binomial y Normal
Ejemplo 7.3 Por ejemplo en el caso anterior, Bin(6; 0,5) , p(X = 2), la columna p = 0,5
es la ultima, y cuando n = 6 y k = 2 encontramos 0.2344, el valor que habamos calculado.
El caso en que p > 0,5, no se encuentra tabulado. La razon es bien sencilla. Si p > 0,5,
entonces q < 0,5 y basta intercambiar los papeles de exito y fracaso para que podamos
utilizar la tabla.
Ejemplo 7.4 La probabilidad de que un alumno de 2do de Bachillerato apruebe las Ma-
tematicas es de 0.7. Si consideramos un grupo de 8 alumnos, cual es la probabilidad de
que cinco de ellos aprueben las Matematicas?. Si exito = aprobar y fracaso = suspender,
entonces p = 0,7 y q = 0,3. Tenemos, por tanto, una Bin(8; 0,7). Nos piden calcular
p(X = 5), que no se puede calcular mediante las tablas porque p = 0,7 y solo tenemos has-
ta p = 0,5. Por tanto si intercambiamos exito = suspender y fracaso = aprobar entonces
p = 0,3, q = 0,7, es decir la nueva binomial es Bin(8; 0,3) y nos piden que aprueben 5 de
8, es decir que suspendan 3 de 8 o lo que es lo mismo, que tengamos 3 exitos, p(X = 3), y
buscando en la tabla es p(X = 3) = 0,2541. Tambien, desde luego podramos haber utilizado
la formula desde el principio, utilizar la Bin(8; 0,7) y olvidarnos de tablas para hacer:
8
p(x = 5) = 0,75 0,33 = 0,254. (7.8)
5
Hemos de tener en cuenta que para la distribucion binomial, en las tablas solo se ad-
miten valores hasta n = 10 (10 repeticiones del experimento). Para valores de n > 10,
inevitablemente hemos de utilizar la formula.
116
7.3. La distribucion Normal
Ejemplo 7.5 Los alumnos de cierta clase se encuentran en una proporcion del 67 % que
estudian ingles y el resto frances. Tomamos una muestra de 15 alumnos de la clase, calcu-
lar: a) Probabilidad de que al menos encontremos tres alumnos de ingles. b) Probabilidad de
que los 15 alumnos estudien ingles. c) Probabilidad de que estudien ingles entre 7 y 10 alum-
nos. Si exito = estudiar ingles, p = 0,67 y fracaso = estudiar frances, q = 1 0,67 = 0,33.
Manejamos por tanto una Bin(15; 0,67). Para la parte a), se tendra
p(X > 3) = p(X = 3) + p(X = 4) + p(X = 5) + p(X = 6) + ... + p(X = 15). (7.10)
Una opcion es calcular estas 13 probabilidades y sumarlas. Como hay que aplicar la formula
para calcular cada una, la tarea se puede hacer bastante larga. Otra opcion, mas sencilla,
es pasar al complementario. El complementario de encontrar al menos 3 alumnos de ingles
es encontrar como mucho 2 alumnos de ingles, p(X 2). Es decir,
p(X > 3) = 1 p(X < 3) = 1 p(X 2) = 1 (p(X = 0) + p(X = 1) + p(X = 2)) (7.11)
117
7. Distribuciones de Probabilidad Binomial y Normal
todos ellos tienen en comun que se distribuyen normalmente. Que quiere decir esta expre-
sion?. Pues, por ejemplo, si hacemos una estadstica para conocer la altura de 1400 mujeres
y representamos los resultados en un diagrama de barras, obtenemos:
Las graficas de este tipo son muy corrientes: Hay pocos individuos en los extremos y un
aumento paulatino hasta llegar a la parte central del recorrido, donde esta la mayora de
ellos.
Definicion: Diremos que una distribucion de probabilidad sigue una distribucion normal
de media x y desviacion tpica , y lo representaremos por N (x; ) cuando la representacion
grafica de su funcion de densidad es una curva positiva continua, simetrica respecto a la
media, de maximo en la media, y que tiene 2 puntos de inflexion , situados a ambos lados
de la media (x y x + respectivamente) y a distancia de ella, es decir de la forma:
Dependiendo de los valores que tomen x y , la grafica de esta funcion puede ser mas
o menos alargada, achatada, etc..., pero en cualquier caso siempre tiene las mismas condi-
ciones de simetra, continuidad, etc, resenadas anteriormente.
El concepto de funcion de densidad introducido anteriormente no se estudiara con pro-
fundidad. Baste decir que la funcion de densidad determina la forma de cada distribucion
de probabilidad. En el caso de la distribucion normal de parametros x y , dicha funcion
viene dada por:
1 (xx)2
f (x) = e 22 (7.14)
2 2
118
7.3. La distribucion Normal
1
Figura 7.2.: Distribucion normal N (x; ). El maximo esta en (x, ).
2 2
p(Z k) = Area encerrada bajo la curva normal N (0, 1) desde hasta k (7.16)
119
7. Distribuciones de Probabilidad Binomial y Normal
Buscar la parte entera y las decimas en la primera columna (en este caso 2.7).
Si queremos calcular una probabilidad de un valor mayor que 3.99, basta fijarse en que
las probabilidades correspondientes a valores tales como 3.62 y mayores ya valen 0.9999
(practicamente 1). Por eso, para estos valores mayores que 3.99, diremos que la probabilidad
es aproximadamente 1. As: p(Z 5,62) 1 aunque no aparezca en la tabla.
Por otra parte, fijemonos en que en este tipo de distribuciones no tiene sentido plantearse
probabilidades del tipo p(Z = k), ya que siempre valen 0, al no encerrar ningun area. Por
tanto, si nos pidiesen p(Z = 3,2), basta decir que p(Z = 3,2) = 0.
Este tipo de distribuciones en las cuales la probabilidad de tomar un valor concreto es
0 se denominan distribuciones continuas, para diferenciarlas de otras en las que esto no
ocurre, como por ejemplo la binomial, que es una distribucion discreta.
As, al pasar al complementario, si tenemos Z > k, su complementario sera Z < k, pero
como incluir k no influye en la probabilidad, al calcular probabilidades podemos escribir:
120
7.3. La distribucion Normal
Figura 7.6.: p(Z k). Las probabilidades de valores negativos no estan tabuladas.
Si k es positivo y queremos calcular p(Z > k), es decir el area rayada: entonces,
por simetra p(Z > k) = p(Z k):
121
7. Distribuciones de Probabilidad Binomial y Normal
Figura 7.7.: p(Z k) = p(Z > k). La simetra permite reducir este caso al anterior.
Figura 7.9.: p(Z > k) = p(Z k). La simetra permite reducir este caso al que ya
esta tabulado.
122
7.3. La distribucion Normal
Ejemplo 7.11 Calcular p(Z = 2), p(Z 2), p(Z > 2), p(Z 2), p(Z > 2), p(2
Z 2), p(0,81 Z 1,33).
Ejemplo 7.12 Las estaturas de 600 soldados se distribuyen de acuerdo a una distribucion
normal de media 168 y desviacion tpica 8 cm. Cuantos soldados miden entre 166 y 170
cm?. Sea X la distribucion de los soldados , X es una N (168, 8). Nos piden p(166
X 170). Utilizando el resultado anterior, primero restamos x = 168 en la desigualdad:
p(166 X 170) = p(166 168 X 168 170 168) = p(2 X 168 2).
Y ahora dividimos entre = 8, con lo que acabamos de tipificar: p(166 X 170) =
p(2 X 168 2) = p 82 X168 8 28 . Llamando a X168
8 = Z, esta ya es normal
N (0, 1) y se encuentra en las tablas: p(166 X 170) = p(0,25 Z 0,25) = p(Z
0,25) p(Z 0,25) = (tablas) = 0,5987 0,4013 = 0,1974, (pues p(Z 0,25) = p(Z >
0,25) = 1 p(Z 0,25) = 1 0,5987 = 0,4013).
Ejemplo 7.13 En una distribucion N (22, 5), calcula: p(X 27), p(X > 27), p(X > 125),
p(15 X 20), p(17 X 30).
123
7. Distribuciones de Probabilidad Binomial y Normal
Ejemplo 7.14 Los pesos de 60 soldados siguen una distribucion N (67, 5). Calcula la pro-
babilidad de que el peso sea: a) mayor de 80 kg, b) 50 kg. o menos, c) menos de 60 kg, d)
70 kg, e) entre 60 y 70 kg inclusive.
Si el valor esta entre dos valores, pero muy cercano a uno de ellos, directamente
tomamos este valor, por ejemplo: p(Z k) = 0,7970. El valor mas cercano es 0.9767
(que corresponde a 0.83) y como el valor buscado esta muy cerca de el, entonces
directamente k = 0,83.
Si la distribucion no es normal N (0; 1), sino N (x; ), tendremos que tipificar previamente.
Ejemplo 7.18 De una variable normal N (x; ) se sabe que p(X 7) = 0,9772 y p(X
6,5) = 0,8413. Calcular: a) x y . b) p(5,65 X 6,25). c) El numero k tal que p(X >
k) = 0,3.
124
7.4. Relacion entre la distribucion binomial y la distribucion normal
125
7. Distribuciones de Probabilidad Binomial y Normal
Por contra, si debiesemos calcular p(X k), con X binomial, fijemonos que ahora k
SI esta incluido en la probabilidad y por tanto al aproximar por la normal Y deberamos
calcular p(Y k + 0,5).
Comprender estos dos hechos es fundamental para realizar bien la correccion por conti-
nuidad al aproximar una distribucion binomial por una normal.
q
Ejemplo 7.19 En el caso anterior, x = np = 100 6 = 16,67 y = npq = 500
36 = 3,73.
De modo que, como n > 30, np = 16,67 > 5 y nq = 83,33 > 5, se pude aproximar la
binomial por la normal, es decir:
1
X 7 Bin 100; Y 7 N (16,67; 3,73) (7.19)
6
Y 16,67
Entonces: p(20 X 33) p(200,5 Y 33+0,5) = p 19,516,673,73 3,73 33,516,67
3,73 =
p(0,89 Z 4,51) = p(Z 4,51) p(Z 0,89) 1 0,8133 = 0,1867. Notemos que en
el paso senalado por (*) hemos cambiado X(binomial) por Y (normal) y se ha realizado la
correccion por continuidad.
126
8. Estimacion puntual e intervalos de
confianza. Inferencia estadstica.
To call in the statistician after the experiment is done may be no more than asking him to
perform a postmortem examination: he may be able to say what the experiment died of.
- Sir Ronald Aylmer Fisher. Indian Statistical congress, Sankhya, c.1938.
8.1. Introduccion
La razon por la que llevamos a cabo una investigacion estadstica es para obtener una
comprension de los fenomenos en una poblacion de estudio. Por ejemplo, si uno quisiera
tratar de averiguar si un cierto tratamiento basado en una cierta medicina es eficaz en el
tratamiento de una cierta enfermedad, uno debera levar a cabo un experimento para saber
esto. Sn embargo, dos cosas pasan. En primer lugar no es etico distribuir a una poblacion
el medicamento sin tener conclusiones acerca de su funcionamiento y consecuencias. Esto
no es parte de la estadstica, aqu no nos preocupamos por eso. En segundo lugar no es
factible distribuir un farmaco experimental para toda la poblacion, la cual pudiera ser
mucha cantidad. En lugar de esto, uno pudiera estudiar un pequeno subconjunto de la
poblacion la cual sabemos se llama muestra. A continuacion, se analiza la muestra y se
tratan de hacer inferencias acerca de la poblacion basandose en la muestra. Usando la
teora de la probabilidad y el lmite central Teorema, se puede entonces medir la fiabilidad
de la inferencia. Esto puede no ser siempre una tarea facil. A menudo se encuentra bastante
complicado. Sin embargo, tenemos metodos que nos aseguran buenas inferencias. Veamos
como se hace esto.
Ejemplo 8.1 Lupe esta tratando de vender su casa y tiene que determinar el valor de
mercado de la vivienda. la poblacion en este ejemplo sera todos los hogares que son simi-
lares a la suya en el barrio.El agente de bienes races de Lupe elige para la muestra las
ultimas nueve casas en ese barrio que se venden en los ultimos seis meses. El agente de
bienes races a continuacion, ajusta algunos de los precios de venta para dar cuenta de las
diferencias entre la casa de Lupe y las casas otras vendidas.
Imagine que la muestra de las ultimas 9 casas vendidas determinan los precios en miles
de Bs.F, Muestra=420, 430, 430, 440, 450, 460, 470, 470, 480. A continuacion, el agente
de bienes races toma la media de la muestra ajustada y recomienda a Lupe un valor de
mercado de su casa de Bs.F. 450.000. La inmobiliaria ha hecho una inferencia sobre el
127
8. Estimacion puntual e intervalos de confianza. Inferencia estadstica.
Ejemplo 8.2 En el ejemplo anterior, el agente inmobiliario de Lupe podra decir que
la media de la poblacion real esta entre Bs.F. 425.000 y Bs.F. 475.000, lo que permite
128
8.3. Intervalos de confianza
Intervalo de confianza = x Zc , (8.1)
n
donde x es la media de la muestra y Zc es el valor crtico en la distribucion normal. Se
tendra revisando una tabla de la distribucion normal que:
Ejemplo 8.3 El Decano de la Facultad quiere estimar el numero medio de horas trabajadas
por semana por los estudiantes. La muestra de 49 estudiantes mostro una media de 24 horas
con una desviacion estandar de 4 horas. El punto estimacion es de 24 horas (media de la
129
8. Estimacion puntual e intervalos de confianza. Inferencia estadstica.
130
8.3. Intervalos de confianza
no conoce este valor por las mismas razones por las que no se conoce la media poblacional.
Este problema fue resuelto por el estadstico irlandes William Sealy Gosset, un empleado
de elaboracion de la cerveza Guiness. Gosset, sin embargo, fue castigado por Guiness por
el uso de su propio nombre en la publicacion de artculos cientficos. El publico bajo el
nombre de A Student, y por lo tanto la distribucion que descubrio fue llamada distribucion
t de Student.
s
Intervalo de confianza = x tc , (8.4)
n
donde x es la media de la muestra y tc es el valor crtico en la distribucion t de Student y
tiene n 1 grados de libertad.
131
8. Estimacion puntual e intervalos de confianza. Inferencia estadstica.
(2,093) 10
65 = 65 4,68 = [60,32; 69,68]calificacion de la ONG. (8.5)
20
Con un 95 % de confianza, podemos decir que la calificacion de la nueva ONG es de
entre 60,32 y 69,68. As la calificacion de 62 de la anterior ONG esta en el intervalo de
confianza, por lo cual, no podemos decir con una certeza del 95 % que la nueva ONG sea
mejor o peor que la anterior ONG.
132
8.3. Intervalos de confianza
La distribucion Chi-cuadrado
La distribucion Chi-cuadrado es una familia de distribuciones relacionadas con la dis-
tribucion normal, ya que representa una suma de cuadrados de las variables aleatorias
normales independientes. Al igual que la distribucion t de Student, esta tiene grados de
libertad iguales a n 1 y determinan la forma de la distribucion. Ademas, como el Chi-
cuadrado representa datos al cuadrado, la inferencia sera aproximadamente la varianza en
lugar de la desviacion estandar.
La distribucion Chi-cuadrado (2 ) es asimetrica positiva y ademas es no negativa. Se
basa en grados de libertad (n 1) igual como la t de Student.
133
8. Estimacion puntual e intervalos de confianza. Inferencia estadstica.
134
8.3. Intervalos de confianza
19 52 19 52
Intervalo de confianza = , = [3,8; 7,3]. (8.9)
32,8523 8,90655
Se puede decir con un 95 % de confianza de que la desviacion estandar para este fondo
de inversion es de entre 3,8 % y 7,3 % por mes.
135
9. Pruebas de hipotesis de una poblacion
What the use of P [the significance level] implies, therefore, is that a hypothesis that may be true
may be rejected because it has not predicted observable results that have not occurred.
9.1. Introduccion
En la seccion anterior hemos utilizado la inferencia estadstica para hacer una estimacion
de un parametro de la poblacion y medir la fiabilidad de la estimacion a traves de un
intervalo de confianza. En esta seccion, vamos a explorar en detalle el uso de la inferencia
estadstica en la prueba de una afirmacion sobre un parametro de la poblacion, que es el
corazon del metodo cientfico utilizado en la investigacion.
(Cuidado de la Salud) Un sistema de servicio publico de salud sera mas eficaz que
un sistema de seguro privado en terminos de atencion?
137
9. Pruebas de hipotesis de una poblacion
(Educacion) son demasiado caros los colegios para los estudiantes de hoy?
Las tasas de cancer de pulmon en Maracaibo son mas bajas que las tasas de Caracas.
Estas mismas hipotesis podra escribirse en notacion simbolica: pdelincuentes > 0,20,
ingresos > 1500, pM ar < pCar y bolsa > 10, respectivamente.
La prueba de hipotesis es un procedimiento basado en la evidencia muestral y la teora
de probabilidades, que se utiliza para determinar si la hipotesis es una afirmacion razonable
y no debe ser rechazada, o no es razonable y por tanto debe ser rechazada. La hipotesis
que se prueba se llama la hipotesis nula designado por el smbolo H0 . Si la hipotesis nula
no es razonable y debe ser rechazada, entonces la investigacion estara apoyada por una
hipotesis alternativa designada por el smbolo Ha . As entonces, la hipotesis nula (H0 ):
es una declaracion sobre el valor del parametro de una poblacion que se supone que es
cierto para el proposito de la prueba. Por el contrario, la hipotesis alternativa (Ha ): es una
declaracion sobre el valor del parametro de una poblacion que se supone que es verdadera
si la hipotesis nula es rechazada durante la prueba.
138
9.3. Diseno de hipotesis de investigacion y la experimentacion
139
9. Pruebas de hipotesis de una poblacion
No se rechaza H0 Se rechaza H0
H0 es verdadera Desicion correcta Error de tipo I
H0 es falsa Error de tipo II Desicion correcta
Ejemplo 9.1 Imagine que una compana farmaceutica intento comercializar una droga
que mas adelante se determino ser ineficaz (y quizas peligrosa) en el tratamiento de una
enfermedad. Antes de la comercializacion del farmaco, la compana determino que el farma-
co era eficaz en el tratamiento, lo que significa que la empresa rechazo la hipotesis nula de
que la droga no tuvo efecto sobre la enfermedad. Este es un ejemplo de error del tipo I.
Estos ejemplos nos acercan al problema de la investigacion estadstica: los errores pueden
ser analizados utilizando los modelos de probabilidad, pero a menudo no hay manera de
identificar errores especficos. Por ejemplo, existen personas inocentes en prision en este
momento debido a que un jurado cometio un error de tipo I en condenar injustamente a
los demandados.
En el diseno de un experimento, hemos creado una probabilidad maxima de toma de error
de tipo I. Esta probabilidad es llamada el nivel de significacion o nivel de significancia de la
prueba y designada por la letra griega . El analisis del error de tipo II es mas problematico,
ya que hay muchos valores posibles que satisfacen la hipotesis alternativa. Para un valor
especfico de la hipotesis alternativa, la probabilidad de diseno toma de error de tipo II se
llama Beta (), que se analizara en detalle mas adelante en esta seccion.
140
9.3. Diseno de hipotesis de investigacion y la experimentacion
En una prueba de dos colas, el nivel de significacion se divide en dos partes ya que hay
dos regiones de rechazo. en una prueba de hipotesis el modelo estadstico es simetrico, (por
ejemplo, la distribucion normal Z o la t de Student), y por lo tanto, estas dos regiones
seran iguales. Existe una relacion entre un intervalo de confianza y una prueba de dos
colas: Si el nivel de confianza para un intervalo de confianza es igual a 1-, donde es
141
9. Pruebas de hipotesis de una poblacion
el nivel de significacion de la prueba de dos colas, entonces los valores crticos seran los
mismos.
Estos son algunos ejemplos de las pruebas de media contra un valor hipotetico 0 :
Ha : > 0 significa probar la cola superior y tambien se llama una prueba de extremo
derecho.
Ha : < 0 significa probar la cola inferior y tambien se llama una prueba de extremo
izquierdo.
Ha : =6= 0 significa probar las dos colas.
Decidir cuando llevar a cabo una prueba de una o dos colas es a menudo controvertido y
muchas autoridades van mas lejos como para decir que solo las pruebas de dos colas deben
llevarse a cabo. En ultima instancia, la decision depende de la formulacion del problema.
Si queremos demostrar que una nueva dieta es efectiva para reducir el peso, se llevara a
cabo una prueba de una cola, ya que no importa si la dieta causa aumento de peso. Si por
el contrario, hemos querido determinar si la tasa de criminalidad en Maracaibo es diferente
de la tasa de criminalidad media en Venezuela, sera una conveniente mas bien una prueba
de dos colas, ya que no hemos preguntado especficamente si es mayor o igual.
Verificacion de Datos
Despues de recoger los datos, pero antes de ejecutar la prueba, tenemos que verificar los
datos. En primer lugar, obtener una grafica (histograma, punto, grafico de caja, etc) sera
conveniente. Es importantes compruebe la asimetra, forma y cualquiera posibles valores
atpicos en los datos.
Un valor atpico es punto de los datos que esta muy alejado de los otros en el conjunto
de datos. Los valores extremos pueden ser causados por:
142
9.3. Diseno de hipotesis de investigacion y la experimentacion
Los dos primeros casos son faciles de tratar y por tanto se pueden corregir los errores o
eliminar los datos que no pertenecen a la poblacion. El tercer caso es mas problematico,
ya que los valores extremos aumentaran la desviacion estandar dramaticamente y sesgaran
fuertemente los datos.
Suponemos H0 es cierta antes de observar los datos y Ha se disena tal que sea el
complemento de H0 .
Observe los datos (evidencia). Cuan inusuales son estos datos respecto de H0 ?
Si los datos son demasiado inusuales, hemos probado que H0 es falsa: Se rechaza H0
y se apoya Ha (declaracion fuerte).
143
9. Pruebas de hipotesis de una poblacion
Tanto el valor-p y son las probabilidades de obtener resultados tan extremos como
los datos asumiendo H0 es cierta. El valor-p se determina por los datos y esta relacionado
con la probabilidad real de tomar error de Tipo I (Rechazar una hipotesis nula cuando
es verdadera). Cuanto menor sea el valor-p, menor sera la posibilidad de tener error de
tipo I y, por tanto, mas posibilidades tendremos de rechazar la hipotesis nula. El nivel de
significacion se determina por diseno y es la probabilidad maxima que estamos dispuestos
a aceptar de rechazar una verdadera H0 .
Dos reglas de decision conducen a la misma decision.
Este metodo valor-p de comparacion se prefiere del metodo del valor crtico, porque la
regla es la mismo para todos los modelos estadsticos: Rechazar H0 si el valor-p si es menor
a .
Ejemplo 9.3 (Prueba de media vs. valor hipotetico. Un ejemplo completo) Suponga
que una empresa de alimentacion tiene una poltica que el contenidos vertido de un producto en
su envase coincide perfectamente con lo que dice la etiqueta. Una pregunta general podra ser: El
peso expresado neto del producto alimenticio esta de acuerdo con el peso real? El departamento de
control de calidad decide poner a prueba la botella de 16 onzas de salsa de soja y ahora debe disenar
el experimento.
El estadstico de control de calidad ha tomado muestras de 36 botellas de salsa de soja y sabe
a partir de unas pruebas anteriores que la desviacion estandar de la poblacion es de 0,5 onzas. El
modelo sera una prueba de media poblacional vs. al valor hipotetico de 16 oz. Una prueba de dos
colas se selecciona debido a que es preocupante el llenado insuficiente ya que no cumple con las
normas, as como tambien el llenado excesivo ya que produce perdidas en la empresa. Recuerdese
que la poltica de la empresa es llenar las botellas con el peso real del producto.
As podemos estableces la hipotesis de investigacion.
H0 : = 16 (La maquina de llenado esta funcionando correctamente)
Ha : 6= 16 (La maquina de llenado no esta funcionando correctamente).
144
9.3. Diseno de hipotesis de investigacion y la experimentacion
145
A. La redaccion de informes y presentacion
de resultados
A.1. Definicion de Informe cientfico
Los informes cientficos aparecen en la decada del cuarenta como una modalidad de lite-
ratura gris. Es un documento confeccionado de forma ordenada para describir los aspectos
de una investigacion especialmente las relacionadas con los resultados obtenidos. Su objeti-
vo no es la publicacion en una revista, sino que va dirigido, o bien, actua como instrumento
para comunicar los resultados a la comunidad cientfica o quien haya encargado el trabajo.
En ningun trabajo cientfico se aceptan los hallazgos con independencia del procedimiento
mediante el cual se obtuvieron, y dicho procedimiento debe poder reproducirse en otros
lugares y oportunidades.
Los objetivos del Informe cientfico son:
Su contenido esta destinado a contribuir al acopio de conocimientos.
Exponer y declarar los procedimientos y tecnicas utilizados en la investigacion para
que pueda ser producida, constatada y verificada por otros cientficos, al fin de juzgar
la validez y fiabilidad de las nuevas aportaciones cientficas que se proponen.
Constituyen fuentes de informacion para una nueva investigacion.
147
A. La redaccion de informes y presentacion de resultados
148
A.3. Caractersticas, particularidades y modalidades del Informe cientfico
A.3.2. Particularidades
El informe debe contener una ordenada secuencia logica, haciendo que los hechos se
encadenen entre s y tratando de organizarlos de un modo coherente, sin fracturas. Debe
tener una estructura de modo tal que permita su comprension sin mayores dificultades.
A.3.3. Modalidades
El informe cientfico posee la siguiente estructura formal:
149
A. La redaccion de informes y presentacion de resultados
150
A.5. Diferencias con el resto de los trabajos cientficos
con diversos apoyos como son graficas, audiovisuales, videos y sistemas computarizados.
Hoy en da los informes se elaboran utilizando distintos procesadores de textos y progra-
mas: Word, Works (textos y dibujos); PageMaker, PowrPoint, Harvard Graphics, Publisher
(textos y graficos); SPSS (analisis estadstico y graficos), Excel (hoja de calculo y graficos)
151
B. Calculos de incertidumbre y de pequenas
variaciones
En el laboratorio a la hora de realizar experimentos y hacer mediciones para comprobar
diversos procesos de la naturaleza, se cometen inevitablemente errores. Algunos errores
en el laboratorio son mas evidentes que otros, sin embargo, como quiera que sea o por
muy pequeno que sea, existe siempre un error asociado a cada una de las medidas que
se toman en la experiencia. Lo curioso de la ciencia es que no existe una manera para
encontrar el valor real de todas las cosas. Por muy exacto que sea el instrumento, por
muy preciso y cuidadoso que sea el investigador, siempre encontrara un valor aproximado
de la medida en estudio. El valor verdadero de una medida depende de tantas cosas, que
es imposible sellar todas las incertidumbres para lograr exactitud perfecta. Inclusive la
misma tecnologa tiene un lmite, cuando ese lmite es sobrepasado, el instrumento ya deja
de ser exacto para dar lugar a errores esperados. La mayora de las veces la repeticion
muchas veces del experimento logra minimizar estos errores, pero el investigador, sabe que
existen. Lo mas interesante de todo es que el conocimiento de estos errores son la base
de la confiabilidad de la medida estudiada. Si en la repeticion simultanea, inclusive por
distintos metodos, al medir una cierta cantidad, se encuentra que todos los resultados estan
cuidadosamente cercanos, entonces uno pudiera pensar que se tendra una medida cercana
al valor real.
Supongase que se ha medido la masa y e volumen de un cierto objeto en el laboratorio.
Digamos, por ejemplo, que la masa esta dada por m = 4,635 0,002g y el volumen
V = 1,13 0,05mL. Mas adelante explicaremos que significan estas expresiones, por ahora
bastara con decir que el primer de los numeros de la medida es el valor cercano al real,
mientras que el segundo numero es la incertidumbre o el error cometido, cualquiera que
fuera la fuente de su procedencia. La cuestion es: si sabemos que estas son las medidas,
cual sera la medida de la densidad y cual sera su incertidumbre asociada? Mas aun, como
procedemos al calculo de la densidad?, en que afectan los errores individuales de la masa
y el volumen a la densidad?, es posible que el calculo de la densidad no conlleve errores?
Estas son algunas de las dudas que podemos respondernos en este captulo.
153
B. Calculos de incertidumbre y de pequenas variaciones
alto grado o un nivel mnimo de confidencialidad, es decir, con mucho error o con poco
error, pero jamas con seguridad absoluta. Los errores experimentales son clasificados en
sistematicos o aleatorios.
154
B.3. Incertidumbre absoluta y relativa
Por otro lado la exactitud esta usualmente relacionada con el hecho de cuan cercano
es el valor de la medida con el valor real de dicha medida. En otras palabras, para darse
cuenta de si una medida es exacta, entonces lo que hay que hacer es buscar una medida de
referencia para esa cantidad y determinar si es significativamente cercana o no. De serlo,
entonces nuestra medida sera exacta.
Aun cuando una medida pudiera ser reproducibles, hay que tener en cuenta, que esto
no quiere decir que dicha medida sea verdadera. Es decir, aunque midamos algo muchas
veces, no podemos estar seguro de que ese valor sea verdaderamente bueno. Por ejemplo,
imagnese que se quisiera medir la densidad de un lquido en el laboratorio, pero por un
descuido inesperado del que no se dio cuenta, se mezclo un poco de ese lquido con otro.
Entonces, usted pudiera hacer el procedimiento y conseguir un conjunto de medidas para
la densidad del lquido, en el reporte, usted pudiera conseguir medidas muy cercanas entre
si en la sucesiva repeticion del experimento. En este caso usted tendra mucha precision
pero su exactitud sera bastante pobre. Por el contrario, usted pudiera haber hecho muchas
mediciones y no coincidir mucho entre todas, sin embargo, en terminos promedios el valor
de la medida es bastante cercano a su valor real. En este caso se tendra muy poca precision
pero bastante exactitud. Un proceso ideal sera tener tanto buena precision como buena
exactitud.
Otro termino merece tambien ser aunque sea definido. Estrechamente ligado a la pre-
sentacion precisa y exacta de los datos esta tambien el asunto de la sensibilidad. Que el
aparato sea sensible esta estrechamente ligado al aumento de precision y exactitud. La
sensibilidad de un aparato es el valor mnimo de la magnitud que es capaz de medir.
As, si la sensibilidad de una balanza es de 5mg significa que para masas inferiores a la
citada, la balanza no podra medir significativamente. Normalmente, se admite que la sen-
sibilidad de un aparato viene indicada por el valor de la division mas pequena de la escala
de medida. En general, se puede decir que es mas facil conocer la precision de un aparato
que su exactitud.
155
B. Calculos de incertidumbre y de pequenas variaciones
expresion es:
x |x x0 |
:= = , (B.2)
x0 x0
y suele expresarse porcentualmente sin mas que multiplicar por 100, a lo que llamamos
comunmente error relativo porcentual.
En Fsica, presentar una medida experimental significa dar el valor de dicha cantidad y
expresar cual es su error; no tiene sentido establecer un determinado valor si no se acota
debidamente el mismo. As, la expresion correcta de una medida debe ser:
x |x| 7 x+
probable = x + |x|, x
probable = x |x|, (B.3)
y por lo tanto el intervalo [x() , x(+) ] es el rango en el que las medidas de la cantidad x es
valido en relacion con el error cometido.
Dado el significado de cota de imprecision que tiene el error absoluto, este siempre se
expresa con una unica cifra significativa, es decir, con el primer dgito comenzando por la
izquierda distinto de cero; este numero debe ser redondeado por exceso en una unidad si la
segunda cifra significativa es 5 o mayor de 5. Este convenio de expresion del error encuentra
dos excepciones: que la primera cifra significativa sea un 1 o que siendo la primera un 2,
la segunda no llega 5; en estos casos, el error vendra dado por las dos primeras cifras
significativas, procediendose al redondeo de la segunda en el mismo sentido que ya se ha
explicado.
Hay que resaltar que el valor de una magnitud debe tener el mismo orden decimal que
el error absoluto. Esto es razonable dado que no tendra sentido encontrar el valor de una
magnitud con un grado de precision superior al del error de la medida. As, no podemos
medir decimas de milmetro con una regla cuya sensibilidad es del milmetro. Finalmente,
se acepta como criterio que si el valor de una medida es ledo de una tabla u otro lugar,
sin indicacion de su error, se tomara como error una unidad del orden de la ultima cifra
con que se expresa; por ejemplo, si en una tabla aparece que el valor de una medida es
de 0.056 sin ninguna indicacion de error, se conviene en que el mismo es de 0,001. En la
siguiente tabla se dan distintos ejemplos.
156
B.3. Incertidumbre absoluta y relativa
finalmente, se obtiene el tanto por ciento de dispersion, T , que viene dado por:
D
T := 100 . (B.6)
x
Con estos parametros se pasa al siguiente cuadro que establece la casustica que puede
darse; S representa la sensibilidad del aparato de medida, D6 es la dispersion para seis
medidas y N el numero de medidas necesarias en cada caso.
As, por ejemplo, si se ha obtenido que la dispersion es mayor que la sensibilidad y el
tanto por ciento de dispersion esta comprendido entre el 2 % y el 8 %, son necesarias 6
medidas; el valor verdadero queda establecido en la media aritmetica de las 6 medidas y
su error corresponde al maximo de entre la dispersion de las seis medidas dividido por 4 o
la sensibilidad.
Si se han realizado 15 o mas medidas, en realidad se esta buscando que el conjunto de
las mismas sea una distribucion gaussiana o normal, en cuyo caso, el error que se considera
corresponde con el error cuadratico medio (ECM)1 o desviacion standard; el significado
1
La varianza representa la media aritmetica de las desviaciones con respecto a la media que son elevadas
al cuadrado. Si atendemos a la coleccion completa de datos (la poblacion en su totalidad) obtenemos
la varianza poblacional; y si por el contrario prestamos atencion solo a una muestra de la poblacion,
obtenemos en su lugar la varianza muestral. Las expresiones de estas medidas son las que aparecen a
157
B. Calculos de incertidumbre y de pequenas variaciones
D T N x0 x
D<S 3 S
T 2% 3 S
PN xi
2% T 8% 6 xN := i=1 N max{D6/4,
r S}
D>S 8 % T 15 % 15 Pn
i=1 (xxN )
2
15 % T > 50 x = N (N 1)
158
B.4. Propagacion de los errores
se encuentra el 99,7 % de las medidas realizadas en una gran serie de las mismas.
Recuerdese que en este caso hemos cambiado los incrementos x a diferenciales dx por
el caracter continuo de la funcion f (xi , aj ). De esta manera la expresion anterior pudiera
ser escrita equivalentemente como
n m
X y X y
y = xi xi +
aj aj .
(B.12)
i=1 j=1
159
B. Calculos de incertidumbre y de pequenas variaciones
P y Pm y
donde hemos hecho que E1 := ni=1 x i
x i y E2 := j=1 aj aj y luego escoger el
nivel de cifras significativas tal que E2 := E1 , de tal manera que si = 0,1, por ejemplo,
n
X y
y = (1 + )E1 = 1,1E1 E1 xi xi .
(B.14)
i=1
de esta manera, el error absoluto de una medida indirecta que es la suma de dos medidas
directas, resulta ser la suma de los valores absolutos de cada una de las medidas directas.
160
B.4. Propagacion de los errores
161
B. Calculos de incertidumbre y de pequenas variaciones
Por ejemplo, en Relatividad General para un universo plano, la definicion del parametro
de desaceleracion gravitacional, permite calcular la densidad crtica del universo, de tal
manera que es posible calcular
3H 2
c = , (B.24)
8G
donde H := R
R es la constante de Hubble, la cual mide la velocidad con la cual las galaxias
se mueven alejandose unas de las otras, las ultimas mediciones estiman su valor en H
(75 25)Km s1 M pc1 . De tal manera que el error cometido al tratar de medir la
densidad del universo puede ser conseguida tal que,
3H 3H 2 3H 2
c = H 2 G, (B.25)
4G 8 G 8G2
con lo cual
H G
=2 , (B.26)
H G
por tanto, sabiendo la incertidumbre de H, recordemos que el valor mas preciso de la
constante de Gravitacion Universal esta dado por G := (6,67428 0,00067) 1011 m3
Kg 1 s2 , luego, se tendra que
3H 2 Kg Kg
= 0,66651 7 = = 1,0616879 1038 3 7 = 7,07634 1039 3 , (B.27)
8G m m
lo cual quiere decir entonces que la densidad crtica pudiera estar medida en
Kg
= (1,0616879 0,707634) 1038 , (B.28)
m3
por ultimo
2 f 2
2
f 2
f
2 = = H 2 2
+ 2
+ G = 0,44424
H G
q
= 22H + 2 + 2G = 7,07634 1039 . (B.29)
162
B.4. Propagacion de los errores
Se identifican los elementos diferenciales con los errores de las variables (dy 7 y,
dxi 7 x), y se sustituyen los valores correspondientes de y y xi en la expresion
final:
Por ejemplo, imagnese que para un cierto experimento se tiene una dependencia de la
forma
xy
w = f (x, y, z) = , (B.31)
z
por tanto se sabe que cada una de las medidas directas x, y y z, tienen errores absolutos
asociados x, y y z. Por tanto tomando logaritmos neperianos a ambos lados de la
expresion se obtiene que
xy
ln(w) = ln = ln(x) + ln(y) ln(z), (B.32)
z
luego ahora derivamos a ambos lados y tendremos que
dw dx dy dz w x y z
= + 7 = + . (B.33)
w x y z w x y z
Vease que este resultado es exactamente el mismo que se conseguira con el metodo de
las derivadas parciales.
me4
1 1
= 2 3 , (B.34)
80 h n2 p 2
me4
R= , (B.35)
820 h3 c
es la constante de Rydberg. Lo primero es verificar las unidades de dicha constante, digamos
163
B. Calculos de incertidumbre y de pequenas variaciones
164
Bibliografa
[1] Jeffrey, R.C., Probability and the Art of Judgment, Cambridge University Press.
(1992). pp. 54-55 . ISBN 0-521-39459-7.
[3] Kallenberg, O., Foundations of Modern Probability, 2nd ed. Springer Series in Sta-
tistics. (2002). 650 pp. ISBN 0-387-95313-2.
[4] P. Bevington and D. K. Robinson, Data reduction and error analysis for the physical
sciences, 2nd ed. (McGraw Hill, New York, 1993).
[5] Stuardt L. Meyer, Data analysis for scientists and engineers (John Willey & Sons,
Inc., New York, 1975).
[7] J. Higbie, Uncertainty in the linear regression slope. Am. J. Phys. 59, 184 (1991)
[8] J. Orear, Least squares when both variables have uncertainties, Am. J. Phys. ibid.,
50, 912 (1982).
[9] Simple method for fitting data when both variables have uncertainties. D. Barker
and L.M. Diana Am. J. Phys. 42, 224 (1974).
[10] Linear least-squares fits with errors in both coordinates. II: Comments on parameter
variances - B. Cameron Reed - Am. J. Phys., Vol. 60, No. 1, 1992.
[12] S. Gil y E.Rodrguez, Fsica re-Creativa, Prentice Hall, Buenos Aires 2001.
[13] Agresti, A. and Finlay, B., Statistical Methods for the Social Sciences, 3th Edition.
Prentice Hall, 1997.
[14] Anderson, T. W. and Sclove, S. L., Introductory Statistical Analysis. Houghton Mif-
flin Company, 1974.
165
Bibliografa
[18] Johnson, R.A. and Bhattacharyya, G.K., Statistics: Principles and Methods, 2nd
Edition. Wiley, 1992.
[19] Leppala, R., Ohjeita tilastollisen tutkimuksen toteuttamiseksi SPSS for Windows
-ohjelmiston avulla, Tampereen yliopisto, Matematiikan, tilastotieteen ja filosofian
laitos, B53, 2000.
[21] Moore, D. and McCabe G., Introduction to the Practice of Statistics, 3th Edition.
Freeman, 1998.
[22] Newbold, P., Statistics for Business and Econometrics. Prentice Hall, 1995.
166