07.módulo Estadistica-Basica2

PROGRAMA DE FORMACIN PARA ADULTOS
DRA. MADELEINE ARROYO ROSALES

SEMESTRE 2012 - 2
ESCUELA ACADMICO PROFESIONAL
DE INGENIERA CIVIL

CHIMBOTE, 2012
1
MDULO DE ESTADSTICA
PROGRAMACION ACADEMICA
CONTENIDOS CAPACIDADES
INDICADORES
DE LOGRO
ACTITUDES
INDICADORES
DE LOGRO
Introduccin. La
estadstica: concepto,
importancia, clasificacin
y definiciones bsicas.
Define Estadstica y
sus diferentes
trminos, as como
analiza la importancia
de la Estadstica en la
investigacin cientfica
-Explica con sus
propias palabras
Estadstica y sus
diferentes trminos.
-Fundamenta con
claridad la importancia
de la estadstica en la
investigacin.
-Iniciativa en la
solucin de
situaciones
problemticas
- Creatividad
- Buena prctica
de valores
Responsabilidad
-Iniciativa en la
solucin de
situaciones
problemticas.
-Formula
alternativas de
solucin a
situaciones
problemticas.
-Es creativo al
aplicar los
mtodos y
procedimientos
estadsticos.
-Muestra cortesa,
respeto y
tolerancia en su
trato con los
dems
-Presenta sus
trabajos
individuales y
grupales en las
fechas
establecidas.
Variables. Definicin
Conceptual y
Operacional,
Clasificacin. Escalas de
medicin. Tcnicas e
Instrumentos de
recoleccin de datos.
Formula cuestionarios
bsicos para
recolectar datos
teniendo en cuenta la
clasificacin de las
variables.
Elabora un cuestionario
de 10 tems para
recolectar datos, que
incluya todas las
variables estudiadas
Nociones de muestreo.
Tamao de muestra
para variables
cualitativas y
cuantitativas.
Determina tamaos de
muestras aleatorias
simples y selecciona
sus elementos al azar
Calcula
adecuadamente
tamaos de muestra
seleccionando sus
elementos pertinentes
Organizacin de datos.
Estructura e
Interpretacin. Cuadros
estadsticos de acuerdo
a Norma Tcnica
Nacional (INEI).
Construye e interpreta
distribuciones de
frecuencias de
acuerdo a Norma
Tcnica Nacional
(INEI)
Elabora una
distribucin de
frecuencia para cada
tipo de variable,
interpretando las
frecuencias
Representaciones
Grficas de acuerdo a
Norma Tcnica
Nacional (INEI).
Construye e interpreta
grficos estadsticos,
de acuerdo a Norma
Tcnica Nacional
(INEI)
Elabora un grfico
estadstico para cada
tipo de variable,
interpretndolos
adecuadamente
Medidas de Tendencia
central. Percentiles.
Calcula e interpreta
medidas estadsticas
de tendencia central,
y percentiles.
Utiliza frmulas y
procedimientos
adecuados para
calcular e interpretar
medidas estadsticas
de tendencia central y
percentiles
Medidas de dispersin
Calcula e interpreta
medidas estadsticas
de dispersin.
Utiliza frmulas y
procedimientos
adecuados para
calcular e interpretar
medidas estadsticas
de dispersin
PRIMER EXAMEN
2
UNIDAD 1
1. LA ESTADSTICA, DEFINICIONES BSICAS.
La estadstica es una ciencia aplicada que nos proporciona un conjunto de mtodos, tcnicas o
procedimientos para
Recopilar
Organizar (clasificar, agrupar)
Presentar, y
Analizar
Datos con el fin de describirlos o de realizar generalizaciones vlidas.
La Estadstica para su mejor estudio se ha dividido en dos grandes ramas: la Estadstica
Descriptiva y la Inferencial.
Estadstica Descriptiva: consiste sobre todo en la presentacin de datos en forma de tablas y grficas.
Esta comprende cualquier actividad relacionada con los datos y est diseada para resumir o describir
los mismos sin factores pertinentes adicionales; esto es, sin intentar inferir nada que vaya ms all de
los datos, tales como edad de una poblacin, altura de los estudiantes de una escuela, temperatura en
los meses de verano, etc. y trata de extraer conclusiones sobre el comportamiento de estas variables.
Estadstica Inferencial: se deriva de muestras, de observaciones hechas slo acerca de una parte de
un conjunto numeroso de elementos y esto implica que su anlisis requiere de generalizaciones que
van ms all de los datos. Como consecuencia, la caracterstica ms importante del reciente
crecimiento de la estadstica ha sido un cambio en el nfasis de los mtodos que describen a mtodos
que sirven para hacer generalizaciones. La Estadstica Inferencial investiga o analiza una poblacin
partiendo de una muestra tomada.
Cuando se estudia el comportamiento de una variable hay que distinguir los siguientes conceptos:
Individuo: cualquier elemento que aporte informacin sobre el fenmeno que se
estudia. As, si estudiamos la altura de los nios de una clase, cada alumno es un
individuo; si estudiamos el precio de la vivienda, cada vivienda es un individuo.
Poblacin: conjunto de todos los individuos (personas, objetos, animales, etc.) que
aporten informacin sobre el fenmeno que se estudia. Por ejemplo, si estudiamos el
precio de la vivienda en una ciudad, la poblacin ser el total de las viviendas de
dicha ciudad.
Muestra: subconjunto que seleccionamos de la poblacin. As, si se estudia el precio
de la vivienda de una ciudad, lo normal ser no recoger informacin sobre todas las
viviendas de la ciudad (sera una labor muy compleja), sino que se suele seleccionar
un subgrupo (muestra) que se entienda que es suficientemente representativo.
.
3
2. VARIABLES.
Fenmeno que puede tomar diversos valores. Las variables pueden ser de dos tipos:
o Variables cualitativas o atributos: no se pueden medir numricamente (por ejemplo:
nacionalidad, color de la piel, sexo).
o Variables cuantitativas: tienen valor numrico (edad, precio de un producto, ingresos
anuales).
Por su parte, las variables cuantitativas se pueden clasificar en discretas y continuas:
- Discretas: slo pueden tomar valores enteros (1, 2, 8, -4, etc.). Por ejemplo: nmero
de hermanos (puede ser 1, 2, 3....,etc, pero, por ejemplo, nunca podr ser 3,45).
- Continuas: pueden tomar cualquier valor real dentro de un intervalo. Por ejemplo, la
velocidad de un vehculo puede ser 80,3 km/h, 94,57 km/h...etc.
2.1 DATOS
Caractersticas o nmeros que son recolectados por observacin. No son otra cosa que el producto
de las observaciones efectuadas en las personas y objetos en los cuales se produce el fenmeno que
queremos estudiar.
Datos Cualitativos: cuando los datos son cuantitativos, la diferencia entre ellos es de clase y no de
cantidad. Ejemplo: Si deseamos clasificar los estudiantes que cursan estadstica por su estado civil,
observamos que pueden existir solteros, casados, divorciados, viudos.
Datos cuantitativos: cuando los valores de los datos representan diferentes magnitudes, decimos
que son datos cuantitativos. Ejemplo: Se clasifican los estudiantes del programa de acuerdo a sus
notas, observamos que los valores (nota) representan diferentes magnitudes.
Ejercicio 01
Cierta variable asigna a las unidades estadsticas E1 y E2 de una poblacin los valores de 5 y 20
respectivamente en una escala dada. La escala usada es .... y la relacin entre E1 y E2 es
Ejercicio 02
Una variable cuantitativa cuya escala de intervalos, asigna valores 1, 4 y 9 a las unidades estadsticas
E1, E2 y E3 respectivamente. Si una transformacin lineal en los valores asigna 1 a E1 y -8 a E2 que
valor le corresponde a E3?
Ejercicio 03
Una empresa minera posee cinco minas cuyas altitudes han aparecido en una revista extranjera con
los valores:
610.5, 750.2, 420.04, 917.7, 824.3
Se desea saber cul es especficamente la altitud de las tres ltimas minas en metros sobre el nivel
del mar si se sabe que la altitud de las 2 primeras minas son respectivamente 1224, y 1503.4?
2.2 ESCALAS DE MEDICIN.

Son una sucesin de medidas que permiten organizar datos en orden jerrquico. Las escalas de
medicin, pueden ser clasificadas de acuerdo a una degradacin de las caractersticas de las
variables. Estas escalas son: nominales, ordinales, intervalares o racionales. Segn pasa de una
escala a otra el atributo o la cualidad aumenta. Las escalas de medicin ofrecen informacin sobre la
4
clasificacin de variables discretas o continuas. Toda vez que dicha clasificacin determina la
seleccin de la grfica adecuada.
Una escala puede concebirse como un continuo de valores ordenados correlativamente que admite un
punto inicial y otro final. Si evaluamos el rendimiento acadmico de estudiantes podemos asignar el
valor cero al mnimo rendimiento imaginable al respecto; al mayor rendimiento posible podemos
atribuirle un valor de 100, 20, 10 o 7 puntos, segn resulte ms prctico.
2.2.1 TIPOS DE ESCALAS DE MEDICIN
La escala de medida de una caracterstica tiene consecuencias en la manera de presentacin de la
informacin y el resumen. La escala de medicin -grado de precisin de la medida de la caracterstica-
tambin determina los mtodos estadsticos que se usan para analizar los datos. Por lo tanto, es
importante definir las caractersticas por medir. Las escalas de medicin ms frecuentes son las
siguientes:
ESCALA NOMINAL.-
No poseen propiedades cuantitativas y sirven nicamente para identificar las clases. Los datos
empleados con las escalas nominales constan generalmente de la frecuencia de los valores o de la
tabulacin de nmero de casos en cada clase, segn la variable que se est estudiando. El nivel
nominal permite mencionar similitudes y diferencias entre los casos particulares. Los datos evaluados
en una escala nominal se llaman tambin "observaciones cualitativas", debido a que describen la
calidad de una persona o cosa estudiada, u "observaciones categricas" porque los valores se
agrupan en categoras. Por lo regular, los datos nominales o cualitativos se describen en trminos de
porcentaje o proporciones. Para exhibir este tipo de informacin se usan con mayor frecuencia tablas
de contingencia y grficas de barras.
ESCALA ORDINAL.-
Las clases en las escalas ordinales no solo se diferencian unas de otras (caracterstica que define a
las escalas nominales) sino que mantiene una especie de relacin entre s. Tambin permite asignar
un lugar especfico a cada objeto de un mismo conjunto, de acuerdo con la intensidad, fuerza, etc.;
presentes en el momento de la medicin. Una caracterstica importante de la escala ordinal es el
hecho de que, aunque hay orden entre las categoras, la diferencia entre dos categoras adyacentes
no es la misma en toda la extensin de la escala. Algunas escalas consisten en calificaciones de
mltiples factores que se agregan despus para llegar a un ndice general.
Debe mencionarse brevemente una clase espacial de escala ordinal llamada "escala de posicin",
donde las observaciones se clasifican de mayor a menor (o viceversa). Al igual que en las escalas
nominales, se emplean a menudo porcentajes y proporciones en escalas ordinales.
ESCALA DE INTERVALO.-
Refleja distancias equivalentes entre los objetos y en la propia escala. Es decir, el uso de sta escala
permite indicar exactamente la separacin entre 2 puntos, lo cual, de acuerdo al principio de
isomorfismos, se traduce en la certeza de que los objetos as medidos estn igualmente separados a
la distancia o magnitud expresada en la escala.
5
ESCALA DE RAZN.-
Constituye el nivel ptimo de medicin, posee un cero verdadero como origen, tambin denominada
escala de proporciones. La existencia de un cero, natural y absoluto, significa la posibilidad de que el
objeto estudiado carezca de propiedad medida, adems de permitir todas las operaciones aritmticas
y el uso de nmeros representada cantidades reales de la propiedad medida.
Con esto notamos que esta escala no puede ser usada en los fenmenos psicolgicos, pues no se
puede hablar de cero inteligencia o cero aprendizaje, etc.
Ejercicio 04
Clasifique las variables e indique el tipo de escala en que estn medidas:
Profesin
Nacionalidad
Grado de instruccin
Nmero de hijos
Nmero de telfono
Direccin
Ao de nacimiento
Edad
Estado civil
Ingreso mensual familiar promedio
Nmero de DNI
3. ORGANIZACIN DE DATOS.
3.1 Distribucin de frecuencias: muestra el nmero de veces que ocurre cada observacin.
Ejemplo: Se elabor una encuesta a un grupo de nios y arroj que las mascotas ms comunes que
tiene un nio son perros, gatos, peces, hmsteres y pjaros
Para calcular:
Frecuencia absoluta: se cuenta la cantidad de veces que ocurre el evento, en este caso, las mascotas.
Frecuencia relativa: se divide la frecuencia absoluta de cada evento entre el total de eventos.
6
perro Gato perro hamster
pjaro Hamster gato perro
hmster Gato pjaro gato
perro Perro hmster pjaro
perro perro pjaro gato
Frecuencia porcentual: se multiplica la frecuencia relativa por 100.
Cuadro 1.1 Distribucin de frecuencias de variable cualitativa.
Mascota Frecuencia absoluta
fi
Frecuencia relativa
hi
Frecuencia porcentual
pi
Perro 7 0.35 35 %
Pjaro 4 0.20 20 %
Hmster 4 0.20 20 %
Gato 5 0.25 25 %
total 20 1 100
Estos datos se pueden representar en una grfica de barras o en una grfica de pastel
Grfica de barras

Grfica de pastel
7
Ejercicio 05
En una encuesta de opinin acerca de las preferencias de bebidas gaseosas por su color Negro (N),
Blanco (B), Rojo (R), una muestra de 20 consumidores marco las siguientes respuestas:
B N N B R N N B B N
B N N R B N B R B N
Describa la variable estadstica y obtenga la distribucin de frecuencias. Luego presente los datos
agrupados en la grafica de barras y circular. Comente el resultado.
Ejercicio 06
Ante la pregunta sobre el nmero de hijos por familia una muestre de 20 hogares marc las siguientes
respuestas:
2 1 2 4 1 3 2 3 2 0
3 2 1 3 2 3 3 1 2 4
Describa la variable de la encuesta y obtenga la distribucin de frecuencias de los datos, luego
grafique la distribucin y desarrolle su comentario.
Ejercicio 07
Construirla distribucin de frecuencias, trazar una grfica y comentar el resultado de la variable nivel
socio econmico con sus valores bajo =0, medio=1 y alto=2 si sus valores observados en 20 hogares
son:
1, 0 0 1 2 0 0 1 1 0 1 0 0 2 1 0 1 2 1 0
Ejercicio 08
Obtenga la distribucin de frecuencias y trace su grfica. Luego determine los cuartiles aplicando la
para la variable nmero de artculos defectuosos por lote encontrados al revisar 20 lotes de 48
artculos cada uno si sus valores observados son:
3 2 5 0 1 3 2 1 5 1 3 4 2 4 4 3 4 3 2 3
Qu porcentaje de lotes tienen dos o ms, pero menos de 4 artculos defectuosos?
4.2 CONSTRUCCION DE TABLAS ESTADSTICAS
Distribucin de frecuencias en la que los valores de la variable se han agrupado en clases. Esto se
debe principalmente a la disposicin de gran nmero de datos.
PROCEDIMIENTO
Ordenacin de datos: es una colocacin de los datos numricos tomados en orden creciente a
decreciente de magnitud. La diferencia entre el mayor y el menor de los nmeros se llama rango o
recorrido de datos.
8
Clculo de tamao de clase: para calcular el tamao de clase es necesario calcular primeramente el
nmero de clases utilizando la regla de Sturges y despus se obtiene el tamao de clase dividiendo el
rango entre el nmero de clases.
*N de clases (Regla de Sturges): 1 + 3.332 log N
*Tamao de clase = Rango / N de clases
Lmites de clase: representan el tamao de cada clase. El lmite inferior de la primer clase toma el
valor de el dato menor de la coleccin de datos, para obtener el lmite inferior de la clase siguiente, se
suma al lmite inferior de la case anterior el tamao de clase.
Marca de clase: Es el punto medio de la clase y se obtiene sumando los LI y LS de la clase y
dividiendo entre 2. La marca de clase tambin se llama punto medio de la clase.
Ejemplo : AUTOBUSES INTERPROVINCIALES
1) Toma de datos
Los siguientes datos corresponden a la cantidad de asientos vacos que reportaron 50 autobuses
interprovinciales el ltimo domingo.
12 11 4 6 6 11 3 10 12 4
10 1 1 2 4 5 2 4 4 8
8 7 8 4 10 4 2 6 2 9
5 6 6 4 12 8 1 12 1 7
7 6 8 4 6 9 3 7 7 5
2) Ordenacin de datos
1 2 4 4 5 6 7 8 9 11
1 2 4 4 5 6 7 8 10 12
1 2 4 4 6 6 7 8 10 12
1 3 4 4 6 6 7 8 10 12
2 3 4 5 6 7 8 9 11 12
Rango = 12-1 = 11
3) Tamao de clase
N de clases = 1 + 3.332log (50) = 6
Tamao de clase = 11/6 = 2 aprox.
4) Lmites de clase LI LS
5) Marca de clase X
Clase Intervalo Frec.
Absoluta
fi
Frec.
Relativa
hi
Frec.
Porcentual
pi
X
LI LS
1 1 2.9 8 0.16 16 % 1.95
2 3 4.9 11 0.22 22 % 3.95
3 5 6.9 10 0.20 20 % 5.95
4 7 8.9 10 0.20 20 % 7.95
9
5 9 10.9 5 0.10 10 % 9.95
6 11 12.9 6 0.12 12 % 11.95
Total 50 1 100
Representacin grfica de datos.
Se tomar el ejemplo anterior para demostrar el uso de diferentes grficas.
Histograma: forma grfica de barras que emplea variables con escala de intervalos o de
proporciones. Para realizarla, se toma en cuenta para el eje X, los Lmites reales, y para el eje Y, las
frecuencias absolutas.
Polgono de frecuencias: Forma grfica que representa una distribucin de frecuencias en la forma
de una lnea continua que traza un histograma. Para su elaboracin, se consideran las marcas de
clase en el eje X y las frecuencias absolutas en el eje Y.
Grfica de barras: la grfica de barras es una forma de grfica que utiliza barras para indicar la
frecuencia de ocurrencia de las observaciones. Para construirla se constituye el eje y por las
frecuencias absolutas y el eje X por los lmites inferior y superior de cada clase, dejando un espacio
entre barra y barra.
10
Ejercicio 09
Obtenga la amplitud de los intervalos de la distribucin de frecuencias en cada uno de los siguientes
casos:
a. Datos enteros, Xmin = 10 Xmax = 50 y k= 8 intervalos
b. Datos con dos decimales Xmin = 2.55, X max = 3.86 y k = 7
c. Datos con tres decimales Xmin = 0.282, X max= =.655 y k =6
Ejercicio 10
Los salarios quincenales, en dlares recopilados en una muestra de 45 empleados son:
63 82 36 49 56 64 59 35 78
43 51 70 57 62 43 68 62 26
64 72 52 51 62 60 71 61 55
59 60 67 57 67 61 67 51 81

50 64 76 44 73 56 62 63 60
Describa la variable y desarrolle la distribucin de frecuencia de los datos
Ejercicio 11
Los datos que siguen, son los consumos de agua del ltimo mes registrados en metros cbicos en
una muestra al azar de 32 viviendas unifamiliares de la zona de Buenos Aires en Nuevo Chimbote
23 12 16 14 17 12 7
9 18 13 9 21 18 20
13 15 18 16 4 15
17 19 15 18 19 17
11 23 14 10 16 13
Organice los datos en una distribucin de frecuencias de 5 intervalos. Luego grafique el histograma.
Comente la forma de distribucin.
Es correcta la afirmacin Ms del 45% de los consumos fluctan entre 14 y 19 m
3
. Justifique su
respuesta.

Ejercicio 12
11
Las notas del examen parcial de Estadstica se registraron se organizaron en una distribucin de
frecuencias, cuyos resultados incompletos se dan en la siguiente tabla:
Intervalo Marca de clase Frecuencia relativa Frecuencia relativa
acumulada
[ , ] 0.15
[6 , ] 0.45
[ , ] 0.70
[ , ] 13.5
[ , ] 0.10
a. Grafique la distribucin de frecuencias y describa su forma
b. Elabore la grfica de porcentajes y ubique en la misma los cuartiles
c. Es correcto que ms del 49% de las notas se ubican en el intervalo: [ 8 , 14]?
d. Calcule el intervalo de notas donde se ubica el quinto superior de los estudiantes
4. MEDIDAS DE TENDENCIA CENTRAL
4.1 CALCULO DE LA MEDIA MEDIANA Y MODA
La tendencia central se refiere al punto medio de una distribucin. Las medidas de tendencia central
se conocen como medidas de posicin.
Media
La media es el punto en una distribucin de medidas, alrededor del cual las desviaciones sumadas
son iguales a cero. Es el valor promedio de una muestra o poblacin. La media es muy sensible a
mediciones extremas que no estn balanceadas en ambos lados.
Media= Suma total/ n de datos
Se pueden calcular diversos tipos de media, siendo las ms utilizadas:
Media aritmtica: se calcula multiplicando cada valor por el nmero de veces que se repite. La suma
de todos estos productos se divide por el total de datos de la muestra:
b) Media geomtrica: se eleva cada valor al nmero de veces que se ha repetido.
Se multiplican todo estos resultados y al producto final se le calcula la raz "n" (siendo
"n" el total de datos de la muestra).
Segn el tipo de datos que se analice ser ms apropiado utilizar la media aritmtica o la media
geomtrica.
12
La media geomtrica se suele utilizar en series de datos como tipos de inters anuales, inflacin, etc.,
donde el valor de cada ao tiene un efecto multiplicativo sobre el de los aos anteriores. En todo
caso, la media aritmtica es la medida de posicin central ms utilizada.
Lo ms positivo de la media es que en su clculo se utilizan todos los valores de la serie, por lo que
no se pierde ninguna informacin.
Sin embargo, presenta el problema de que su valor (tanto en el caso de la media aritmtica como
geomtrica) se puede ver muy influido por valores extremos, que se aparten en exceso del resto de la
serie. Estos valores anmalos podran condicionar en gran medida el valor de la media, perdiendo
sta representatividad.
Ejercicio 13
Calcule la media aritmtica de la distribucin de frecuencias del nmero de hijos por familia de una
muestra de 20 hogares:
2 1 2 4 1 3 2 3 2 0
3 2 1 3 2 3 3 1 2 4
Solucin
X= Suma total/ N de datos
N de hijos N de familias Producto
Xi fi fixi
0
1
2
3
4
1
4
7
6
2
0
4
14
18
8
Total 20 44
La media de la distribucin es media= suma de fixi / n de datos= 44/20 = 2.2 hijos
Cual ser la formula para el clculo de datos agrupados por intervalos
Mediana
Observacin u observacin potencial en un conjunto que divide el conjunto, de modo que el mismo
nmero de observaciones estn en cada uno de sus lados. Para un nmero impar de valores, es el
valor de en medio; para un nmero par es el promedio de los dos medios. Para un conjunto con un
nmero par de nmeros, la mediana ser el promedio aritmtico de los dos nmeros medios.
Ejemplo:
Calcule la mediana para los siguientes datos.
La edad de una muestra de cinco estudiantes es: 21, 25, 19, 20 y 22.
Al ordenar los datos de manera ascendente quedan: 19, 20, 21, 22, 25.
La mediana es 21.
13
La mediana de una muestra de datos organizados en una distribucin de frecuencias se calcula
mediante la siguiente frmula:
Mediana = LI + [(n/2 Fi-1)/f] A
donde LI es el lmite inferior de la clase que contiene a la mediana,
Fi-1 es la frecuencia acumulada que precede a la clase de la mediana,
f es la frecuencia de clase de la mediana y
A es la amplitud del intervalo de clase de la mediana.
Ejercicio 14
Calcule la mediana de 45 salarios quincenales agrupados en 7 intervalos de igual amplitud.
Moda
La moda es el valor de la observacin que aparece con ms frecuencia.
Ejemplo:
Las calificaciones de un examen de diez estudiantes son:
81, 93, 84, 75, 68, 87, 81, 75, 81, 87.
Como la calificacin 81 es la que ms ocurre, la calificacin modal es 81
La moda de los datos agrupados se aproxima por el punto medio de la clase que contiene la
frecuencia de clase mayor.
Cuando dos valores ocurren una gran cantidad de veces, la distribucin se llama bimodal, como en
dicho ejemplo.
Clculo de la moda para datos agrupados por intervalos
Mo= Li + [d1/(d1 + d2)]A
Li = Limite inferior del intervalo modal
.d1 = f1 fi-1
.d2= fi fi+1
A= amplitud del intervalo modal
Ejercicio 15
Calcule la moda de 45 salarios quincenales agrupados en 7 intervalos de igual amplitud.
Ejercicio 16
Ejemplo de clculo de media mediana y moda. Para ejemplificar, tomaremos el ejemplo de autobuses
interprovinciales de la pagina 08 .
14
MEDIDAS DE POSICIN NO CENTRALES
Las medidas de posicin no centrales permiten conocer otros puntos caractersticos de la distribucin
que no son los valores centrales. Entre otros indicadores, se suelen utilizar una serie de valores que
dividen la muestra en tramos iguales:
Cuartiles: son 3 valores que distribuyen la serie de datos, ordenada de forma creciente o decreciente,
en cuatro tramos iguales, en los que cada uno de ellos concentra el 25% de los resultados.
Deciles: son 9 valores que distribuyen la serie de datos, ordenada de forma creciente o decreciente,
en diez tramos iguales, en los que cada uno de ellos concentra el 10% de los resultados.
Percentiles: son 99 valores que distribuyen la serie de datos, ordenada de forma creciente o
decreciente, en cien tramos iguales, en los que cada uno de ellos concentra el 1% de los resultados.
Ejemplo: Calcular los cuartiles de la serie de datos referidos a la estatura de un grupo de alumnos.
Los deciles y centiles se calculan de igual manera, aunque hara falta distribuciones con mayor
nmero de datos.
Variable Frecuencias absolutas Frecuencias relativas
Estatura Simple Acumulada Simple Acumulada
Fi Fi pi Pi
1,20
1
1 3,3% 3,3%
15
1,21 4 5 13,3% 16,6%
1,22 4 9 13,3% 30,0%
1,23 2 11 6,6% 36,6%
1,24 1 12 3,3% 40,0%
1,25 2 14 6,6% 46,6%
1,26 3 17 10,0% 56,6%
1,27 3 20 10,0% 66,6%
1,28 4 24 13,3% 80,0%
1,29 3 27 10,0% 90,0%
1,30 3 30 10,0% 100,0%
1 cuartil: es el valor 1,22 cm, ya que por debajo suya se sita el 25% de la frecuencia
2 cuartil: es el valor 1,26 cm, ya que entre este valor y el 1 cuartil se sita otro 25% de la
frecuencia.
3 cuartil: es el valor 1,28 cm, ya que entre este valor y el 2 cuartil se sita otro 25% de la
frecuencia. Adems, por encima suya queda el restante 25% de la frecuencia.
Cuando un cuartil recae en un valor que se ha repetido ms de una vez (como ocurre en el ejemplo en
los tres cuartiles) la medida de posicin no central sera realmente una de las repeticiones.
4.3 MEDIDAS DE DISPERSION
Medidas de dispersin: Estudia la distribucin de los valores de la serie, analizando si estos se
encuentran ms o menos concentrados, o ms o menos dispersos
Varianza: Mide la distancia existente entre los valores de la serie y la media. Se calcula como
sumatorio de las diferencias al cuadrado entre cada valor y la media, multiplicadas por el nmero de
veces que se ha repetido cada valor. El sumatorio obtenido se divide por el tamao de la muestra.
La varianza siempre ser mayor que cero. Mientras ms se aproxima a cero, ms concentrados estn
los valores de la serie alrededor de la media. Por el contrario, mientras mayor sea la varianza, ms
dispersos estn.
Desviacin estndar: Se calcula como raz cuadrada de la varianza.
Coeficiente de variacin de Pearson: se calcula como cociente entre la desviacin tpica y la media
de la muestra
Continuando con el caso de los autobuses forneos, se realizar el ejemplo de medidas de dispersin.
16
5 NOCIONES DE MUESTREO
5.1 TIPOS DE MUESTREO
Los autores proponen diferentes criterios de clasificacin de los diferentes tipos de muestreo, aunque
en general pueden dividirse en dos grandes grupos: mtodos de muestreo probabilsticos y mtodos
de muestreo no probabilsticos.

5.1.1 Muestreo probabilstico
Los mtodos de muestreo probabilsticos son aquellos que se basan en el principio de
equiprobabilidad. Es decir, aquellos en los que todos los individuos tienen la misma probabilidad de
ser elegidos para formar parte de una muestra y, consiguientemente, todas las posibles muestras de
tamao n tienen la misma probabilidad de ser elegidas. Slo estos mtodos de muestreo
probabilsticos nos aseguran la representatividad de la muestra extrada y son, por tanto, los ms
recomendables.
Dentro de los mtodos de muestreo probabilsticos encontramos los siguientes tipos:
El mtodo otorga una probabilidad conocida de integrar la muestra a cada elemento de la poblacin, y
dicha probabilidad no es nula para ningn elemento.
Los mtodos de muestreo no probabilsticos no garantizan la representatividad de la muestra y por lo
tanto no permiten realizar estimaciones inferenciales sobre la poblacin.
(En algunas circunstancias los mtodos estadsticos y epidemiolgicos permiten resolver los
problemas de representatividad aun en situaciones de muestreo no probabilistico, por ejemplo los
estudios de casocontrol, donde los casos no son seleccionados aleatoriamente de la poblacin.)
Entre los mtodos de muestreo probabilsticos ms utilizados en investigacin encontramos:
Muestreo aleatorio simple:
El procedimiento empleado es el siguiente:
Se asigna un nmero a cada individuo de la poblacin
A travs de algn medio mecnico (bolas dentro de una bolsa, tablas de nmeros aleatorios, nmeros
aleatorios, generados con una calculadora u ordenador, etc.) se eligen tantos sujetos como sea
necesario para completar el tamao de muestra requerido.
Este procedimiento, atractivo por su simpleza, tiene poca o nula utilidad prctica cuando la poblacin
que estamos manejando es muy grande.
17
Ejemplo: formar el equipo de ftbol de la universidad seleccionando 11 boletas de una urna con el
nombre de todos los alumnos de la universidad.
Muestreo aleatorio sistemtico:
Este procedimiento exige, como el anterior, numerar todos los elementos de la poblacin, pero en
lugar de extraer n nmeros aleatorios slo se extrae uno. Se parte de ese nmero aleatorio i, que es
un nmero elegido al azar, y los elementos que integran la muestra son los que ocupa los lugares i,
i+k, i+2k, i+3k,...,i+(n1)k, es decir se toman los individuos de k en k, siendo k el resultado de dividir el
tamao de la poblacin entre el tamao de la muestra: k= N/n. El nmero i que empleamos como
punto de partida ser un nmero al azar entre 1 y k.
El riesgo este tipo de muestreo est en los casos en que se dan periodicidades en la poblacin ya que
al elegir a los miembros de la muestra con una periodicidad constante (k) podemos introducir una
homogeneidad que no se da en la poblacin.
Imaginemos que estamos seleccionando una muestra sobre listas de 10 individuos en los que los 5
primeros son varones y los 5 ltimos mujeres, si empleamos un muestreo aleatorio sistemtico con
k=10 siempre seleccionaramos o slo hombres o slo mujeres, no podra haber una representacin
de los dos sexos.
Muestreo aleatorio estratificado:
Este tipo de muestreo asegura que todos los estratos de inters estarn representados
adecuadamente en la muestra. Cada estrato funciona independientemente, pudiendo aplicarse dentro
de ellos el muestreo aleatorio simple o el estratificado para elegir los elementos concretos que
formarn parte de la muestra. En ocasiones las dificultades que plantean son demasiado grandes,
pues exige un conocimiento detallado de la poblacin.
(Tamao geogrfico, sexos, edades,...).
La distribucin de la muestra en funcin de los diferentes estratos se denomina afijacin, y puede ser
de diferentes tipos:
Afijacin Simple: A cada estrato le corresponde igual nmero de elementos mustrales.
Afijacin Proporcional: La distribucin se hace de acuerdo con el peso (tamao) de la poblacin en
cada estrato.
Afijacin Optima: Se tiene en cuenta la previsible dispersin de los resultados, de modo que se
considera la proporcin y la desviacin tpica. Tiene poca aplicacin ya que no se suele conocer la
desviacin.
Muestreo aleatorio por conglomerados:
Los mtodos presentados hasta ahora estn pensados para seleccionar directamente los elementos
de la poblacin, es decir, que las unidades mustrales son los elementos de la poblacin.
En el muestreo por conglomerados la unidad muestral es un grupo de elementos de la poblacin que
forman una unidad, a la que llamamos conglomerado. Las unidades hospitalarias, los departamentos
universitarios, una caja de determinado producto, etc., son conglomerados naturales.
En otras ocasiones se pueden utilizar conglomerados no naturales como, por ejemplo, las urnas
electorales. Cuando los conglomerados son reas geogrficas suele hablarse de "muestreo por
reas".
El muestreo por conglomerados consiste en seleccionar aleatoriamente un cierto numero de
conglomerados (el necesario para alcanzar el tamao muestral establecido) y en investigar despus
todos los elementos pertenecientes a los conglomerados elegidos.
18
5.1.2 Mtodos de muestreo no probabilsticos
A veces, para estudios exploratorios, el muestreo probabilstico resulta excesivamente costoso y se
acude a mtodos no probabilsticos, aun siendo conscientes de que no sirven para realizar
generalizaciones, pues no se tiene certeza de que la muestra extrada sea representativa, ya que no
todos los sujetos de la poblacin tienen la misma probabilidad de se elegidos.
En general se seleccionan a los sujetos siguiendo determinados criterios procurando que la muestra
sea representativa.
Muestreo por cuotas:
Tambin denominado en ocasiones "accidental". Se asienta generalmente sobre la base de un buen
conocimiento de los estratos de la poblacin y/o de los individuos ms "representativos" "adecuados"
para los fines de la investigacin. Mantiene, por tanto, semejanzas con el muestreo aleatorio
estratificado, pero no tiene el carcter de aleatoriedad de aqul.
En este tipo de muestreo se fijan unas "cuotas" que consisten en un nmero de individuos que renen
unas determinadas condiciones, por ejemplo: 20 individuos de 25 a 40 aos, de sexo femenino y
residentes en Gijn. Una vez determinada la cuota se eligen los primeros que se encuentren que
cumplan esas caractersticas. Este mtodo se utiliza mucho en las encuestas de opinin.
Muestreo opintico o intencional:
Este tipo de muestreo se caracteriza por un esfuerzo deliberado de obtener muestras
"representativas" mediante la inclusin en la muestra de grupos supuestamente tpicos. Es muy
frecuente su utilizacin en sondeos preelectorales de zonas que en anteriores votaciones han
marcado tendencias de voto.
Muestreo casual o incidental:
Se trata de un proceso en el que el investigador selecciona directa e intencionadamente los individuos
de la poblacin. El caso ms frecuente de este procedimiento el utilizar como muestra los individuos a
los que se tiene fcil acceso (los profesores de universidad emplean con mucha frecuencia a sus
propios alumnos).
Bola de nieve:
Se localiza a algunos individuos, los cuales conducen a otros, y estos a otros, y as hasta conseguir
una muestra suficiente. Este tipo se emplea muy frecuentemente cuando se hacen estudios con
poblaciones.
5.3 TAMAO DE LA MUESTRA
Toda investigacin lleva implcito en la fase de diseo la determinacin del tamao muestral necesario
para la ejecucin del mismo. El no realizar dicho proceso, puede llevarnos a dos situaciones
diferentes: primera que realicemos el estudio sin el nmero adecuado, con lo cual no podremos ser
precisos al estimar los parmetros y adems no encontraremos diferencias significativas cuando en la
realidad s existen. La segunda situacin es que podramos estudiar un nmero innecesario de la
poblacin, lo cual lleva implcito no solo la prdida de tiempo e incremento de recursos innecesarios
sino que adems la calidad del estudio, dado dicho incremento, puede verse afectada en sentido
negativo.
Para determinar el tamao muestral de un estudio, debemos considerar diferentes situaciones:
19
A. Estudios para determinar parmetros. Es decir pretendemos hacer inferencias a valores
poblacionales (proporciones, medias) a partir de una muestra (Tabla 1).
B. Estudios para contraste de hiptesis. Es decir pretendemos comparar si las medias o las
proporciones de las muestras son diferentes.
Tabla 1. Elementos de la Inferencia Estadstica
A. Estudios para determinar parmetros
Con estos estudios pretendemos hacer inferencias a valores poblacionales (proporciones, medias) a
partir de una muestra.
A.1. Estimar una proporcin:
Si deseamos estimar una proporcin, debemos saber:
El nivel de confianza o seguridad (1- ). El nivel de confianza prefijado da lugar a un coeficiente (Z ).
Para una seguridad del 95% = 1.96, para una seguridad del 99% = 2.58.
La precisin que deseamos para nuestro estudio.
20
Una idea del valor aproximado del parmetro que queremos medir (en este caso una proporcin). Esta
idea se puede obtener revisando la literatura, por estudio pilotos previos. En caso de no tener dicha
informacin utilizaremos el valor p = 0.5 (50%).
Ejemplo: A cuntas personas tendramos que estudiar para conocer la prevalencia de diabetes?
Seguridad = 95%; Precisin = 3%: Proporcin esperada = asumamos que puede ser prxima al 5%; si
no tuvisemos ninguna idea de dicha proporcin utilizaramos el valor p = 0,5 (50%) que maximiza el
tamao muestral:
donde:
Z
2
= 1.96
2
(ya que la seguridad es del 95%)
p = proporcin esperada (en este caso 5% = 0.05)
q = 1 p (en este caso 1 0.05 = 0.95)
d = precisin (en este caso deseamos un 3%)
Si la poblacin es finita, es decir conocemos el total de la poblacin y desesemos saber cuntos del
total tendremos que estudiar la respuesta seria:
donde:
N = Total de la poblacin
Za
2
= 1.96
2
(si la seguridad es del 95%)
p = proporcin esperada (en este caso 5% = 0.05)
q = 1 p (en este caso 1-0.05 = 0.95)
d = precisin (en este caso deseamos un 3%).
21
A cuntas personas tendra que estudiar de una poblacin de 15.000 habitantes para conocer la
prevalencia de diabetes?
Seguridad = 95%; Precisin = 3%; proporcin esperada = asumamos que puede ser prxima al 5% ; si
no tuviese ninguna idea de dicha proporcin utilizaramos el valor p = 0.5 (50%) que maximiza el
tamao muestral.
Segn diferentes seguridades el coeficiente de Za vara, as:
Si la seguridad Za fuese del 90% el coeficiente sera 1.645
Si la seguridad Za fuese del 97.5% el coeficiente sera 2.24
A.2. Estimar una media:
Si deseamos estimar una media: debemos saber:
El nivel de confianza o seguridad (1- ). El nivel de confianza prefijado da lugar a un coeficiente (Z ).
Para una seguridad del 95% = 1.96; para una seguridad del 99% = 2.58.
La precisin con que se desea estimar el parmetro (

d es la amplitud del intervalo de confianza).
Una idea de la varianza S
2
de la distribucin de la variable cuantitativa que se supone existe en la
poblacin.
Ejemplo: Si deseamos conocer la media del rendimiento acadmico de una poblacin, con una
seguridad del 95 % y una precisin de 3 puntos y tenemos informacin por un estudio piloto o
revisin bibliogrfica que la varianza es de 250
Si la poblacin es finita, como previamente se seal, es decir conocemos el total de la poblacin y
desearamos saber cuntos del total tendramos que estudiar, la respuesta sera:

22
B. Estudios para contraste de hiptesis:
Estos estudios pretenden comparar si las medias o las proporciones de las muestras son diferentes.
Habitualmente el investigador pretende comparar dos tratamientos. Para el clculo del tamao
muestral se precisa conocer:
Magnitud de la diferencia a detectar que tenga inters clnicamente relevante. Se pueden comparar
dos proporciones o dos medias.
Tener una idea aproximada de los parmetros de la variable que se estudia.
Seguridad del estudio (riesgo de cometer un error a)
Poder estadstico (1 - b) (riesgo de cometer un error b)
Definir si la hiptesis va a ser unilateral o bilateral.
Bilateral: Cualquiera de los dos parmetros a comparar (medias o proporciones) puede ser mayor o
menor que el otro. No se establece direccin.
Unilateral: Cuando se considera que uno de los parmetros debe ser mayor que el otro, indicando por
tanto una direccin de las diferencias.
La hiptesis bilateral es una hiptesis ms conservadora y disminuye el riesgo de cometer un error de
tipo I (rechazar la H0 cuando en realidad es verdadera).
B1. Comparacin de dos proporciones:
Donde:
n = sujetos necesarios en cada una de las muestras
Za = Valor Z correspondiente al riesgo deseado
Zb = Valor Z correspondiente al riesgo deseado
p1 = Valor de la proporcin en el grupo de referencia, placebo, control o tratamiento habitual.
p2 = Valor de la proporcin en el grupo del nuevo tratamiento, intervencin o tcnica.
p = Media de las dos proporciones p1 y p2
23
Los valores Za segn la seguridad y Zb segn el poder se indican en la Tabla 2 .
B2. Comparacin de dos medias:
Donde:
n = sujetos necesarios en cada una de las muestras
Za = Valor Z correspondiente al riesgo deseado
Zb = Valor Z correspondiente al riesgo deseado
S
2
= Varianza de la variable cuantitativa que tiene el grupo control o de referencia.
d = Valor mnimo de la diferencia que se desea detectar (datos cuantitativos)
Los valores Za segn la seguridad y Zb segn el poder se indican en la Tabla 2
(8)
.
Tabla 2. Valores de Za y Zb ms frecuentemente utilizados
Za
a
Test unilateral Test bilateral
0.200
0.150
0.100
0.050
0.025
0.010
0.842
1.036
1.282
1.645
1.960
2.326
1.282
1.440
1.645
1.960
2.240
2.576
Potencia
b (1-b) Zb
0.01
0.05
0.10
0.15
0.20
0.25
0.30
0.35
0.40
0.45
0.99
0.95
0.90
0.85
0.80
0.75
0.70
0.65
0.60
0.55
2.326
1.645
1.282
1.036
0.842
0.674
0.524
0.385
0.253
0.126
24
0.50 0.50 0.000
Ejemplo de comparacin de dos medias:
Deseamos desarrollar un experimento y consideramos que sera eficaz si lograse un descenso de 15
puntos respecto a la puntuacin inicial. Por estudios previos sabemos que la desviacin tpica del
experimento es de 16 puntos, aceptamos un riesgo de 0.05 y deseamos un poder estadstico de 90%
para detectar diferencias si es que existen.
Precisamos 20 personas en cada grupo.
Ejemplo de comparacin de dos proporciones:
Deseamos evaluar si el Tratamiento T2 es mejor que el tratamiento T1 para lo cual diseamos un
ensayo. Sabemos por datos previos que la eficacia del T habitual est alrededor del 70% y
consideramos relevante si el nuevo T demuestra un acierto del 90%. Nuestro nivel de riesgo lo fijamos
en 0.05 y deseamos un poder estadstico de un 80%.
n = 48.
II UNIDAD
CONTENIDOS CAPACIDADES INDICADORES
DE LOGRO
ACTITUDES INDICADORES
DE LOGRO
Regresin lineal simple:
diagrama de dispersin,
coeficientes de
regresin. Prediccin
Establece el tipo de
relacin funcional
lineal simple entre dos
variables cuantitativas,
utilizando diagramas
de dispersin y
calculando e
interpretando los
coeficientes de
regresin.
Grafica el diagrama de
dispersin, as como
determina la recta de
regresin lineal para
analizar la relacin entre
dos variables
-Iniciativa en la
solucin de
situaciones
problemticas
- Creatividad
-Formula
alternativas de
solucin a
situaciones
problemticas--
Es creativo al
aplicar los
mtodos y
procedimientos
estadsticos
.Correlacin: Coeficiente Calcula e interpreta el Grafica el diagrama de
25
de Pearson. Coeficiente
de determinacin
coeficiente de
correlacin y de
determinacin para
variables cuantitativas.
dispersin, as como calcula
el coeficiente de correlacin
para analizar la relacin
entre dos variables
-Buena prctica
de valores
Responsabilidad
-Muestra
cortesa,
respeto y
tolerancia en su
trato con los
dems
-Presenta sus
trabajos
individuales y
grupales en las
fechas
establecidas
Nociones de
probabilidad.
Distribuciones de
probabilidad.
Distribuciones de
probabilidad: normal, t y
2
. Uso de tablas
Realiza clculos
bsicos sobre
probabilidades de
eventos
Calcula adecuadamente
probabilidades de eventos,
utilizando reglas,
propiedades o tablas de las
distribuciones de
probabilidad
Nociones de estadstica
Inferencial. Prueba de
hiptesis. Prueba de
hiptesis para la media
y proporcin
poblacional.
Realiza pruebas de
hiptesis sobre
medias y proporciones
poblacionales para
muestras grandes y
muestras pequeas.
Efecta prueba de hiptesis
sobre medias y
proporciones poblacionales
aplicando adecuadamente
los procedimientos
pertinentes
Prueba de hiptesis
para comparacin de
poblacionales.
Realiza pruebas de
hiptesis sobre
comparacin de
poblacionales.
Efecta prueba de hiptesis
sobre comparacin de
poblacionales aplicando
adecuadamente los
procedimientos pertinentes
Prueba de hiptesis
sobre relacin entre
variables cualitativas:
Chi-Cuadrado
Realiza pruebas de
hiptesis sobre
relacin entre
variables cualitativas.
Efecta prueba de
independencia para
determinar la relacin entre
dos variables cualitativas
aplicando adecuadamente
los procedimientos
pertinentes
EXAMEN FINAL.
6. COEFICIENTE DE CORRELACIN LINEAL
En una distribucin bidimensional puede ocurrir que las dos variables guarden algn tipo de relacin
entre s. Por ejemplo, si se analiza la estatura y el peso de los alumnos de una clase es muy posible
que exista relacin entre ambas variables: mientras ms alto sea el alumno, mayor ser su peso.
El coeficiente de correlacin lineal mide el grado de intensidad de esta posible relacin entre las
variables. Este coeficiente se aplica cuando la relacin que puede existir entre las variables es lineal
26
No obstante, puede que exista una relacin que no sea lineal, sino exponencial, parablica, etc. En
estos casos, el coeficiente de correlacin lineal medira mal la intensidad de la relacin las variables,
por lo que convendra utilizar otro tipo de coeficiente ms apropiado.
Para ver, por tanto, si se puede utilizar el coeficiente de correlacin lineal, lo mejor es representar los
pares de valores en un grfico y observar la forma que describen.
El coeficiente de correlacin lineal se calcula aplicando la siguiente frmula:
Es decir:
Numerador: se denomina covarianza y se calcula de la siguiente manera: en cada par de
valores (x,y) se multiplica la "x" menos su media, por la "y" menos su media. Se suma el
resultado obtenido de todos los pares de valores y este resultado se divide por el tamao de la
muestra.
Denominador se calcula el producto de las varianzas de "x" y de "y", y a este producto se le
calcula la raz cuadrada.
Los valores que puede tomar el coeficiente de correlacin "r" son: -1 < r < 1
Si "r" > 0, la correlacin lineal es positiva (si sube el valor de una variable sube el de la otra).
La correlacin es tanto ms fuerte cuanto ms se aproxime a 1.
Por ejemplo: altura y peso: los alumnos ms altos suelen pesar ms.
Si "r" < 0, la correlacin lineal es negativa (si sube el valor de una variable disminuye el de la
otra). La correlacin negativa es tanto ms fuerte cuanto ms se aproxime a 1.
Por ejemplo: peso y velocidad: los alumnos ms gordos suelen correr menos.
Si "r" = 0, no existe correlacin lineal entre las variables. Aunque podra existir otro tipo de
correlacin (parablica, exponencial, etc.)
De todos modos, aunque el valor de "r" fuera prximo a 1 o -1, tampoco esto quiere decir
obligatoriamente que existe una relacin de causa-efecto entre las dos variables, ya que este
resultado podra haberse debido al puro azar.
Ejemplo: vamos a calcular el coeficiente de correlacin de la siguiente serie de datos de altura y peso
de los alumnos de una clase:
Alumno Estatura Peso Alumno Estatura Peso Alumno Estatura Peso
X y x y x y
27
Alumno 1 1,25 32 Alumno 11 1,25 33 Alumno 21 1,25 33
Aplicamos la frmula:

Luego,

Por lo tanto, la correlacin existente entre estas dos variables es elevada (0,7) y de signo postivo.
7. REGRESIN LINEAL

Representamos en un grfico los pares de valores de una distribucin bidimensional: la variable "x" en
el eje horizontal o eje de abscisa, y la variable "y" en el eje vertical, o eje de ordenada. Vemos que la
nube de puntos sigue una tendencia lineal:
28
(1/30) * (0,826)
r = ----------------------------------------------------------
(((1/30)*(0,02568)) * ((1/30)*(51,366)))^(1/2)
r = 0,719
El coeficiente de correlacin lineal nos permite determinar si, efectivamente, existe relacin entre
las dos variables. Una vez que se concluye que s existe relacin, la regresin nos permite definir la
recta que mejor se ajusta a esta nube de puntos.
Una recta viene definida por la siguiente frmula:
y = a + bx
Donde "y" sera la variable dependiente, es decir, aquella que viene definida a partir de la otra variable
"x" (variable independiente). Para definir la recta hay que determinar los valores de los parmetros "a"
y "b":
El parmetro "a" es el valor que toma la variable dependiente "y", cuando la variable
independiente "x" vale 0, y es el punto donde la recta cruza el eje vertical.
El parmetro "b" determina la pendiente de la recta, su grado de inclinacin.
La regresin lineal nos permite calcular el valor de estos dos parmetros, definiendo la recta que
mejor se ajusta a esta nube de puntos.
El parmetro "b" viene determinado por la siguiente frmula:
Es la covarianza de las dos variables, dividida por la varianza de la variable "x".
El parmetro "a" viene determinado por:
a = ym - (b * xm)
Es la media de la variable "y", menos la media de la variable "x" multiplicada por el parmetro "b" que
hemos calculado.
Ejemplo: vamos a calcular la recta de regresin de la siguiente serie de datos de altura y peso de los
alumnos de una clase. Vamos a considerar que la altura es la variable independiente "x" y que el peso
es la variable dependiente "y" (podamos hacerlo tambin al contrario):
Alumno Estatura Peso Alumno Estatura Peso Alumno Estatura Peso
x Y x y x y
29
El parmetro "b" viene determinado por:
b =
(1/30) * 1,034

----------------------------------------- = 40,265
(1/30) * 0,00856
Y el parmetro "a" por:
a = 33,1 - (40,265 * 1,262) = -17,714
Por lo tanto, la recta que mejor se ajusta a esta serie de datos es:
y = -17,714 + (40,265 * x)
Esta recta define un valor de la variable dependiente (peso), para cada valor de la variable
independiente (estatura):

Estatura Peso
x x
1,20 30,6
1,21 31,0
1,22 31,4
1,23 31,8
1,24 32,2
1,25 32,6
1,26 33,0
1,27 33,4
1,28 33,8
1,29 34,2
1,30 34,6

8. PROBABILIDAD
La probabilidad mide la frecuencia con la que aparece un resultado determinado cuando se realiza
un experimento.
Ejemplo: tiramos un dado al aire y queremos saber cul es la probabilidad de que salga un 2,
o que salga un nmero par, o que salga un nmero menor que 4.
30
El experimento tiene que ser aleatorio, es decir, que pueden presentarse diversos resultados,
dentro de un conjunto posible de soluciones, y esto aun realizando el experimento en las mismas
condiciones. Por lo tanto, a priori no se conoce cul de los resultados se va a presentar:
Ejemplos: lanzamos una moneda al aire: el resultado puede ser cara o cruz, pero no
sabemos de antemano cul de ellos va a salir.
En la Lotera de Navidad, el "Gordo" (en Espaa se llama "Gordo" al primer premio) puede ser
cualquier nmero entre el 1 y el 100.000, pero no sabemos a priori cual va a ser (si lo
supiramos no estaramos aqu escribiendo esta leccin).
Hay experimentos que no son aleatorios y por lo tanto no se les puede aplicar las reglas de la
probabilidad.
Ejemplo: en lugar de tirar la moneda al aire, directamente seleccionamos la cara. Aqu no podemos
hablar de probabilidades, sino que ha sido un resultado determinado por uno mismo. Antes de
calcular las probabilidades de un experimento aleatorio hay que definir una serie de conceptos:
Suceso elemental: hace referencia a cada una de las posibles soluciones que se pueden presentar.
Ejemplo: al lanzar una moneda al aire, los sucesos elementales son la cara y la cruz. Al
lanzar un dado, los sucesos elementales son el 1, el 2, .., hasta el 6.
Suceso compuesto: es un subconjunto de sucesos elementales.
Ejemplo: lanzamos un dado y queremos que salga un nmero par. El suceso "numero par" es
un suceso compuesto, integrado por 3 sucesos elementales: el 2, el 4 y el 6
O, por ejemplo, jugamos a la ruleta y queremos que salga "menor o igual que 18". Este es un
suceso compuesto formado por 18 sucesos elementales (todos los nmeros que van del 1 al
18).
Al conjunto de todos los posibles sucesos elementales lo denominamos espacio muestral. Cada
experimento aleatorio tiene definido su espacio muestral (es decir, un conjunto con todas las
soluciones posibles).
Ejemplo: si tiramos una moneda al are una sola vez, el espacio muestral ser cara o cruz.
Si el experimento consiste en lanzar una moneda al aire dos veces, entonces el espacio
muestral estara formado por (cara-cara), (cara-cruz), (cruz-cara) y (cruz-cruz).
8.1 PROBABILIDAD: RELACIN ENTRE SUCESOS
Entre los sucesos compuestos se pueden establecer distintas relaciones:
31
a) Un suceso puede estar contenido en otro: las posibles soluciones del primer suceso tambin lo
son del segundo, pero este segundo suceso tiene adems otras soluciones suyas propias.
Ejemplo: lanzamos un dado y analizamos dos sucesos: a) que salga el nmero 6, y b) que
salga un nmero par. Vemos que el suceso a) est contenido en el suceso b).
Siempre que se da el suceso a) se da el suceso b), pero no al contrario. Por ejemplo, si el
resultado fuera el 2, se cumplira el suceso b), pero no el el a).
b) Dos sucesos pueden ser iguales: esto ocurre cuando siempre que se cumple uno de ellos se
cumple obligatoriamente el otro y viceversa.
Ejemplo: lanzamos un dado al aire y analizamos dos sucesos: a) que salga nmero par, y b)
que salga mltiplo de 2. Vemos que las soluciones coinciden en ambos casos.
c) Unin de dos o ms sucesos: la unin ser otro suceso formado por todos los elementos de los
sucesos que se unen.
Ejemplo: lanzamos un dado al aire y analizamos dos sucesos: a) que salga nmero par y b)
que el resultado sea mayor que 3. El suceso unin estara formado por los siguientes
resultados: el 2, el 4, el 5 y el 6
d) Interseccin de sucesos: es aquel suceso compuesto por los elementos comunes de dos o ms
sucesos que se intersectan.
Ejemplo: lanzamos un dado al aire, y analizamos dos sucesos: a) que salga nmero par, y b)
que sea mayor que 4. La interseccin de estos dos sucesos tiene un slo elemento, el nmero
6 (es el nico resultado comn a ambos sucesos: es mayor que 4 y es nmero par).
e) Sucesos incompatibles: son aquellos que no se pueden dar al mismo tiempo ya que no tienen
elementos comunes (su intereseccin es el conjunto vacio).
Ejemplo: lanzamos un dado al aire y analizamos dos sucesos: a) que salga un nmero menor
que 3, y b) que salga el nmero 6. Es evidente que ambos no se pueden dar al mismo tiempo.
f) Sucesos complementarios: son aquellos que si no se da uno, obligatoriamente se tiene que dar el
otro.
Ejemplo: lanzamos un dado al aire y analizamos dos sucesos: a) que salga un nmero par, y
b) que salga un nmero impar. Vemos que si no se da el primero se tiene que dar el segundo
(y viceversa).
8.2 Clculo de probabilidades
Como hemos comentado anteriormente, la probabilidad mide la mayor o menor posibilidad de que se
d un determinado resultado (suceso) cuando se realiza un experimento aleatorio.
32
La probabilidad toma valores entre 0 y 1 (o expresados en tanto por ciento, entre 0% y 100%):
El valor cero corresponde al suceso imposible: lanzamos un dado al aire y la probabilidad
de que salga el nmero 7 es cero (al menos, si es un dado certificado por la OMD,
"Organizacin Mundial de Dados").
El valor uno corresponde al suceso seguro: lanzamos un dado al aire y la probabilidad de
que salga cualquier nmero del 1 al 6 es igual a uno (100%).
El resto de sucesos tendr probabilidades entre cero y uno: que ser tanto mayor cuanto
ms probable sea que dicho suceso tenga lugar.
Cmo se mide la probabilidad?
Uno de los mtodos ms utilizados es aplicando la Regla de Laplace: define la probabilidad de un
suceso como el cociente entre casos favorables y casos posibles.
P(A) = Casos favorables / casos posibles
Veamos algunos ejemplos:
a) Probabilidad de que al lanzar un dado salga el nmero 2: el caso favorable es tan slo
uno (que salga el dos), mientras que los casos posibles son seis (puede salir cualquier
nmero del uno al seis). Por lo tanto:
P(A) = 1 / 6 = 0,166 (o lo que es lo mismo, 16,6%)
b) Probabilidad de que al lanzar un dado salga un nmero par: en este caso los casos
favorables son tres (que salga el dos, el cuatro o el seis), mientras que los casos posibles
siguen siendo seis. Por lo tanto:
P(A) = 3 / 6 = 0,50 (o lo que es lo mismo, 50%)
c) Probabilidad de que al lanzar un dado salga un nmero menor que 5: en este caso
tenemos cuatro casos favorables (que salga el uno, el dos, el tres o el cuatro), frente a los seis
casos posibles. Por lo tanto:
P(A) = 4 / 6 = 0,666 (o lo que es lo mismo, 66,6%)
d) Probabilidad de que nos toque el "Gordo" de Navidad: tan slo un caso favorable, el
nmero que jugamos (qu triste...), frente a 100.000 casos posibles. Por lo tanto:
P(A) = 1 / 100.000 = 0,00001 (o lo que es lo mismo, 0,001%)
Merece la pena... Por cierto, tiene la misma probabilidad el nmero 45.264, que el nmero
00001, pero cul de los dos compraras?
Para poder aplicar la Regla de Laplace el experimento aleatorio tiene que cumplir dos requisitos:
33
a) El nmero de resultados posibles (sucesos) tiene que ser finito. Si hubiera infinitos
resultados, al aplicar la regla "casos favorables / casos posibles" el cociente siempre sera
cero.
b) Todos los sucesos tienen que tener la misma probabilidad. Si al lanzar un dado,
algunas caras tuvieran mayor probabilidad de salir que otras, no podramos aplicar esta regla.
A la regla de Laplace tambin se le denomina "probabilidad a priori", ya que para aplicarla hay que
conocer antes de realizar el experimento cuales son los posibles resultados y saber que todos tienen
las mismas probabilidades.
Y si el experimento aleatorio no cumple los dos requisitos indicados, qu hacemos?,
ponemos una denuncia?
No, no va a ser necesario denunciar a nadie, ya que en este caso podemos acudir a otro modelo de
clculo de probabilidades que se basa en la experiencia (modelo frecuentista):
Cuando se realiza un experimento aleatorio un nmero muy elevado de veces, las
probabilidades de los diversos posibles sucesos empiezan a converger hacia valores
determinados, que son sus respectivas probabilidades.
Ejemplo: si lanzo una vez una moneda al aire y sale "cara", quiere decir que el suceso "cara"
ha aparecido el 100% de las veces y el suceso "cruz" el 0%.
Si lanzo diez veces la moneda al aire, es posible que el suceso "cara" salga 7 veces y el
suceso "cruz" las 3 restantes. En este caso, la probabilidad del suceso "cara" ya no sera del
100%, sino que se habra reducido al 70%.
Si repito este experimento un nmero elevado de veces, lo normal es que las probabilidades
de los sucesos "cara" y "cruz" se vayan aproximando al 50% cada una.
En este modelo ya no ser necesario que el nmero de soluciones sea finito, ni que todos los sucesos
tengan la misma probabilidad.
Ejemplo: si la moneda que utilizamos en el ejemplo anterior fuera defectuosa (o estuviera
trucada), es posible que al repetir dicho experimento un nmero elevado de veces, la "cara"
saliera con una frecuencia, por ejemplo, del 65% y la "cruz" del 35%. Estos valores seran las
probabilidades de estos dos sucesos segn el modelo frecuentista.
A esta definicin de la probabilidad se le denomina probabilidad a posteriori, ya que tan slo
repitiendo un experimento un nmero elevado de veces podremos saber cual es la probabilidad de
cada suceso.
9 PROBABILIDAD DE SUCESOS
Al definir los sucesos hablamos de las diferentes relaciones que pueden guardar dos sucesos entre s,
as como de las posibles relaciones que se pueden establecer entre los mismos. Vamos a ver ahora
cmo se refleja esto en el clculo de probabilidades.
34
a) Un suceso puede estar contenido en otro: entonces, la probabilidad del primer suceso ser
menor que la del suceso que lo contiene.
Ejemplo: lanzamos un dado y analizamos dos sucesos: a) que salga el nmero 6, y b) que salga un
nmero par. Dijimos que el suceso a) est contenido en el suceso b).
P(A) = 1/6 = 0,166
P(B) = 3 / 6 = 0,50
Por lo tanto, podemos ver que la probabilidad del suceso contenido, suceso a), es menor que la
probabilidad del suceso que lo contiene, suceso b).
b) Dos sucesos pueden ser iguales: en este caso, las probabilidades de ambos sucesos son las
mismas.
Ejemplo: lanzamos un dado al aire y analizamos dos sucesos: a) que salga nmero par, y b) que
salga mltiplo de 2. Las soluciones coinciden en ambos casos.
P(A) = 3 / 6 = 0,50
P(B) = 3 / 6 = 0,50
c) Interseccin de sucesos: es aquel suceso compuesto por los elementos comunes de los dos o
ms sucesos que se intersectan. La probabilidad ser igual a la probabilidad de los elemntos
comunes.
Ejemplo: lanzamos un dado al aire y analizamos dos sucesos: a) que salga nmero par, y b) que sea
mayor que 3. La interseccin de estos dos sucesos tiene dos elementos: el 4 y el 6.
Su probabilidad ser por tanto:
P(A B) = 2 / 6 = 0,33
d) Unin de dos o ms sucesos: la probabilidad de la unin de dos sucesos es igual a la suma de
las probabilidades individuales de los dos sucesos que se unen, menos la probabilidad del suceso
interseccin
Ejemplo: lanzamos un dado al aire y analizamos dos sucesos: a) que salga nmero par, y b) que el
resultado sea mayor que 3. El suceso unin estara formado por los siguientes resultados: el 2, el 4, el
5 y el 6.
P(A) = 3 / 6 = 0,50
P(B) = 3 / 6 = 0,50
P (A B) = 2 / 6 = 0,33
35
Por lo tanto,
P (A u B) = (0,50 + 0,50) - 0,33 = 0,666
e) Sucesos incompatibles: la probabilidad de la unin de dos sucesos incompatibles ser igual a la
suma de las probabilidades de cada uno de los sucesos (ya que su interseccin es el conjunto vacio y
por lo tanto no hay que restarle nada).
Ejemplo: lanzamos un dado al aire y analizamos dos sucesos: a) que salga un nmero menor que 3,
y b) que salga el nmero 6.
La probabilidad del suceso unin de estos dos sucesos ser igual a:
P(A) = 2 / 6 = 0,333
P(B) = 1 / 6 = 0,166
Por lo tanto,
P(A u B) = 0,33 + 0,166 = 0,50
f) Sucesos complementarios: la probabilidad de un suceso complementario a un suceso (A) es igual
a 1 - P(A)
Ejemplo: lanzamos un dado al aire. el suceso (A) es que salga un nmero par, luego su
complementario, suceso (B), es que salga un nmero impar.
La probabilidad del suceso (A) es igual a :
P(A) = 3 / 6 = 0,50
Luego, la probabilidad del suceso (B) es igual a:
P(B) = 1 - P(A) = 1 - 0,50 = 0,50
Se puede comprobar aplicando la regla de "casos favorables / casos posibles":
P(B) = 3 / 6 = 0,50
g) Unin de sucesos complementarios: la probabilidad de la unin de dos sucesos
complementarios es igual a 1.
Ejemplo: seguimos con el ejemplo anterior: a) que salga un nmero par, y b) que salga un
nmero impar. La probabilidad del suceso unin de estos dos sucesos ser igual a:
P(A) = 3 / 6 = 0,50
P(B) = 3 / 6 = 0,50
Por lo tanto,
36
P(A U B) = 0,50 + 0,50 = 1
10 PRUEBA DE HIPTESIS
Hiptesis: enunciado acerca de una poblacin elaborada con el propsito de ponerse a prueba.
Ejemplos de hiptesis acerca de un parmetro de poblacin son:
la media mensual de ingresos para analistas de sistemas es $3625,
el 20% de los delincuentes juveniles son capturados y sentenciados a prisin.
PRUEBA DE HIPTESIS
Afirmacin acerca de los parmetros de la poblacin.
Etapas Bsicas en Pruebas de Hiptesis.
Al realizar pruebas de hiptesis, se parte de un valor supuesto (hipottico) en parmetro poblacional.
Despus de recolectar una muestra aleatoria, se compara la estadstica muestral, as como la media
(x), con el parmetro hipottico, se compara con una supuesta media poblacional (). Despus se
acepta o se rechaza el valor hipottico, segn proceda. Se rechaza el valor hipottico slo si el
resultado muestral resulta muy poco probable cuando la hiptesis es cierta.
Etapa 1.- Planear la hiptesis nula y la hiptesis alternativa. La hiptesis nula (H0) es el valor
hipottico del parmetro que se compra con el resultado muestral resulta muy poco probable cuando
la hiptesis es cierta.
Etapa 2.- Especificar el nivel de significancia que se va a utilizar. El nivel de significancia del 5%,
entonces se rechaza la hiptesis nula solamente si el resultado muestral es tan diferente del valor
hipottico que una diferencia de esa magnitud o mayor, pudiera ocurrir aleatoria mente con una
probabilidad de 1.05 o menos.
Etapa 3.- Elegir la estadstica de prueba. La estadstica de prueba puede ser la estadstica muestral
(el estimador no segado del parmetro que se prueba) o una versin transformada de esa estadstica
muestral. Por ejemplo, para probar el valor hipottico de una media poblacional, se toma la media de
una muestra aleatoria de esa distribucin normal, entonces es comn que se transforme la media en
un valor z el cual, a su vez, sirve como estadstica de prueba.
Definiciones
Hiptesis nula H0: afirmacin acerca del valor de un parmetro poblacional.
Hiptesis alterna H1: afirmacin que se aceptar si los datos muestrales proporcionan evidencia de
que la hiptesis nula es falsa.
37
Nivel de significancia: probabilidad de rechazar la hiptesis nula cuando es verdadera.
Error Tipo I: rechazar la hiptesis nula cuando en realidad es verdadera.
Error Tipo II: aceptar la hiptesis nula cuando en realidad es falsa.
Estadstico de prueba: valor obtenido a partir de la informacin muestral, se utiliza para determinar si
se rechaza o no la hiptesis.
Valor crtico: el punto que divide la regin de aceptacin y la regin de rechazo de la hiptesis nula.
Valor p en la prueba de hiptesis
Valor p: es la probabilidad de observar un valor muestral tan extremo o ms que el valor observado,
dado que la hiptesis nula es verdadera.
Si el valor p es menor que el nivel de significancia, H0 se rechaza.
Si el valor p es mayor que el nivel de significancia, H0 no se rechaza
LA PRUEBA DE X
2

La prueba de X
2
se utiliza cuando se quieren analizar la correlacin entre dos variables cuyos valores
son nominales y parte, de la comparacin de las frecuencias absolutas del cruce de los valores, con
los valores de las frecuencias esperados de forma terica.
En el siguiente ejemplo se tienen 212 estudiantes de las carreras de psicologa, ingeniera y
arquitectura, se desea encontrar si existe correlacin entre la carrera estudiada y el gnero (masculino
o femenino).
TABLA 1
GENERO CARRERA GENERO CARRERA GENERO CARRERA GENERO CARRERA GENERO CARRERA
Masculino ingeniera Femenino Psicologa femenino Arquitectura Femenino ingeniera femenino psicologa
Femenino arquitectura Masculino Ingeniera masculino ingeniera Femenino psicologa masculino arquitectura
Masculino psicologa Masculino Arquitectura femenino ingeniera Femenino psicologa masculino ingeniera
Femenino ingeniera Masculino Ingeniera femenino psicologa Femenino arquitectura masculino psicologa
Femenino arquitectura Femenino Ingeniera femenino psicologa Masculino ingeniera femenino ingeniera
Femenino psicologa Masculino Ingeniera femenino arquitectura Femenino psicologa femenino arquitectura
Femenino psicologa Femenino Ingeniera masculino arquitectura Femenino arquitectura femenino psicologa
Femenino ingeniera Femenino Ingeniera masculino psicologa Masculino arquitectura femenino arquitectura
Masculino ingeniera Femenino Arquitectura femenino psicologa Femenino psicologa femenino psicologa
Femenino psicologa Masculino Ingeniera femenino ingeniera Femenino ingeniera femenino psicologa
Masculino psicologa Femenino Ingeniera femenino ingeniera Femenino arquitectura masculino ingeniera
Masculino ingeniera Femenino Ingeniera masculino ingeniera Masculino psicologa femenino arquitectura
Masculino psicologa Masculino Psicologa femenino ingeniera Masculino psicologa femenino ingeniera
Femenino psicologa Femenino Arquitectura femenino psicologa Masculino arquitectura masculino arquitectura
Masculino ingeniera Masculino Psicologa femenino ingeniera Masculino ingeniera masculino arquitectura
Masculino arquitectura Masculino Ingeniera masculino arquitectura Femenino arquitectura femenino psicologa
Masculino arquitectura Femenino Ingeniera femenino arquitectura Femenino arquitectura femenino ingeniera
Masculino ingeniera Masculino Arquitectura masculino ingeniera Femenino psicologa masculino ingeniera
Femenino arquitectura Femenino Psicologa masculino psicologa Femenino psicologa femenino psicologa
Femenino arquitectura Masculino Psicologa femenino psicologa Femenino psicologa femenino psicologa
Femenino psicologa Masculino Arquitectura femenino psicologa Masculino arquitectura masculino ingeniera
Femenino psicologa Masculino Arquitectura femenino psicologa Femenino psicologa masculino arquitectura
Femenino psicologa Femenino Arquitectura femenino psicologa Masculino ingeniera masculino arquitectura
Femenino arquitectura Femenino Arquitectura femenino arquitectura Masculino ingeniera masculino arquitectura
Femenino ingeniera Femenino Psicologa femenino ingeniera Masculino arquitectura femenino psicologa
Masculino arquitectura Masculino Ingeniera femenino ingeniera Femenino psicologa masculino ingeniera
Femenino psicologa Femenino Arquitectura femenino ingeniera Femenino ingeniera masculino ingeniera
Femenino arquitectura Masculino Ingeniera femenino psicologa Femenino arquitectura masculino psicologa
Masculino psicologa Femenino Arquitectura masculino arquitectura Masculino arquitectura masculino arquitectura
38
Femenino ingeniera Masculino Psicologa femenino psicologa Masculino arquitectura femenino arquitectura
Masculino ingeniera Masculino Ingeniera femenino arquitectura Masculino psicologa femenino psicologa
Masculino ingeniera Masculino Psicologa femenino arquitectura Femenino arquitectura femenino psicologa
Masculino arquitectura Femenino Ingeniera masculino psicologa Femenino arquitectura femenino arquitectura
Femenino ingeniera Femenino Psicologa masculino psicologa Masculino psicologa masculino psicologa
Masculino arquitectura Femenino Ingeniera masculino arquitectura Femenino ingeniera masculino ingeniera
Masculino ingeniera Masculino Ingeniera masculino ingeniera Femenino arquitectura femenino psicologa
Femenino arquitectura Femenino Ingeniera femenino arquitectura Masculino ingeniera femenino psicologa
Femenino arquitectura Masculino Ingeniera femenino psicologa Masculino ingeniera masculino ingeniera
Masculino psicologa Femenino Ingeniera femenino psicologa Femenino arquitectura masculino psicologa
Masculino arquitectura Masculino Arquitectura masculino ingeniera Masculino ingeniera masculino ingeniera
Masculino psicologa Femenino Psicologa femenino arquitectura Masculino psicologa
Femenino psicologa Femenino Psicologa femenino psicologa Femenino arquitectura
Femenino ingeniera Masculino Arquitectura femenino ingeniera Masculino arquitectura
39
Lo primero que hacemos es un conteo de las variables cruzadas como se muestra en la siguiente
tabla.
TABLA 2
Frecuencia observada
Psicologa Ingeniera arquitectura
Masculino 24 39 30
Femenino 49 32 38
Despus se procede a contar los valores de cada variable sumando los renglones sumando las
columnas, por ejemplo el total de:
masculino es 24 + 39 + 30 = 93
femenino es 49 + 32 + 38 = 119
psicologa es 24 + 49 = 73
ingeniera es 39 + 32 = 71
arquitectura es 30 + 38 = 68
Y la suma total es 212
TABLA 3
psicologa Ingeniera arquitectura
Masculino 24 39 30 93
Femenino 49 32 38 119
73 71 68 212
Se calcula la tabla de las frecuencias esperadas multiplicando de la TABLA 3 la suma del rengln por
la suma de la columna dividida entre la suma total, colocando el resultado en la TABLA 4.
As para:
masculino - psicologa 73 x 93 / 212 = 32.0235849
masculino ingeniera 71 x 93 / 212 =31.1462264
masculino arquitectura 68 x 93 / 212 =29.8301887
femenino - psicologa 73 x 119 / 212 = 40.9764151
femenino ingeniera 71 x 119 / 212 =39.8537736
femenino arquitectura 68 x 119 / 212 =38.1698113
TABLA 4
frecuencia esperada
Masculino 32.0235849 31.1462264 29.8301887
Femenino 40.9764151 39.8537736 38.1698113
Si comparamos los valores de las frecuencias esperadas con la de las frecuencias observadas
tenemos que la frecuencia observada en masculino psicologa = 24 es menor que su frecuencia
esperada = 32.0235849 esto puede implicar un correlacin negativa, es decir el valor masculino de la
variable gnero puede presentar valores inferiores a los esperados del valor psicologa de la variable
carrera. Una forma ms simple de decirlo es que los estudiantes de genero masculino tienden a
presentarse menos en la carrera de psicologa en menor grado que los de genero femenino, el que
exista una correlacin negativa o positiva no implica trminos excluyentes o determinantes pues en
este ejemplo aunque la correlacin parece ser negativa ( tal y como lo calcularemos mas adelante)
ello no implica que estudiantes del genero masculino se excluyan de la carrera de psicologa,
40
simplemente significa que los valores observados son menores a los que esperaramos
estadsticamente si no hubiera correlacin.
Para medir la correlacin procedemos a calcular el valor de la X
2
.
El valor de la X
2
es igual a:
Esto es la suma de los cuadrados de la diferencia entre la frecuencia esperada menos la frecuencia
observada entre la frecuencia esperada.
Esto lo veremos con mayor claridad en la siguiente tabla
As para:
(GENERO-CARRERA) (fe - fo)
2
/ fe
masculino - psicologa ( 32.0235849 24 )
2
/ 32.0235849 = 2.01032817
masculino ingeniera ( 31.1462264 39 )
2
/ 31.1462264 = 1.9803927
masculino arquitectura ( 29.8301887 30 )
2
/ 29.8301887 = 0.0009666
femenino - psicologa ( 40.9764151 49 )
2
/ 40.9764151 = 1.5710968
femenino ingeniera ( 39.8537736 32 )
2
/ 39.8537736 = 1.54770186
femenino arquitectura ( 38.1698113 38 )
2
/ 38.1698113 = 0.00075546
TABLA 5
X
2
Masculino 2.01032817 1.9803927 0.00096667
Femenino 1.5710968 1.54770186 0.00075546
X
2
= 7.11124166
El valor de la X
2
es la suma de todos los trminos
2.01032817
+ 1.9803927
+ 0.00096667
+ 1.5710968
+ 1.54770186
+ 0.00075546
7.11124166
As:
X
2
= 7.11124166
Ahora calculamos los grados de libertad (g.l.) mediante la siguiente frmula.
g.l. =(r 1)(c 1)
g.l. = grados de libertad
r = nmero de renglones
41
( )
observada frecuencia
esperada frecuencia
1
2
2
=
=
=

=
fo
fe
fe
fo fe
n
i
c = nmero de columnas
Para el ejemplo que estamos manejando tenemos:
r = 2 (Los renglones para los dos valores masculino y femenino)
c = 3 (Las columnas para los tres valores de psicologa, ingeniera y arquitectura)
As:
g.l. = (r 1)(c 1)
g.l. = (2 1)(3 1)
g.l. = (1)(2)
g.l. = 2
Para el ejemplo tenemos que:
X
2
= 7.11124166 y g.l. = 2
Teniendo el valor de la X
2
y los grados de libertad procedemos a calcular " (alfa)
Siendo alfa:
Donde es la funcin GAMMA
La funcin anterior no se puede integrar de manera explcita por lo que para resolverla es necesario
usar mtodos numricos de integracin.
Mediante las hojas de clculo de Microsoft Excel es posible calcular el valor de " escribiendo para
este ejemplo:
=DISTR.CHI(7.11124166, 2)
Ya que: X
2
= 7.11124166 y g.l. = 2
Haciendo esto, obtenemos:
"= 0.0285636361919662
El significado de (alfa) y su interpretacin "
El mtodo de anlisis de correlacin no paramtrica para tablas de contingencia de la X
2
parte del
supuesto inicial de que no existe correlacin entre las variables y que los resultados de la muestra son
producto exclusivamente del azar.
A este supuesto inicial se le conoce como la hiptesis nula y se le designa con H0.
Dada esta suposicin el valor de "es la probabilidad de que se obtenga una muestra como la que se
obtuvo sin que exista una correlacin de las variables, si el valor de " es muy pequeo, entonces
tenemos dos opciones:
1.-) Se obtuvo una muestra muy extraa y con escasas probabilidades de ocurrir.
2.-)La hiptesis nula de que no existe correlacin entre las variables es falsa siendo que los valores
observados ocurrieron no por azar sino porque estn correlacionadas, A esta opcin se le conoce
como la hiptesis alternativa y se le denomina Ha.
Si el valor de " es muy pequeo, se opta por la segunda opcin pues es una explicacin mas
plausible que las variables estn correlacionadas a que haya ocurrido un hecho rarsimo.
42
2
2
1
2
.
2
2
2
2
2
. .
2
1
dx e
x
l g
x
l g
Para nuestro ejemplo tenemos que:

"= 0.0285636361919662
Esto significa que la probabilidad sera menor del 3 % para que ocurra una muestra como la que se
obtuvo.
Otra forma de percibir la probabilidad de alfa es obteniendo el reciproco de "esto es:
"
"
"
0.0285636361919662
"
"*"""
"
Significa que la probabilidad de ocurrencia es de uno en 34.

Tambin tenemos lo que es el nivel de significancia o intervalo de confianza (I.C).
I.C. = 1 - "
I.C. = 1 - 0.0285636361919662
I.C. = 0.971436363808034
I.C. = 97.144 %
Tenemos entonces para nuestro ejemplo dos opciones.
1.-) Los resultados de esta muestra son producto exclusivamente del azar y ocurri algo que ocurre
una de cada 34 veces (hiptesis nula H0 ).
2.-) No ha ocurrido un hecho extrao con pocas posibilidades de ocurrencia sino que ha ocurrido un
hecho comn donde las variables se encuentran correlacionadas (hiptesis alternativa Ha ).
Cul es la opcin que tomaramos para este caso?
Existe un criterio que es enteramente convencional pues no existe ninguna razn matemtica para
validarlo de que con valores de " menores o iguales a 0.05, se opta por la hiptesis alternativa Ha,
esto es las variables estn correlacionadas en tanto que para valores de "mayores de 0.05 se opta
por la hiptesis nula H0, esto es las variables no estn correlacionadas.
Una = 0.05 " implica un nivel de significancia de o intervalo de confianza (I.C.) de:
I.C. = 1 - "
I.C. = 1 0.05
I.C. = 0.95
I.C. = 95 %
A este criterio se le conoce como un nivel de significancia del 95 %
Si aplicamos este criterio a nuestro ejemplo, tenemos que:
"= 0.0285636361919662
0.0285636361919662 < 0.05
I.C. = 97.144 %
97.144 % > 95 %
Lo que implica la hiptesis alternativa Ha estos es que las variables GNERO Y CARRERA
estn correlacionadas.
Como podemos observar en la tabla de frecuencias esperadas ( TABLA 4 ), todas la frecuencias
esperadas son mayores que 5, si el porcentaje de las frecuencias esperadas menores que 5 es mayor
del 50 %, existe entonces una sobrestimacin de la prueba de X2, en la siguiente tabla nos muestra
los resultados obtenidos para las variables del ejemplo siendo c < 5 el porcentaje de frecuencias
esperadas menores que 5, si este porcentaje es mayor del 50 %, debajo de la celda est (estimacin)
aparecer la palabra s.e. (sobrestimada).
TABLA 6
var var Nombre nombre Alfa I.C. g.l. c < 5 est
43
1 2 GENERO CARRER
A
0.028563636 0.971436364 2 0.00%
Si no existe correlacin H0, el problema termina, pero si existe correlacin Ha debemos determinar; el
orden en que se correlacionan los diferentes valores y si esta correlacin es fuerte o dbil, positiva o
negativa.
Para ello hacemos una tabla en la que ordenamos las combinaciones de los valores de las variables
tomando como criterio empezando con el mas alto valor de la contribucin a la suma de X
2
y siguiendo
en orden descendente de estos valores ( TABLA 5 ). Anotamos tambin el valor de la frecuencia
observada ( TABLA 2 ) y el valor de la frecuencia esperada ( TABLA 4 ).
La siguienta tabla proviene del ejemplo que estamos trabajando.
TABLA 7
1 % de c < 5 = 0.00%
Xi 2 = 7.1112417
g.l. = 2
" 0.0285636
I.C. = 0.9714364
prueba t para p
GENERO CARRERA Xi 2 SIGNO Obser Esper Cond % %
Masculino Psicologa 2.010328 menos 24 32.02 87.47% 170%
Masculino Ingeniera 1.980393 mas 39 31.15 87.09% 167%
Femenino Psicologa 1.571097 mas 49 40.98 83.57% 133%
Femenino Ingeniera 1.547702 menos 32 39.85 83.11% 131%
Masculino Arquitectura 0.000967 mas 30 29.83 2.67% 0%
Femenino Arquitectura 0.000755 menos 38 38.17 2.42% 0%
Como podemos observar en la TABLA 5 el valor mas alto de la contribucin a la suma de X
2
es
2.010328 que le corresponde a masculino-psicologa, de la TABLA 4. Vemos que su frecuencia
esperada es de 32.0235849 en tanto que su frecuencia observada tomada de la TABLA 2 es de 24.
En la tabla observamos que en signo tiene la palabra menos esto es que el tipo de correlacin es
negativa pues el valor observado = 24 es menor que el valor esperado = 32.0235849; y que debido a
que asumimos que existe correlacin, la de mayor significancia sera esta de masculino-psicologa de
manera negativa, esto es los estudiantes de gnero masculino tienden a estudiar la carrera de
psicologa en una proporcin menor a la esperada.
El segundo valor mas alto de la TABLA 5 de la contribucin a la suma de X
2
es 1.9803927 que le
corresponde a masculino-ingeniera, de la TABLA 4 .Vemos que su frecuencia esperada es de
31.1462264 en tanto que su frecuencia observada tomada de la TABLA 2 es de 39.
En la tabla observamos que en signo tiene la palabra mas esto es que el tipo de correlacin es
positiva pues el valor observado = 39 es mayor que el valor esperado = 31.1462264; y que debido a
que asumimos que existe correlacin, la segunda de mayor significancia sera esta de masculino-
ingeniera de manera positiva, esto es los estudiantes de gnero masculino tienden a estudiar la
carrera de ingeniera en una proporcin mayor a la esperada.
44
El tercer valor mas alto de la TABLA 5 de la contribucin a la suma de X
2
es 1.5710968 que le
corresponde a femenino-psicologa, de la TABLA 4 .Vemos que su frecuencia esperada es de
En la tabla observamos que en signo tiene la palabra mas esto es que el tipo de correlacin es
positiva pues el valor observado = 49 es mayor que el valor esperado = 40.9764151; y que debido a
que asumimos que existe correlacin, la tercera de mayor significancia sera esta femenino-
psicologa de manera positiva, esto es los estudiantes de gnero femenino tienden a estudiar la
carrera de psicologa en una proporcin mayor a la esperada.
El cuarto valor mas alto de la TABLA 5 de la contribucin a la suma de X
2
es 1.54770186 que le
corresponde a femenino-ingeniera, de la TABLA 4 .Vemos que su frecuencia esperada es de
En la tabla observamos que en signo tiene la palabra menos esto es que el tipo de correlacin es
negativa pues el valor observado = 32 es menor que el valor esperado = 39.8537736; y que debido a
que asumimos que existe correlacin, la cuarta de mayor significancia sera esta femenino-
ingeniera de manera negativa, esto es los estudiantes de gnero femenino tienden a estudiar la
carrera de ingeniera en una proporcin menor a la esperada.
Por ltimo vemos que la contribucin a la contribucin a la suma de X
2
de parte de la carrera de
arquitectura es pequea 0.00096667 y 0.00075546 y que los valores observados son muy cercanos a
los esperados
observado = 30 esperado = 29.83 genero masculino
observado = 38 esperado = 38.17 genero femenino
La cercana de los valores esperados y observados nos indica que no podemos afirmar que existe
correlacin entre los valores masculino-arquitectura y femenino-arquitectura.
CONCLUSIONES
Con base al anlisis hecho a este ejemplo se podran llegar a las siguientes conclusiones:
Se encontr que existe una correlacin entre el GNERO y LA CARRERA con un nivel de
significancia del 97 % (I.C. = 0.971436363808034).
De los valores de las variables GNERO y CARRERA se encontr en el siguiente orden se
significancia que:
El nmero de estudiantes de gnero masculino que estudian psicologa es menor al esperado.
El nmero de estudiantes de gnero masculino que estudian ingeniera es mayor al esperado.
El nmero de estudiantes de gnero femenino que estudian psicologa es mayor al esperado.
El nmero de estudiantes de gnero femenino que estudian ingeniera es menor al esperado.
No se encontr una correlacin significativa entre el gnero y los estudiantes de arquitectura.
REFERENCIAS BIBLIOGRAFICAS
CAO ABAD (2006) Introduccin a la Estadstica y sus Aplicaciones Edit Pirmide (310/C11)
45
CRDOVA ZAMORA. MANUEL (2008) Estadstica Aplicada. Editorial Moshera. (519.58/M84)
JAY L. DEVORE (2008) Probabilidad y Estadstica para Ingeniera y Ciencias Edit Editec
S.A. (519.2/D64)
JOHNSON ROBERT (2008). Estadstica Elemental. Editorial Cengage learning.. (310/J67/E1)
LEVIN y H. Jack (2002). Fundamentos de estadstica en la investigacin social, Mxico.
MARTNEZ BENCARDINO CIRO (2008). Estadstica Bsica Aplicada. Ecoe. Ediciones.
Bogota Colombia. (519.82/M84)
MARTNEZ BENCARDINO CIRO (2008). Estadstica y Muestreo. Ecoe. Ediciones. Bogota
Colombia. (519.5/M26)
MENDENHALL WILLIAM (2002). Introduccin a la Probabilidad y Estadstica. Internacional
Thomson Editores S.A. (519.2/M42)
MONTGOMERY E. Y RUNGER G. (2006), Probabilidad y estadstica aplicada a la ingeniera.
Mxico: Limusa Wiley (519.5/M77b/E2)
NEL QUEZADA LUCIO (2004) Estadstica con SPSS- 12, Editorial Macro Lima Per.
PREZ, C. (2003). Estadstica: problemas resueltos y aplicaciones. Espaa: Prentice Hall.
(310/P45)
ROSS, SH. (2005). Introduccin a la Estadstica. Revert S.A. (310/R.84)
RUIZ LEDESMA ELENA (2007) Probabilidad y Estadstica Editorial McGraw-Hill
Interamericana S.A. Mxico. (519.2-R94)
STEVENSON R. (2002). Estadstica para Administracin y Economa. Mxico: Revert S.A.
(31.65/S79)
WEIERS, R. (2006). Introduccin a la Estadstica para negocios. Mxico: Thomson Editores.
(310.2/W42)
MENDENHALL WILLIAM(2007) Elementos de Muestreo Madrid Espaa:Thomson
Editores(519.52/s29)
REPASO CONCEPTOS BSICOS DE ESTADSTICA
http://thales.cica.es/rd/Recursos/rd97/UnidadesDidacticas/53-1-u-indice.htm
ESTADISTICA DESCRIPTIVA DE LOS DATOS
http://www.fisterra.com/mbe/investiga/10descriptiva/10descriptiva.asp
EXPLORACION DE DATOS: INTRODUCCION A LA ESTADISTICA DESCRIPTIVA
http://www.ucv.cl/web/estadistica/
COMPRENSION Y USO DE LA ESTADISTICA http://www.cortland.edu/flteach/stats/stat-sp.htm
Nuevo Chimbote septiembre del 2012
46

07.módulo Estadistica-Basica2

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

07.módulo Estadistica-Basica2

Hochgeladen von

Copyright:

Verfügbare Formate

PROGRAMA DE FORMACIN PARA ADULTOS

DRA. MADELEINE ARROYO ROSALES

Para nuestro ejemplo tenemos que:

Significa que la probabilidad de ocurrencia es de uno en 34.

Das könnte Ihnen auch gefallen