Beruflich Dokumente
Kultur Dokumente
INTRODUCCIN A LA ESTADSTICA
SULLANA PER
2016
l
ESTADSTICA
INTRODUCCION: El curso programtico de Estadstica aplicada a la investigacin educativa
comprende Estadstica y Probabilidad, Inferencia y Diseos Experimentales, orientados para que sirva
de soporte en la formacin cientfica en el profesional, con el objetivo, que utilice las tcnicas de la
Estadstica y Probabilidad, Inferencia y Diseos Experimentales para solucionar problemas en su
campo de formacin profesional. Estas aristas del curso permiten realizar: Una descripcin de grandes
colecciones de datos empricos o realizar un anlisis estadstico de datos experimentales y de los
datos de un fenmeno observado. As como, la toma de decisiones frente a una situacin dotada de
incertidumbre.
Por cuestiones didcticas estudiaremos el curso en cuatro captulos:
CAPTULO 01: Estadstica
CAPTULO 02: Probabilidad
CAPTULO 03: Inferencia
CAPTULO 03: Diseos Experimentales
6.
(1)
(2)
(3)
PROBLEMA 06:
Qu aspectos del entorno del estudiante estn relacionados con su formacin integral, teniendo
como referencia los alumnos cuarto ao del nivel secundario de la I.E. Andrs Avelino Cceres de
Ayacucho, junio del 2008?
(1)
(2)
(3)
3.
5.
6.
El profesor Juan Arrollo, investiga el nivel de motivacin que tienen sus alumnos para el
estudio de la asignatura de matemticas
Poblacin
:
Muestra
:
Variable de estudio :
Unidad de anlisis :
7.
8.
Se desea seleccionar al brigadier del aula, para lo cual se proponen cuatro candidatos. El
candidato que obtiene la mayor votacin es declarado brigadier.
Poblacin
:
Muestra
:
Variable de estudio :
Unidad de anlisis :
9.
10. Seleccionar al mejor estudiante en todas las reas, del nivel secundario del Per.
Poblacin
:
Muestra
:
Variable de estudio :
Unidad de anlisis :
y1 , y2 ,..., ym el
conjunto de valores diferentes que toman los datos originales (m <= n).
DEFINICIN 01: Se llama FRECUENCIA ABSOLUTA del valor
EJEMPLO:
Se realiza un estudio en una Institucin Educativa para saber el nmero ms frecuente de hijos que
tienen los Padres de Familia, con la finalidad de estimar posteriormente en cuando bajaran sus
ingresos de matricula del prximo ao 2008 de su poblacin estudiantil, si solo cobran matricula por un
hijo. Para tal objetivo se selecciona una muestra aleatoria de 16 Padres de los que se obtuvo la
x1 2 x2 1 x3 3 x4 1
y1 1
x5 2 x6 1 x7 3 x8 3
y2 2
siguiente informacin:
y3 3
x9 2 x10 1 x11 2 x12 3
x13 4
x14 1
x15 1
Con la informacin construya una tabla de frecuencias absolutas e interprete la frecuencia mxima y
mnima.
N de
Hijos
N de Padres
1
2
3
4
Total
6
5
4
1
16
ni
INTERPRETACIN:
Hay en la Institucin Educativa seis Padres de familia que
tienen un hijo, as como, un Padre que tiene cuatro hijos.
Frecuencias
absolutas ni
y1
n1
y2
n2
.
.
.
ym
.
.
.
nm
Total
y4 4
x16 2
Ni n1 n2 ... ni
i
nj
j 1
ni ni 1 ... nm
nj
j i
hi
ni
n
yi , al cociente de la frecuencia
hi
N m ni n
multiplicada por 100% (100 hi %), y representa el porcentaje de observaciones que corresponde al
valor
yi
i 1
DEFINICIN 06: Se llama FRECUENCIA RELATIVA ACUMULADA MENOR QUE del valor
yi a la
N1* ni n
yi .
Si denotamos a esta frecuencia por H i , entonces: Hi h1 h2 ... hi
i 1
Hi hj
ym
j 1
DEFINICIN 07: Se llama FRECUENCIA RELATIVA ACUMULADA MAYOR QUE del valor
frecuencia relativa total de las observaciones mayores o iguales a
Si denotamos por H i esta frecuencia entonces: H i
H m hi 1
yi a la
i 1
yi .
y1
h j hi hi 1 ... hm
y1
j 1
H1* hi 1
i 1
acumulada
Ni 0 ,
Ni 0
n
i 1
n1 . Es decir:
1
N1 ni n1
i 1
n1 n2 ... nm n
N m* ni nm
i m
h1 . Es decir:
1
H1 hi h1
PROPIEDAD 03: Las frecuencias relativas y las frecuencias relativas acumuladas son siempre
nmeros fraccionarios no negativos, no mayores que uno. Es decir:
0 hi 1, 0 Hi 1, 0
ym
nm . Es decir:
i 1, 2, ..., n
PROPIEDAD 02: La suma de todas las frecuencias absolutas es igual al nmero total del
conjunto de observaciones. Es decir:
m
y1
*
Hi
i 1, 2,..., m
i 1
ym
es
hm . Es decir:
ym
N3
H m* hi hm
i m
PROPIEDAD 12: Las frecuencias absolutas acumuladas cumplen las desigualdades siguientes:
n1 N1 N 2 ... N m n
N
h2
*
2
: Hay diez padres de familia que tienen por lo menos dos hijos.
: La proporcin de padres de familia que tienen dos hijos, es de 0.31.
y Ni Ni 1 ni , i 1, 2,..., m
y N 0 0. como
ni Ni Ni 1
H 2*
n N1* N 2* ... N m* nm
y Ni* Ni*1 ni 1 , i 2,3,..., m
y ni 1 Ni*1 Ni*
: La proporcin de padres de familia que tienen por lo menos dos hijos, es de 0.62
PROPIEDAD 13: Las frecuencias relativas acumuladas cumplen las desigualdades siguientes:
h1 H1 H 2 ... H m
y H i H i 1 hi , i 1, 2,..., m
donde H 0 0, hi H i H i 1
los datos son del tipo continuo. En este caso debido a que la magnitud de la caracterstica puede
tomar al menos una tericamente, una infinidad de valores, el proceso de reduccin, agrupacin
o condensacin de los datos originales, que conducen a la construccin de tablas de frecuencia,
no es tan simple como en el caso discreto, puesto implica realizar algunos clculos previos a la
elaboracin de la tabla de frecuencias.
DEFINICIN 09: AMPLITUD DEL RECORRIDO RANGO ( R ), es la longitud del recorrido del
conjunto de datos. Es decir:
1 H1* H 2* ... H m* hm
R xm x xm n
Donde :
EJEMPLO:
Construya todas las frecuencias estudiadas para la distribucin de Padres de familia segn
nmero de hijos (Tabla anterior). Interprete una frecuencia de cada columna.
SOLUCIN:
N de
Hijos
N de
Padres ni
1
2
3
4
Total
6
5
4
1
16
Ni
N i*
hi
hi %
Hi
Hi %
H i*
6
11
15
16
16
10
5
1
0.38
0.31
0.25
0.06
1.00
38
31
25
6
100
0.38
0.69
0.94
1.00
38
69
94
100
1.00
0.62
0.31
0.06
INTERPRETACIN:
n3 : En la Institucin Educativa hay cuatro padres de familia que tienen tres hijos
m 1 3.332log(n)
Donde:
m: Nmero de Intervalos
n: Nmero total de observaciones
DEFINICIN 11: AMPLITUD DE CLASE ( C ), es la longitud del intervalo que define la clase y se
define como:
En una Escuela de Educacin Secundaria se frmula una tarea de matemticas, la que tiene por
objeto medir el tiempo en minutos que emplean los alumnos en terminarla; los datos se registran a
continuacin:
R
m
Alumno Tiempo Alumno Tiempo Alumno Tiempo Alumno Tiempo Alumno Tiempo
consecutivamente a las clases, los limites inferior y superior de clase, de la siguiente manera:
lim inf : y0 xm n
limsup: y1 xm n c
lim inf : y1 xm n c
limsup: y2 xm n 2c
.
.
limsup: ym =x mn +mc=x mx
DEFINICIN 12: LA MARCA DE CLASE es el punto medio del intervalo que representa a dicha
clase. Se denota por " yi "
i 1, 2,..., m . Es decir:
1
2
74
70
13
14
64
60
25
26
94
90
37
38
63
61
49
50
69
70
3
4
78
72
15
16
68
62
27
28
98
92
39
40
65
60
51
52
74
68
5
6
76
110
17
18
66
84
29
30
96
79
41
42
66
75
53
54
70
104
7
8
108
118
19
20
80
88
31
32
75
81
43
44
80
76
55
56
100
107
9
10
108
112
21
22
82
86
33
34
80
80
45
46
80
75
57
58
102
106
11
80
23
65
35
63
47
75
59
79
12
85
24
60
36
80
48
101
60
100
y y
yi i 1 i
2
DEFINICIN 13: La frecuencia absoluta ( ni ) de la clase i-sima, es el nmero de observaciones del
conjunto original que pertenecen a dicha clase. Entonces, la tabla de distribucin de frecuencias tiene
la siguiente forma:
SOLUCIN:
(a) Pasos para organizar los datos en una tabla de distribucin de frecuencias:
1. Identificar el valor mximo y mnimo del conjunto de datos:
Marca de
clase yi
frecuencia
y0 y1
y1 y2
y1
n1
y2
n2
.
.
.
.
.
.
.
.
ym
.
.
.
nm
yi 1 yi
ym1 ym
Total
EJEMPLO:
ni
R 58
8.29 8
m 7
[Intervalo>
60
68
68
76
76
84
84
92
92
100
100
108
108
116
OBSERVACIN:
a. Al confeccionar los intervalos hay que fijarse que el valor mximo est
contenido en el ltimo intervalo [108 116>, en efecto, no contiene a 118.
b. Para solucionar el inconveniente, aplicamos el criterio de calcular el
exceso asumido al aplicar el redondeo sobreestimando.
CALCULAR EL NUEVO RECORRIDO (R): Si se efecta el clculo con
los resultados presentados en los pasos 3 y 4 el nuevo recorrido es:
R = C . m = 7 ( 8 ) = 56
Lo cual no es recomendable, puesto que observamos que el sptimo
intervalo no contiene a 118.
Para solucionar el inconveniente debemos calcular la amplitud
sobreestimando al redondear:
R 58
8.29 9
m 7
xmn
E
E
, xmx
2
2
E
E
xmn , xmx
2
2
ni
Ni
hi
hi %
Hi
Hi %
58
67
76
85
94
103
112
12
13
15
5
7
6
2
12
25
40
45
52
58
60
0,20
0,22
0,25
0,08
0,12
0,10
0,03
20
22
25
8
12
10
3
0,20
0,42
0,67
0,75
0,87
0,97
1,00
20
42
67
75
87
97
100
67
76
85
94
103
112
121
60
1,00
100
(b) Interpretar las frecuencias
: En la Institucin Educativa hay 15 estudiantes que emplearon entre 76 y 85
n3
N3
h2
h2 %
H 5 % : El 87% de los estudiantes emplearon entre 58 y 103 minutos para culminar su tarea
3.2.3. DATOS DE VARIABLE CUALITATIVA
En el caso de datos cualitativos, la tabla de distribucin de frecuencias adoptara la siguiente
forma:
Variable
E 1
E 1
xmn
, xmx
2
2
Frec. abs. ni
Frec. relativas hi
hi %
Caracterstica A
nA
hA
100 h A
Caracterstica B
nB
hB
100 h B
E 1
E 1
2 60 2 58 , xmx 2 118 3 121
Caracterstica Z
nZ
hZ
100 h Z
Totales
1.00
100 %
xmn
Con las observaciones hechas: Empezamos a elaborar los intervalos; donde el primer
intervalo esta dado por:
EJEMPLO:
La revista signos de la Congregacin de Colegios Catlicos del Per, efectu una encuesta
respecto a lo adecuado de la proteccin policial en la Ciudad. Se selecciono un total de 419
personas en una muestra aleatoria simple. Los siguientes datos reflejan las respuestas de las
personas encuestadas a la pregunta. Es adecuada la proteccin policial en su vecindario?
Respuesta
Frec. abs. ni
Si
293
No
80
No sabe resp
46
Total
419
hi
hi %
(2) TTULO: Es la descripcin resumida del contenido del cuadro. La redaccin del ttulo debe ser
breve, claro y completo, de modo que se pueden deducir sin ambigedad que tipo de
informacin contiene el cuadro. La redaccin del un titulo completo debe indicar:
QU: Qu hay en el cuadro, se refiere al hecho observado o la caracterstica principal. Ejemplo:
Nmero de hijos por padre de familia.
DONDE: Se refiere al lugar geogrfico o institucin a la que corresponde la informacin. Ejemplo:
I.E. San Martn
1.00
100%
Responda lo siguiente:
i.
ii.
(1) NMERO: Es el cdigo de identificacin del cuadro que permite ubicar en el interior de un
documento. Ejemplo: CUADRO N 01.
EJERCICIO:
Se solicito a 20 estudiantes de la UNSCH, llenar una ficha acadmica donde deban registrar su
auto evaluacin en su formacin profesional, segn la siguiente escala: Muy Buena (MB), Buena
(B), Regular (R). Los datos son los siguientes:
R; MB; B; MB; MB; B; B; MB; R; MB; R; B; MB; B; R; B; MB; B; B; R.
Determinar:
(a) La variable de estudio.
(b) Elaborar una tabla de frecuencias.
3.3. REPRESENTACION TABULAR Y GRFICA.
La ejecucin de una investigacin implica que se ha recolectado una serie de datos y clasificado
la informacin; resultando imprescindible presentarla de manera adecuada par que permita hacer
un anlisis til.
Existen dos tipos de presentacin: mediante cuadros estadsticos y grficos:
3.3.1. CUADROS ESTADSTICOS.
En general un cuadro estadstico es un arreglo ordenado de filas y columnas de los datos o series
estadsticas o tambin caractersticas relacionadas con el objeto de ofrecer informacin de fcil
lectura, comparacin e interpretacin. Las caractersticas pueden ser cualitativas, cuantitativas o
una combinacin de ellas.
El objetivo de las lneas (horizontales) y columnas (verticales) de un cuadro se deben
organizar de modo que se evidencie los aspectos que interesa mostrar y resalten las
comparaciones que se desean hacer notar. La tabla de distribucin de frecuencias es un caso
especial de un cuadro estadstico.
PARTES DE UN CUADRO ESTADSTICO.
Las partes de un cuadro estadstico son:
COMO: Como estn ordenados o clasificados los datos en el cuadro. La variable ubicada en la
fila se identifica con la preposicin por y las de la columna con la preposicin segn. Ejemplo:
Distribucin de frecuencias de padres de familia segn nmero de hijos.
CUANDO: A que momento o periodo de tiempo est referida la informacin. Ejemplo: Abril del
2008
(3) CUADRO PROPIAMENTE DICHO:
Es la parte del cuadro que contiene la informacin y consta de un conjunto de casillas o celdas,
dispuestas en columnas y filas. Sus elementos esenciales son: Encabezamiento de las columnas,
columna principal o matriz y cuerpo.
ENCABEZAMIENTO: Es la primera fila del cuadro en el se explica las categoras y el objeto de
cada una de las columnas, es decir indica la naturaleza de los datos inscritos en cada celda que
se halla debajo. Deben ser breves y explcitos. Ejemplo: Frecuencia Absoluta, Frecuencia
Relativa.
COLUMNA PRINCIPAL O MATRIZ: Es aquella en la que se anotan las categoras o las
diferentes clases de la escala de clasificacin utilizada. Ejemplo: Los intervalos confeccionados,
las categoras de la variable Estado Civil.
CUERPO: Es el conjunto de celdas o casillas, que son la interseccin de filas y columnas, donde
estn anotados los datos numricos.
(4) NOTAS AL PIE NOTAS EXPLICATIVAS: Contiene habitualmente la fuente de los datos
representados y cualquier nota aclaratoria sobre el contenido del cuadro.
FUENTE: Es la indicacin al pie del cuadro que sirve para nombrar la entidad responsable de
donde se obtuvieron los datos. Ejemplo: Departamento de Estadstica del Poder Judicial.
AUTOR: Es una indicacin que se coloca debajo de la fuente y sirve para mencionar al
responsable que ha utilizado los datos originales o de la fuente.
PRIMARIA
AO 2007 / TRIMESTRE
II
III
IV
46228
53961
51295
PRIMER GRADO
20563
27369
26025
SEGUNDO GRADO
14376
14508
13783
TERCER GRADO
3381
3489
3319
CUARTO GRADO
1155
1095
1043
QUINTO GRADO
6753
7500
7125
113600
116033
110138
PRIMER AO
27702
25773
24484
SEGUNDO AO
35847
37815
35826
TERCER AO
6668
6348
6148
CUARTO AO
19177
18809
17869
QUINTO AO
24206
27288
25811
SECUNDARIA
EDUCACIN ESPECIAL
101118
91227
96681
TOTAL
260946
261221 258114
FUENTE: INSTITUCIN EDUCATIVA PARTICUAR SAN REMO
AUTOR: ADMINISTRACIN CONTABLE DE LA I.E.P
3.3.2.
REPRESENTACIN GRFICA
Un grfico es la representacin de un fenmeno estadstico por medio de figuras geomtricas,
(puntos, lneas, rectngulos, paralelipedos, etc.) cuyas dimensiones son proporcionales a la
magnitud de los datos representados.
Su objeto principal es la representacin de los datos de forma grfica, que permita de un
solo golpe de vista darse cuenta del conjunto de elementos presentados y de evidenciar sus
variaciones caractersticas. El grfico es un auxiliar del cuadro estadstico, no lo sustituye si no
que lo complementa.
VENTAJAS Y DESVENTAJAS DEL GRFICO:
EL grfico tiene la ventaja sobre el cuadro, de permitir apreciar ms rpidamente los datos y
abarcar todo su conjunto.
La construccin del grafico se basa en el cuadro estadstico, pero tiene sus limitaciones
como las siguientes:
(1) El grfico no puede presentar tantos grupos de datos como una tabla. Un cuadro puede
tener 4 o ms columnas de datos, sin embargo representado esto en un grafico dificulta su
comprensin.
(2) En los cuadros pueden darse valores exactos, en los grficos muchas veces solo valores
aproximados.
3.3.3. PARTES DE UN GRFICO
Un grafico debe contener las siguientes partes: Titulo, Grafico propiamente dicho y notas
explicativas.
3.3.4. REGLAS PRINCIPALES PARA EL TRAZADO DE GRAFICOS LINEALES
(1) Las frecuencias se ubican por lo general en el eje vertical y el mtodo de clasificacin en el
eje horizontal.
(2) Las dos escalas de los ejes deben guardar proporcin de tal forma que el grafico no de la
impresin de fluctuaciones muy lentas o muy exageradas.
(3) La escala que representa la frecuencia debe empezar en cero. Cuando no puede empezar
de forma normal, se parte la escala con una lnea en zigzag.
(4) El titulo se coloca generalmente en la parte superior del grafico, precisando lo ms claro
posible el contenido que expone.
(5) Debe indicar la unidad de medida utilizada.
(6) Cada escala debe ser rotulada de tal manera que se comprenda fcilmente que representa:
kg, libras, etc.
(7) Las escalas no deben tener muchas subdivisiones.
(8) El grafico generalmente progresa de izquierda a derecha y de abajo hacia arriba.
(9) Las lneas del propio grafico deben dibujarse ms gruesas que las escalas.
(10) No deben trazarse ms lneas coordenadas que las necesarias para la fcil lectura,
procurando que el cero aparezca en el diagrama.
(11) El grafico generalmente debe ir acompaado de la tabla que le dio origen.
(12) Para alcanzar su objetivo con sencillez no debe contener ms lneas o smbolos que los que
el ojo pueda cmodamente seguir.
3.3.5. PRINCIPALES TIPOS DE GRFICO.
Hay varias formas de hacer la representacin grfica de un conjunto de datos estadsticos; cada
una de ellas posee ventajas por las que se adaptan mejor para presentar un tipo de series
estadsticas que otro. El investigador elegir el ms conveniente.
Los ms usuales son los siguientes:
1. Diagrama de barras
2. Pictogramas
3. Grfico de sectores
4. Diagrama de frecuencias
5. Histogramas de frecuencias
6. Polgono de frecuencias absolutas y relativas.
7. Polgono de frecuencias acumuladas u ojivas.
(1)
GRFICO DE BARRAS
Es aquel en cual la informacin queda representada por una serie de rectngulos, barras o
paralelipedos, los cuales pueden dibujarse horizontalmente o verticalmente.
Este grfico se utiliza para representar variables de tipo cualitativo o cuantitativo discreto.
INVERSIN EN SOLES
40000
35000
30000
25000
20000
15000
10000
5000
0
Para construir el grafico de sector, se utiliza una circunferencia, cuyo crculo se divide en
sectores tales que sus medidas angulares centrales y por tanto la superficie del sector circular
sean proporcionales a las magnitudes de los valores de la variable que representan. Al total del
crculo le corresponde 360 y mediante una regla de tres simple se encontrar el nmero en
grados que le corresponde a cada sector.
Total (n) : 360
Parte(ni) : x
n *360
x i
n
PRIMER
SEGUNDO
TERCER
CUARTO
QUINTO
GRADOS DE ESTUDIO
1
N DE FAMILIAS (ni)
1
2
3
4
TOTAL
6
5
4
1
16
UN HIJO
CUATRO HIJOS
TRES HIJOS
DOS HIJOS
2
0
1
3
N DE HIJOS
yi-1
yi ym ni
hi Ni Hi
91.5 92.5 92 4 0.08 4 0.08
92.5 93.5 93 11 0.22 15 0.30
93.5 94.5 94 20 0.40 35 0.70
94.5 95.5 95 9 0.18 44 0.88
95.5 96.5 96 6 0.12 50 1.00
Total
50 1.00
Graficar las frecuencias absolutas y las frecuencias relativas simples
PROPORCIN DE
PADRES
25
20
20
15
10
5
11
1,500
0,688
1,000
0,500
N DE FARDOS
0,938
1,000
92
93
94
95
96
PESO
0,375
FUENTE: I.E LAS CARMELITAS
AUTOR: SECRETARIA DE LA I.E LAS CARMELITAS
0,000
1
N DE HIJOS
FUENTE: INSTITUCIN EDUCATIVA PARTICUAR SAN REMO
AUTOR: ADMINISTRACIN CONTABLE DE LA I.E.P
0,45
0,4
0,4
0,35
0,3
0,25
El histograma queda representado por una serie de rectngulos semejantes a los del histograma
de barras, con la diferencia que las barras se colocan verticalmente y deben ir uno al lado de las
otras sin que haya un espacio que las separe. La base de cada rectngulo es la amplitud de la clase
(intervalo) de la variable correspondiente y la altura esta definida por la frecuencia absoluta n i
frecuencia relativa hi.
EJEMPLO: En la I.E. LAS CARMELITAS tienen como objetivo recolectar papel en todo el ao
2007; para venderlos deben hacer fardos de 95 kilogramos para la industria del reciclaje. El
comprador pesa 50 fardos cuyos pesos se presentan a continuacin:
0,22
0,18
0,2
0,15
0,1
0,12
0,08
0,05
0
PESOS
60
50
50
44
40
35
30
20
15
10
25
20
20
92.5
93.5
95.5
96.5
PESOS
15
11
10
5
94.5
9
6
0
92
93
94
95
96
PESO
120
FUENTE: I.E LAS CARMELITAS
AUTOR: SECRETARIA DE LA I.E LAS CARMELITAS
100
100
88
80
70
60
40
30
20
8
0
92.5
93.5
94.5
PESOS
95.5
96.5
(c)
(d)
(e)
(f)
(g)
PREGUNTA 03:
Se pregunto a un grupo de estudiantes su estatura en cms, los datos obtenidos son los siguientes:
152 163 154 170 164 154 166
163 162 168 168 172 170 160
161 158 165 165 151 161 157
160 155 158 158 170 169 168
155 156 162 162 166 168 160
Organice los datos en una tabla de distribucin de frecuencias con sus elementos y responda
puntualmente los siguientes tems:
(a) Cul es el rango de talla ms frecuente?
(b) Cul es el rango de talla ms baja?
(c) Cul es porcentaje de alumnos que tienen el rango de talla ms alta?
(d) Interprete las frecuencias absolutas acumuladas en funcin de la marca de clase
PREGUNTA 04:
En una encuesta a 50 estudiantes seleccionados del nivel secundaria de la I.E. Ramn Castilla en ao
2007, se les consult al respecto de Cmo califican sus relaciones familiares?, obteniendo como
respuestas Buenas ( B ), Regulares ( R ) y Malas ( M ). Los datos registrados son los siguientes:
B R R M R M R B R R R R MR M R R R B M B BM R R M R R B
B B R R R M R R M R R R B B R R R B R R B
Determine los siguientes tems:
(a) La variable de estudio.
(b) Elabor una tabla de distribucin de frecuencias con sus elementos.
(c) Interprete los resultados y recomiende que puede hacer para mejorar la situacin familiar.
(d) Elaborar un grafico adecuado para cada frecuencia.
PREGUNTA 05:
Los siguientes puntajes son los resultados de un examen para medir el coeficiente intelectual de un
grupo de estudiantes:
93 99 105 103 107 110 115 92 108 110 115 120 93 124 130 102 112 102 108 110 109
110 95 98 90 124 104 108 125 130 136 140 108 96 104 107 106 97 122 103
Determinar los siguientes tems:
(a) Construya una tabla de distribucin de frecuencias.
(b) Determine cuantos estudiantes tienen coeficiente intelectual menores de 104 puntos
(c) El nmero de estudiantes que tienen coeficiente intelectual de 112 puntos a ms.
(d) El nmero de estudiantes que tienen coeficiente intelectual de por lo menos 104 puntos ms
pero menos de 136 puntos.
Ls
88
Yi
ni
92
104
Ni
hi
13
0.200
28
0.375
144
Total
0.075
36
38
140
0.050
40
Hi
0.775
Completar en la tabla los datos que faltan e interprete en funcin de la marca del intervalo y en funcin
de la marca clase las frecuencias n2, n4, N2, N4; h2, h4, H2 y H4
PREGUNTA 09:
Se desea analizar que efectos tiene la aplicacin de un nuevo mtodo a un grupo de estudiantes del
tercer grado de educacin secundaria en la asignatura de Comunicacin, que anteriormente se
aplicaba el mtodo tradicional. Para establecer si hay alguna diferencia significativa se compara el
nuevo mtodo con el mtodo habitual aplicado a otro grupo de estudiantes de similares caractersticas
en el rea de Comunicacin. Para realizar las mediciones de los efectos de los mtodos se aplica una
evaluacin a ambos grupos en forma simultnea, cuyos resultados se presentan en las siguientes
tablas de distribucin:
RESULTADOS DEL NUEVO MTODO EN EL GRUPO EXPERIMENTAL
Rendimiento
N de Alumnos
[00 - 05]
7
[06 - 10]
20
[11 - 15]
34
[16 - 20]
9
Total
RESULTADOS DEL MTODO TRADICIONAL
Rendimiento
[00 - 05]
[06 - 10]
[11 - 15]
[16 - 20]
Total
70
N de Alumnos
15
30
20
5
70
PREGUNTA 12:
Con la informacin adjunta en la tabla describir el perfil de estudiantes
ESCALA DE MEDICIN
D Muy Bajo
[00 - 05]
C Bajo
[06 - 10]
B Regular
[11 - 13]
A Bueno
[14 - 16]
AD Muy Bueno
[17 - 20]
Los calificativos de la evaluacin son los siguientes:
3
0
7
12
6
8
1
5
7
1
6 5 1 3 1
19 17 5 16 0
16 19 13 17 16
10 3 2 11 18
11 8 4 9 19
TABLA N 01: Distribucin de frecuencias de las variables del perfil Psico Sociodemogrfico y el
desarrollo integral de las alumnas del I.E. Santa Teresa de La Inmaculada, ao 2007.
8 4 5
18 12 11
20 7 19
14 0 17
10 9 3
776
626
878
611
920
548
619
542
512
723
793
952
826
842
600
651
946
825
514
715
653
578
975
976
783
901
962
650
717
973
880
517
852
694
737
563
832
998
827
538
940
574
588
935
609
697
688
625
621
857
949
675
619
786
----------------------------+-----------------+-----------------------------------------------VARIABLES
|
FRECUENCIAS
|
GRFICO DE LAS MODALIDADES
IDENT
MODALIDADES
| EFEC.
PORCE. | HISTOGRAMAS DE PUNTOS RELATIVOS
----------------------------+-----------------+-----------------------------------------------9 . En la balanza de tu vida las caractersticas que ms pesan son:
Bv1 - Las negativas
|
23
9.31 |******
Bv2 - Las positivas
|
73
29.55 |******************
Bv3 - Positiv/ Negativas
| 151
61.13 |*************************************
----------------------------+-----------------+-----------------------------------------------11 . Registra 3 valores prioritarios que estn ligados a tu convivencia:
Vp1 - J, D h y solid,Lib
| 207
83.81 |***************************************************
Vp2 - Eco,D h, L y solida |
40
16.19 |**********
----------------------------+-----------------+-----------------------------------------------13 . Las relaciones familiares son:
Rf1 - Buenas
| 142
57.59 |***********************************
Rf2 - Malas
|
4
1.62 |**
Rf3 - Regulares
| 101
40.89 |**************************
----------------------------+-----------------+-----------------------------------------------14 . Con quien tienes ms confianza:
Mc1 - Padre
|
9
3.64 |***
Mc2 - Madre
| 135
54.66 |*********************************
Mc3 - Hermano(a)
|
32
12.96 |********
Mc4 - Amiga
|
71
28.74 |******************
----------------------------+-----------------+-----------------------------------------------16 . Sientes que tus padres:
Spa1 - Te adoran
| 186
75.30 |**********************************************
Spa2 - Te toleran
|
55
22.27 |**************
Spa3 - Les eres indiferente |
6
2.43 |**
----------------------------+-----------------+-----------------------------------------------17 . Capacidades que crees estn en ti o has conquistado:
CQ01 - 1457
| 142
57.49 |***********************************
CQ02 - 1246
|
71
28.74 |******************
CQ03 - 2567
|
34
13.77 |*********
----------------------------+-----------------+-----------------------------------------------20 . Te sientes un miembro importante dentro de tu familia por que te escuchan y valoran:
Mif1 - Si
| 200
80.97 |*************************************************
Mif2 No
|
47
19.03 |************
----------------------------+-----------------+-----------------------------------------------23 . Eres capaz de hacer las cosas y enfrentar los obstculos a presentarse:
Eoc1 - Si
| 216
87.45 |***************************************************
Eoc2 - No
|
31
12.55 |********
----------------------------+-----------------+-----------------------------------------------24 . Registra las frases que se adaptan a tu rutina de vida:
3Mr1 - 1256
|
54
21.86 |**************
3Mr2 - 246
| 130
52.63 |********************************
3Mr3 - 346
|
63
25.51 |****************
----------------------------+-----------------+-----------------------------------------------27 . Te siente obligada por tus amigos a realizar algunas ,pero por no contrarales les das el
gusto
Orc1 - Siempre
|
3
1.21 |*
Orc2 - A veces
|
83
33.60 |*********************
Orc3 - Nunca
| 161
65.18 |****************************************
----------------------------+-----------------+------------------------------------------------
xi
x1 x2 ... xn
i 1
M ( x) x
n
n
Si los datos han sido clasificados en m clases en una tabla de frecuencias con
marca de clase yi , la media aritmtica esta dado por:
m
yi ni
M ( y ) y i1
i 1
x1 , x2 ,..., xn b
Entonces:
M ( x) M (b) b
P : Si a cada valor de las observaciones x1 , x2 ,..., xn
2
y M ( y ) M ( x) b
xi
x1 x2 ... xN
i 1
N
N
x1 , x2 ,..., xn
se le multiplica
por una constante diferente de cero, la media aritmtica del conjunto transformado
yi axi , es la media aritmtica del conjunto original multiplicado por la constante. Es
decir:
y= M(y)=aM(x)
hi ni
Es decir:
y esta dado por el cociente de la suma de todos los valores de la variable entre el nmero total
de valores. Es decir:
(1.1)
esta dado por el cociente de la suma de todos los valores de la variable entre el numero
total de valores. Es decir:
( xi x ) 0
i 1
b.
( yi y )ni 0
n1 x1 n2 x2 ... nk xk
n1 n2 ... nk
i 1
P5: La suma de los cuadrados de las desviaciones de cada una de las observaciones
2
2
( x x ) ( x a)
i
i 1
i
i 1
i 1
i 1
2
ni ( yi y ) ni ( yi a)2
P6: Si
x1 , x 2 ,..., x n y y1 , y 2 ,..., y n
P7: En casos especiales, esto es, cuando es apropiado hacerlo, la media aritmtica
muestral se puede utilizar para estimar la cantidad total de una poblacin, esta
propiedad indica que:
Este procedimiento tiene su base en que en muchas ocasiones hay la necesidad de obtener
muestras diferentes de una poblacin, ya sea por cuestiones tcnicas o por disponibilidad de
informacin.
Supongamos que de una poblacin (o de dos poblaciones diferentes) se obtienen dos
o ms muestras de tamao nk cada una respectivamente. Sean x1 , x2 ,..., xk las medias
i1
xi
x1 , x 2 ,..., x n
es el reciproco de la media
1
1
x1
Total Nx
(1.2) MEDIA ARITMETICA A PARTIR DE SUB MUESTRAS.
n 1
i 1 x
i
...
x2
xn
n
1
1 m ni
n i1 yi
n
m ni
i1 y
i
n 2
xi
i1
n
m
2
ni yi
i1
yC M C ( y )
(7) MODA
La moda de una muestra
xr M r ( x )
n r
xi
r i1
n
(6) MEDIANA
Dado un conjunto de n observaciones
( y)
m
r
n y
i
i
r
i 1
mediana de este conjunto de los valores; como aquel valor que no es superado, ni supera a ms de
la mitad de las n observaciones arregladas en orden de magnitud creciente o decreciente.
a. PARA DATOS NO TABULADOS:
i. Si el tamao de la muestra n es impar: ordenar en forma creciente o decreciente.
x xme Me x n1
(
x n x n
( 1)
2
2 N j 1
Me y j 1 C
N j N j 1
Donde:
y j1 : Limite real inferior del intervalo que contiene a Nj
C : Amplitud de la clase mediana
M o xmo
Mo y
n j n j 1
C
j 1
( n j n j 1 )( n j n j 1)
Mo y
j 1
1
C
1 2
Donde :
1
n j n j 1
x xme Me
n j n j1
ii. Si el nmero de observaciones es par: la mediana es la semi suma de sus valores centrales.
( )
2
x1 , x2 ,..., xn
x1 , x 2 ,..., x n
Donde:
y j1
nj
VENTAJAS DE LA MODA:
1. La moda, se puede usar como una localizacin tanto para datos cualitativos como
cuantitativos.
2. La moda no esta afectada por los valores extremos.
RELACIN ENTRE MODA, MEDIA Y MEDIANA EN DISTRIBUCIONES SIMTRICAS Y
ASIMTRICAS.
1.
x Me Mo
2.
x Me Mo
ii. Si
Para otro tipo de distribuciones de forma ms complicada, no existen reglas fijas a priori sobre
la disposicin relativa de las tres medidas, debindose estudiar aisladamente cada caso.
n
4
N j
n
4
valor
; De
N j 1
n
4
el primer cuartil es Q1 y j 1
N j 1
n
4
lo tanto Q1
Luego de est breve descripcin ampliaremos la idea de la mediana para estudiar a otros
estadgrafos que dividen el conjunto de datos en otras proporciones.
Q1 x
n 1
4
x Mo 3(x Me )
x Me Mo
CUARTILES:
DEFINICIN: Los cuartiles son valores que dividen a un conjunto de datos ordenados en forma
ascendente o descendente en cuatro partes iguales, y se denotan por: Qi ; i 1,2,3
n 1
n 1
(1)
(1) CUARTIL
(2) DECILES
(3) PERCENTILES
x (n ) , x (n 1) ,..., x 2 , x 1
2. Si la distribucin tiene la forma acampanada, es unimodal, pero no tiene simetra, las tres
medidas toman valores diferentes, y la mediana queda comprendida generalmente entre la
moda y la media aritmtica:
i. Si la distribucin es ms alargada para valores grandes de la variable (asimetra a la
derecha o positiva), entonces la situacin general, es:
MEDIDAS DE LOCALIZACIN
CUANTILES
Los cuantiles es una generalizacin de la definicin de mediana. As como la mediana divide al
conjunto de datos en dos partes, con igual nmero de elementos cada una; esta idea proyectada
al dividir el conjunto de datos en cuatro partes, diez partes, cien partes, define al cuantil. Los
principales son:
Q1 y j 1 d .
El valor de d se calcula mediante regla de tres simples, suponiendo que las observaciones
estn uniformemente distribuidas en todo el intervalo. Es decir:
Si en una amplitud c j hay N j N j 1 observaciones. En qu amplitud d habr
Es decir:
n
4
N j 1 ;
c j N j N j 1
d
n
4
Donde
ii. Si
N j 1
d c j
3n
4 N j 1
N j N j 1
valor
N j 1
n
4
que
se
ubica
(2)
3n
4
i. Si
3(n 1)
Q 3 y j 1 d
El valor de d se calcula mediante regla de tres simples, suponiendo que las observaciones estn
uniformemente distribuidas en todo el intervalo. Es decir:
Si en una amplitud c j hay
N j N j 1 observaciones.
En qu amplitud d habr
c j
N j
n
4
observacin
N j
N j
c j
Luego
Donde:
Q3
n
4
N j
y j
N j
N j
c j
n
4
decir:
es un entero, entonces:
acumuladas
Donde
3 ( n 1)
absolutas
3n
N j 1
expresndose como
Q3 x
frecuencias
el tercer cuartil es Q 3 y j 1
3(n 1)
las
ordenada.
entre
N j
(1) Si N j 1
Donde:
y j1 : Limite real inferior del intervalo que contiene a Nj
4 N j 1
N j N j 1
Luego : Q1 y j 1 c j
3(n 1)
n
4
N j
N j
N j
N j 1 ;
Es
ii. Si
in
10
ii.
Si
i (n 1)
10
10
in
valor
10
i. Si
N j 1
10
el decil es Di y j 1
N j
in
N j
N j
Di
c j
in
10
N j
y j
N j
N j
c j
1
1
in
10
N j
N j
N j
1
1
in
N j 1
Donde:
Luego
Donde
es exacto, D i x i ( n 1)
expresndose como
10
10
y j 1 ,
N j 1 ; Es decir:
c j
Si
Anlogamente ocurre con los deciles D3,.......D9. El decil 8, por ejemplo, deja el 80% del conjunto
de datos menores o iguales a l, y el 20% de las observaciones superiores a l.
i.
D2: SEGUNDO DECIL: Es el valor referencial que deja el 20% de las observaciones menores o
iguales a l y el 80% de las observaciones mayores a l.
i (n 1)
10
Di y j 1 d
D1: PRIMER DECIL: Es el valor referencial que deja 10% de las observaciones menores o
iguales a l y el 90% superiores a l.
10
in
tanto Di
DECILES
DEFINICIN: Los valores que dividen a un conjunto de datos ordenados en forma ascendente (o
descendente) en diez partes iguales se llaman DECILES y se representan por: Di ; i 1,2,...,9
i (n 1)
N j 1
in
10
N j
; De donde se
(3)
PERCENTILES
Hay 99 percentiles que se denotan: P1, P2, P3,.......,P98, P99. As P90, por ejemplo, deja por debajo
de l el 90% de los elementos. El procedimiento de clculo es similar a la de los Cuartiles y
Deciles.
La frmula para realizar el clculo del percentil Pi , Ser:
Pi y j 1 c j
in
100 N j 1
N j N j 1
5.
6.
3.
4.
Supongamos que la poblacin de notas en una determinada materia son: 11, 12, 13, 14, 15.
con la informacin calcular:
(a) Media poblacional.
(b) Seleccione 10 muestras diferentes de tamao 2 y con cada una calcular la media
aritmtica muestral.
(c) Determinar cuntas muestras proporcionan una estimacin exacta de la media
poblacional.
Los resultados de un examen practicado a 20 estudiantes en un curso de matemticas, en
orden ascendente son: 39, 46, 57, 65, 70, 71, 71, 72, 72, 75, 77, 79, 81, 84, 84, 87, 93, 94,
97y 97 puntos. Determine:
(a) La media aritmtica de los datos
(b) Si a cada observacin de la muestra se le suma 3 puntos. Cules es el promedio
del nuevo conjunto de datos?
(c) Supongamos que la calificacin se transformar a la escala de 0 a 20. Cul es el
nuevo promedio.
7.
C As
Q 3 2Q 2 Q1
Q 3 Q1
K3
Q 3 Q1
2(P90 P10 )
2. ESTADGRAFOS DE DISPERSIN
Las medidas de dispersin nos indican si una serie de valores de la variable observada son muy
cercanos entre s o por el contrario son muy dispersos.
Dependiendo del tipo de diferencia usada, se obtienen distintas expresiones que entregan
visiones parciales de la forma en que los datos varan.
Las medidas de dispersin son de dos tipos:
A) MEDIDAS DE DISPERSIN ABSOLUTAS
Las medidas de dispersin absolutas se caracterizan por ser valores expresados en las mismas
unidades de la variable en estudio. Dependen de las unidades de medida
Estas son:
(1) RECORRIDO DE LA VARIABLE ( R ):
Recorrido de la variable rango (Intervalo de variacin)
Dada una serie de valores x1, x2, ..., xn, su recorrido R es la diferencia aritmtica entre el
mximo y el mnimo de estos valores:
R x mx x mn
DM D y
DMe
xi x
i
1
DMe
y i Me n i
i
1
DM D X
x i Me
Q 3 Q1
2
RI Q3 Q1 P75 P25
QD
Donde:
m: nmero de clases
ni: frecuencia absoluta de la clase i
yi: marca de clase
y i y ni
M ( x i )
(x )
i
i 1
(x
V (x ) M
( x x ) 2 S x2 i 1
x)
V (y ) M
( y y ) S y
2
m
2
n (y y )
i
i 1 i
Donde:
m: nmero de clases
ni: frecuencia absoluta de la clase i
yi: marca de clase
La formula anterior se puede escribir de la siguiente forma:
V (x ) 0
2 m
2
V ( y ) S y hi ( y i y )
i 1
V ( x ) V (b ) 0
V (x ) M
( x x ) 2 S x2 i 1
x)
V (y ) V ( x b ) V (x )
2 n
2
(x x ) (x )
i
i 1 i
i 1
(x x )
i
La misma que implica que hay una diferencia entre i 1
(x )
i
i 1
n
2 n
2 n
2
(x x )
(x x )
(x )
i
i
2
i 1
i 1
i 1 i
n
n 1
n
n
n
2
2
(x x )
(x x )
i
i 1
i 1 i
y
es grande para muestras pequeas, y
n
n 1
es mnima para muestras grandes, prcticamente son iguales. Entonces para muestras
grandes n 60 , puede usarse cualquiera de las formulas. Para muestras pequeas se
S x2
n
2
(x x )
i 1 i
n 1
2 y
usa V ( x ) M ( x x )
La diferencia entre
m
2
n (y y )
2 i 1 i i
V '( y ) M (y y ) S 'y
n 1
n
2
(x x )
2 i 1 i
V '( x ) M ( x x ) S ' x
n 1
2
V (y ) a V ( x )
(n
1) s
2
1
(n
1) s
2
2
n (x x )
1 1
n (x x )
2
2
n 1
donde:
x
n1 x 1 n 2 x 2
n
En general se tiene:
n
donde:
2
(n 1)s
i
i 1 i
n 1
n (x x )
i 1 i i
n 1
n x
i 1 i i
sb
n (x x )
i 1 i i
n 1
sw
: x s
: x 2s
: x 3s
: x 4s
2
(n 1)s
i
i 1 i
)%
con k 1 de las
n 1
D (x ) s x v (x ) s x
C .A
P4: Si cada valor de un conjunto x 1 , x 2 ,..., x n se multiplica por una constante a, la desviacin
tpica del nuevo conjunto de valores y 1 , y 2 ,..., y n , donde y i ax i , i = 1, 2, ,n, es igual a la
desviacin tpica del conjunto original multiplicada por el valor positivo (valor absoluto) de la
constante. Es decir:
s y s ax a s x
NOTA:
La desviacin estndar tiene su aplicabilidad para confeccionar intervalos confidenciales. Es
decir:
X
X
mx
mn
2. RECORRIDO RELATIVO:
Se define como el cociente del recorrido de la variable entre la media aritmtica, Es decir, es el
nmero de veces que contiene el recorrido de la variable a la media aritmtica.
RR
mx
mn
R
x
(Q 3 Q1 ) / 2
QD
x
4. COEFICIENTE DE VARIACIN:
El Coeficiente de Variacin (CV) representa el nmero de veces que la desviacin tpica contiene
a la media aritmtica y por lo tanto cuanto mayor es CV mayor es la dispersin y menor la
representatividad de la media.
CV
s
x
P 2P P
50 10
C As 90
P P
90
10
Si, C
APUNTAMIENTO O CURTOSIS:
Es la medida de deformacin vertical de una distribucin de frecuencias, es la medida de
apuntamiento o achatamiento de una distribucin. (Indica la menor o mayor altura del mximo
central)
En la distribucin de los datos se puede presentar los siguientes casos de apuntamiento:
Si, la distribucin de datos presenta un apuntamiento muy pronunciado o ms apuntada que la
normal, se llama LEPTOCRTICA.
Si, la distribucin de datos presenta un apuntamiento moderado o apuntamiento normal, se llama
MESOCRTICA.
Si, la distribucin de datos presenta menos apuntamiento que la normal o achatada, se llama
PLATICRTICA.
Q 2Q Q1
2
c As 3
Q Q1
3
Si, C
As
Ym
10
20
30
40
50
60
70
ni
8
20
42
60
42
20
8
200
hi
0.04
0.10
0.21
0.30
0.21
0.10
0.04
1.00
Ni
8
28
70
130
172
192
200
Hi
0.04
0.14
0.35
0.65
0.86
0.96
1.00
2. Dos empresas que compiten en el mismo rubro tienen la siguiente distribucin de sueldos en el
2006.
Empresa A
sueldos
ni
150-180
30
180-210
40
210-240
20
Total
90
Empresa B
sueldos
ni
160-190
30
190-220
50
220-250
40
Total
120
Con la informacin realice lo siguiente:
Considere que las dos muestras provienen de la misma poblacin y estime la media total de
los sueldos de los obreros y la varianza total, e intrprete los resultados.
3. Consider que las siguientes notas con respecto a un curso corresponden a toda la poblacin de
notas: 11, 12, 13, 14, 15, 16. las mismas que tienen como media poblacional 13.5 .
Seleccione una muestra de tamao n = 3, y pruebe la siguiente relacin.
n
2 n
2
(x x ) (x )
i
i 1 i
i 1
4. El programa Sistema Integral de salud SIS desarrolla asistencia en las Instituciones Educativas
y hace un programa piloto para el despistaje de corazn en los estudiantes, para ejecutarlo
selecciona al azar un centro educativo y de el selecciona una muestra de 5 alumnos, para hacer
mediciones de la frecuencia cardiaca. Estas son: 130, 127, 132, 132, 129. Hallar la varianza
muestral y luego la varianza corregida.
5. Los datos que se muestran en la siguiente tabla son los egresos semanales de la Institucin
Educativa PULGARCITO, por concepto de mantenimiento de equipos e infraestructura y
servicios bsicos.
Li - Ls
00 - 100
100 200
200 - 300
300 - 400
400 - 500
500 - 600
600 - 700
Total
Ym
50
150
250
350
450
550
650
ni
5
10
18
22
5
2
1
63
4. DISTRIBUCIONES BIDIMENSIONALES
INTRODUCCIN:
En la naturaleza investigamos unidades de estudio o unidades experimentales de las que nos
interesa dos o ms caractersticas.
Por ejemplo, en un estudiante observamos la habilidad mental con el rendimiento
acadmico; donde a la variable habilidad mental se puede representar por X y a la variable
rendimiento acadmico por Y, de tal forma que al asociar ambas variables mediante el par
ordenado (x,y) se construye una variable bidimensional que expresa la observacin simultnea
de la habilidad mental y rendimiento acadmico en un estudiante.
En efecto, estadsticamente interesa estudiar de la variable bidimensional dos aspectos
importantes:
(a) Las distribuciones bidimensionales de frecuencias, que se pueden presentar mediante tablas
bidimensionales de frecuencias y la reduccin de datos bidimensionales a travs de
estadgrafos o medidas de resumen.
(b) Elaborar o construir modelos asociando las variables para medir la relacin entre ellas; estos
modelos determinan la dependencia entre variables.
1. TABLAS BIDIMENSIONALES DE FRECUENCIAS:
En la tabulacin de la variable bidimensional (x,y) se puede presentar una combinacin de
variables unidimensionales segn su naturaleza, las que determinan la siguiente clasificacin:
TIPOS
VARIABLES (x,y)
Dos
Categrica / Categrica
caractersticas Ejemplo:
cualitativas
Sexo y color de pelo
Discreta / Discreta
Ejemplo:
Nmero de personas y nmero de
habitaciones
Dos
Continua / Continua
caractersticas Ejemplo:
cuantitativas
Permetro craneal y permetro torxico
Discreta / Continua
Ejemplo:
Pulsaciones y temperatura
Una
cualitativa y
una
cuantitativa
Categrica / Discreta
Ejemplo:
Nivel educativo y nmero de hijos
Categrica / continua
Ejemplo:
Profesin y ingreso econmico
rectangular donde las k modalidades de X: x1, x2, , xk representan a las filas y las
modalidades de Y: y1, y2, , y representan a las columnas.
DISTRIBUCIN BIDIMENSIONAL DE FRECUENCIAS ABSOLUTAS
Presentamos a continuacin dos variables X e Y de naturaleza discreta, donde:
X : x 1 , x ,..., x i ,..., x
2
k
Y : y 1 , y ,..., y j ,..., y
2
Luego se organizan las modalidades de las variables en una tabla de doble entrada, formando
un arreglo rectangular donde en la interseccin de la i sima fila con la j sima columna, se
ubica la frecuencia n , que indica cuantas veces se presentan simultneamente la
ij
modalidad x y la modalidad y j .
Y
X
x1
x2
.
.
.
xi
.
.
.
xk
n.j
y1
y2
yj
yl
ni.
n11 n12
n21 n22
n1j
n2j
n1l
n2l
n1.
n2.
ni1
ni2
nil
ni.
nk1
n.1
nk2
n.2
nkj
n.j
nkl
n.l
nk.
n..
nij
Donde:
k
k
n.. n ij n i . n. j n es la suma total de las frecuencias absolutas nij segn
i 1 j 1
i 1
j 1
los ndices i y j, as como tambin la suma total de los totales ni. y n.j
OBSERVACIONES:
(a) La frecuencia absoluta ni. es el nmero de observaciones que presenta la modalidad o
valor xi de la caracterstica X, independiente de las modalidades o valores de la
caracterstica Y. De la misma forma, n.j es el nmero de observaciones que
corresponden a la modalidad o valor yj de la caracterstica E independiente de las
modalidades o valores de la variable X.
(b) Si la naturaleza de la variable X (y/o variable Y) es continua, xi (y/o yj) representara la marca
de clase nmero i o j, de tal manera que se reducir el caso continuo al caso discreto, de la
misma forma como se estudio en las variables unidimensionales.
(c) Si las variables X e Y son cualitativas, la tabla de distribucin bidimensional se llama TABLA
DE CONTINGENCIA.
DISTRIBUCIN BIDIMENSIONAL DE FRECUENCIAS RELATIVAS
DEFINICIN 01: Se llama frecuencia relativa o simplemente frecuencia de la pareja de
valores o modalidades xi o yj a la proporcin de observaciones que presentan
simultneamente los valores o modalidades xi e yj
Es decir: h
ij
nij
n
y1
y2
yj
yl
hi.
h11
h21
h12
h22
h1j
h2j
h1l
h2l
h1.
h2.
hi1
hi2
hij
hil
hi.
hk1
h.1
hk2
n.2
hkj
h.j
hkl
h.l
hk.
h..
OBSERVACIONES:
(a) La suma de las frecuencias relativas de todos los pares de valores o modalidades
posibles es igual a la unidad.
Es decir: h 1
i 1 j 1 ij
(b) Las sumas parciales se designan igualmente por un (.) en lugar del ndice, que
hace la funcin de sumatoria.
ni .
hi .
h
n j 1 ij
h. j
n. j
h
n i 1 ij
h h 1
i 1 i . j 1 . j
(c) En algunas situaciones de acuerdo a objetivos especficos, podr definirse las frecuencias
relativas con relacin al total de cada columna o de cada fila. Es decir se tendr:
nij
ni .
nij
n. j
DISTRIBUCIN MARGINALES
DISTRIBUCIN MARGINAL DE X
Consideremos la columna marginal (columna de los totales horizontales) de la tabla de doble entrada.
Las frecuencias absolutas ni. definen lo que se denomina DISTRIBUCIN MARGINAL DE X. Es
una distribucin de una sola caracterstica:
k
ni . nij y ni . n.. n
i 1
j 1
La frecuencia relativa marginal del valor o modalidad xi es igual a hi. ; es decir:
n
k
hi . i . y hi . 1
n
i 1
DISTRIBUCIN MARGINAL DE Y
De la misma forma, la distribucin marginal de la caracterstica Y est definida por las frecuencias
absolutas marginales n.j
k
n. j nij y n. j n.. n
i 1
j 1
h. j
n. j
n
y h. j 1
j 1
Valores
de X
x1
x2
.
.
.
xi
.
.
.
xk
Total
Frec.
Abs ni.
n1.
n2.
ni.
hi.
nk.
n..=n
hk.
h..=1
Valores
de Y
y1
y2
.
.
.
yj
.
.
.
yl
Total
Frec.
Abs n.j
n.1
n.2
Frec. Rel
h.j
h.1
h.2
n.i
h.j
Valores
de X
x1
n.l
n..=n
h.l
h..=1
x2
.
.
.
xi
i j
N ij nrp
r 1 p 1
.
.
.
i j
H ij hrp
r 1 p 1
DISTRIBUCIONES CONDICIONADAS
DEFINICIN 02: La distribucin absoluta de la variable X condicionada a que la variable Y
toma el valor fijo yj (Y=yj), j = 1, 2, , l, se denota por n
y esta dada por la j
x /y y
x /y y
ij
nij
n.j
, i = 1, 2, , k
x /y y
i 1,...,k
xk
Total
EJERCICIO:
Frec. Abs.
Condicionada
por y = yj
Frec. Rel.
Condicionada
por y = yj
x /y y
x /y y
n1j
n1 j / n. j
n2j
n 2 j / n. j
nij
n ij / n. j
nkj.
n kj / n. j
n.j
En una muestra de 50 viviendas familiares de la ciudad de Ayacucho, se considera como primera variable (X) el
nmero de personas por vivienda, y como segunda variable (Y) el nmero de habitaciones por vivienda. Los valores
observados fueron:
X
6
4
6
5
5
6
5
6
8
Y
2
2
3
4
3
3
3
3
4
X
7
7
6
9
5
5
5
9
7
Y
4
3
4
5
2
3
3
6
3
X
8
4
4
6
5
5
4
9
6
Y
5
2
4
3
3
3
4
5
2
X
5
8
5
5
9
4
7
7
5
Y
2
6
2
3
6
4
6
4
2
X
5
4
7
9
6
7
4
7
4
Y
4
2
5
3
2
4
3
5
3
X
6
6
9
6
5
Y
5
3
4
4
3
Con la informacin determinar lo siguiente:
a) Elabor una tabla de Frecuencias absolutas y las frecuencias marginales. Interprete n 25, n.5 y n4.
b) Halar el promedio de cada variable e intrprete cada promedio.
c) Confeccione la tabla de distribucin de frecuencias absolutas acumuladas Nij
x i ni .
M ( x ) X i 1
M (y ) y
MEDIAS CONDICIONALES
En la tabla de frecuencias bidimensionales se puede analizar el comportamiento de una
variable condicionada a un valor particular de la otra variable.
En general, si observamos la tabla bidimensional en toda su dimensin cada fila o
columna constituyen una distribucin unidimensional.
Entonces, se puede condicionar la media aritmtica de una variable con respecto a un
valor particular de la otra variable, y de esta forma definir las MEDIAS
CONDICIONALES:
La media condicional de X respecto a un valor de Y.
k
M (X / y y j )
M (Y / X x i )
xi
k
i 1 j1(
n
1
y j
2
)n ij
x y
SX
k n x 2 nx 2
i 1 i . i
n 1
y j n. j
j 1
n 1
SY
x i ni .
n (x x )
i 1 i . i
SX
donde
x i 1
ni .
n y
j 1 ij
VARIANZA MARGINAL
La varianza marginal est definida por:
Varianza marginal para X:
(b) Cuando las dos variables son dependientes, de la misma naturaleza y estn
expresadas en las mismas unidades, definen una funcin U f (x , y )
Luego el promedio de las variables esta dado por:
M f (x , y )
n. j
y n
j 1 j . j
n x
i 1 ij i
n (y y )
j
j 1 . j
n 1
Sy
n y 2 ny 2
j 1 . j j
n 1
1
COVARIANZA
La covarianza es la medida de asociacin lineal ms simple entre dos variables X e Y
DEFINICIN:
Sea ( x i , y j ) con i 1,2,..., k
y j 1,2,...,
i 1,2,..., k
y j 1,2,..., . La
( x x )( y y )
i
i
i 1
O su formula desarrollada
Cov ( x , y )
(b)
n
x y
i 1 i i
n
x .y
Cov ( x , y )
n ( x x )( y y )
i
i 1 j 1 ij i
1 k
n x y x .y
i j
n i 1 j 1 ij
CORRELACIN LINEAL:
DEFINICIN: El coeficiente de correlacin ndice de correlacin de PEARSON entre dos
variables X e Y se define por:
r
Cov ( x , y )
Sx Sy
40
y = 5.5321x - 3.5967
R2 = 0.9368
30
20
10
0
0
Donde:
SX
50
10
15
DIGRAMA DE DISPERSIN 02
8
y = -0.4827x + 6.2973
R2 = 0.8951
6
4
2
0
0
10
15
RELACIN NO LINEAL
DIAGRAMA DE DISPERSIN 03
-3.2166
y = 0.9125x
2
R = 0.9399
1
0.8
0.6
0.4
n
2
SCD y i (a bx i )
i 1
0.2
0
0
10
15
Minimizar significa derivar SCD con respecto a cada uno de los parmetros a y b e
igualar a cero cada una de las derivadas parciales. Es decir:
SCD
2 y i (a bx i ) ( 1) 0
i 1
a
SCD
DIAGRAMA DE DISPERSIN 04
2 y i (a bx i ) ( x i ) 0
i 1
4.00
y b x na
i 1 i
i 1 i
3.00
n 2
n
y x b x a x
i
i
i
i 1
i 1
i 1 i
2.00
1.00
0.00
0
10
a y bx
x y nx .y
Cov ( x ,y )
i 1 i i
n 2
2
S x2
x nx
i
i 1
nS y nbCov ( x , y )
Cov ( x , y ) Cov ( x , y )
S x S y S x S y
Cov ( x , y )
S x S y
x y nx .y
Cov ( x ,y )
i 1 i i
n 2
2
S x2
x nx
i
i 1
Hallando primero b
5
x y nx .y
16296 5(11.4)(52)
i 1 i i
b 5
4.4595
2
783 5(11.4)
x nx
i 1 i
n 2
Hallando a
a y bx 52 4.4595(11.4) 1.1617
Luego el modelo de regresin es:
y 1.1617 4.4595x
PROPIEDADES:
(a) El coeficiente de determinacin varia desde 0 hasta 1.
(b) Si r
(c) Si r
2
2
EJERCICIO:
En una evaluacin a un grupo de 5 alumnos se aplican dos pruebas, una de ellas mide la
habilidad mental y la otra una prueba de conocimientos, los resultados se registran a
continuacin:
Habilidad
Conocimientos
Estudiantes
Mental X
Y
Mara
18
82
Pedro
15
68
Susana
12
60
Aldo
9
32
Juan
3
18
Sx
1 n 2
2 1
2
x x (783) 11.4 26.64
i
i
1
n
5
Hallando la varianza de Y:
Sy
1 n 2
2 1
2
y y (16296) 52 555.20
i
n i 1
5
Hallando la Cov(x,y):
Cov ( x , y )
1 n
1
x y x .y (3558) (11.4)(52) 118.8
i i
i
1
n
5
Cov ( x , y )
Sx Sy
(26.64)(555.20)
118.8
2
0.95422
r2 = 95.42 % indica que los conocimientos son explicados en un 95.42 % por la habilidad
mental.
(d) La dispersin alrededor de la recta es:
2
5(555.2)52(4.4595)(118.8)
42.3523
3