Beruflich Dokumente
Kultur Dokumente
CAPÍTULO 1.
INTRODUCCIÓN: ¿Por qué estudiar métodos estadísticos?
1.1 LA "IMAGEN" DE LA ESTADÍSTICA
1
TROCAR. Mudar, cambiar, permutar una cosa por otra.
1
La estadística ha llegado a conocerse en el siglo XX
como la herramienta matemática para analizar datos
experimentales y basados en la observación. Conservada
religiosamente por la política pública como la única base
confiable para los juicios en torno a la eficacia de
procedimientos médicos o a la seguridad de químicos, y
adoptada por las empresas para usos como el control de
calidad industrial, está evidentemente entre los productos
de la ciencia cuya influencia sobre la vida pública y
privada ha sido más penetrante. El análisis estadístico ha
llegado a ser visto en muchas disciplinas científicas como
indispensable para llegar a conclusiones confiables a
partir de resultados empíricos... Desde la invención del
Cálculo, si acaso, no se ha encontrado un nuevo campo
de las matemáticas con tan amplio dominio de aplicación.
2
1.2 DOS TIPOS DE ESTADÍSTICA
3
1.4 ESTADÍSTICA INFERENCIAL
4
3. "Sed hacedores de la palabra, y no tan sólo oidores,
engañándoos a vosotros mismos" (Santiago 1:22). Hágase
un favor: trabaje cuidadosamente algunos problemas
simples y compruebe utilizando sólo papel, lápiz y una
calculadora portátil antes de usar la computadora.
5
CAPÍTULO 2.
DISTRIBUCIONES DE FRECUENCIA: Tablas
estadísticas y gráficas
2.1 VARIABLES
6
Las variables pueden medirse en varias formas diferentes.
Por ejemplo, la eficacia de la enseñanzapuede ser evaluada
por el rendimiento de los estudiantes, cuestionarios de
evaluación del curso a losestudiantes, autoevaluaciones de los
maestros, valoración del supervisor, o evaluaciones de
colegas.
7
2.4 DISTRIBUCIONES DE FRECUENCIA
8
2.6 UN EJEMPLO
9
2.8 DISTRIBUCIONES DE FRECUENCIA AGRUPADAS
10
3. Especifique los límites de intervalo. Para alejar la
probabilidad de agrupar los datos en una forma muy
favorable a la inclinación personal del investigador, el
procedimiento para asignar los límites del intervalo debe
ser estandarizado. Cada intervalo debe comenzar con un
múltiplo de w (es decir, 1w=3, 2W=6, 3w=9, 4w=12,
etcétera). El primer intervalo comienza con (es decir, tiene
un límite inferior de) el mayor múltiplo de w que es menor o
igual a Xmín.
11
2.9 CONTEOS DE TUKEY
12
2.12 HISTOGRAMA O GRÁFICA DE BARRAS
2
HISTOGRAMA. Representación gráfica de una distribución de frecuencias
por medio de rectángulos, las anchuras representan intervalos de la
clasificación y las alturas representan las correspondientes frecuencias.
13
2.14 POLÍGONOS CONTRA HISTOGRAMAS
14
2.16 MEDIANA, CUARTILES Y PERCENTILES
15
procedimiento seguido para estimar la mediana de una
distribución. Primero, localice la calificación a lo largo de la
línea base; entoncesmuévase hacia arriba verticalmente hasta
que interseque la curva de ojiva; entoncesgire a la izquierda y
muévase horizontalmente al margen izquierdo y lea el
porcentaje acumulado (rango percentil) de la calificación.
17
a acumularse. Ésta se llama distribución bimodal (es decir,
distribución con dos modas). Si las estaturas de todos los
adultos de Estados Unidos fueran graneadas, resultaríauna
distribución bimodal. Las estaturas de las mujeres se
acumularían alrededor de su moda de aproximadamente 1.65
m, y las estaturas de los hombres se acumularían alrededor de
su moda de cerca de 1.75 m.
18
La distribución del número de días de ausencia para los
estudiantes en una clase durante el año escolarse esperaría
que fuera positivamente sesgada: la mayoría de los
estudiantes perdería sólo unos pocos días, pero unos pocos
individuos perderían muchos días. Las calificaciones en un
examen muy simpletenderían a estar sesgadas
negativamente.
19
en los medios populares se construyen para ser notorias tanto
como sea posible; los periodistas con frecuencia comprometen
la exactitud para maximizar el choque de una historia, sin
tomar en cuenta si las palabras o cuadros son utilizados para
representar la historia. Nos corresponde estar con los pies en
la tierra para que no estemos entre las víctimas crédulas de la
desinformación.
20
La combinación de gráficaspuede ser una de las formas
más sutiles de dar credibilidad injustificada a la propaganda
gráfica.
2.25RESUMEN DE CAPÍTULO
21
CAPÍTULO 3.
MEDIDAS DE TENDENCIA CENTRAL Y ESCALAS DE
MEDICIÓN.
22
3.3 ESCALAS ORDINALES
23
Examen: ¿cuál de las siguientes variables puede expresarse
utilizando una escala de intervalo: 1) carrera, 2) clase social, 3)
calificación del autoconcepto, 4) temperatura del agua en la
bahía de Kealakekua?
Respuesta: ¡la temperatura del agua en la hermosa bahía de
Kealakekua! (La temperatura del agua también puede
expresarse como una escala de proporción si la temperatura se
expresa utilizando la escala absoluta [Kelvin].)
24
3.7 MEDIDAS DE TENDENCIA CENTRAL
3.8 MEDIA
3.9 MEDIANA
25
Para una distribución compuesta por un NÚMERO PAR
DE OBSERVACIONES, la mediana ocupa una posición
intermedia entre el par de valores de en medio.
3.10 MODA
26
M
d
3.12 TENDENCIA CENTRAL Y ASIMETRÍA
27
Contrario a la opinión popular, no es siempre el caso que
50% de casos estén por encima del promedio (la media).
Observe en la figura 3.1D que es completamente posible para
el 70% o más de los valores de una distribución estar debajo
del promedio (o arriba del promedio como en la figura 3.1E).
28
La mediana de la muestraes más confiable (es decir,
tiene un error de muestreo menor) que la moda de la muestra;
la media de la muestratiene un error de muestreo menor que
la moda o la mediana, lo cual es una razón del por qué tiende a
ser preferida para fines inferenciales.
Como ejemplo, suponga que un grupo se divida
aleatoriamente en dos subgrupos, А у В, y que se aplica el
mismo examen a ambos subgrupos. Sería de esperarse quela
diferencia entre las dos mediasfuera menor que aquélla entre
las dos medianas, lo cual, a su vez, se esperaría que fuera
menor que la diferencia entre las dos modas. Expresado de
otra forma, a la larga, la media de la muestra da una
estimación más cercana de su parámetro de población que la
mediana o la moda.
RESUMEN DE CAPÍTULO
29
La escala de medición representada por un conjunto
de datos depende en parte dela naturaleza de la variable en
cuestióny en parte dela calidad de los procedimientos de
medición. Las mediciones de variables
categóricascontinúan siendo escalas nominalessin importar
cuán cuidadosamente sean evaluadas. Las medidas de
variables continúas que teóricamente pueden medirse por
escalas de intervalo o de proporciónpueden representar solo
escalas ordinalessi se emplean procedimientos de medición
ordinarios.
30
La moda, a diferencia de la media y la mediana, puede
usarse incluso con las escalas nominales. La modaes la
observación que ocurre con más frecuencia, pero es menos
confiable que la media o la mediana. En distribuciones
simétricas unimodales, la moda, la mediana y la mediatienen
el mismo valor.
Característica MEDIA MEDIANA MODA
Más confiable MEDIA
Menos confiable MODA
Requiere sólo de escalas
nominales
MODA
Requiere sólo observaciones
clasificadas
MEDIANA
Punto debajo del cual y arriba del
cual cae la mitad de las MEDIANA
observaciones
“Centro de gravedad” de una
distribución
MEDIA
Influye en ella el valor específico
de cada observación
MEDIA
Será igual en una distribución
simétrica
MEDIA MEDIANA
Será igual en una distribución
normal
MEDIA MEDIANA MODA
Tendrá el valor más grande en una
distribución sesgada positivamente
MEDIA
Tendrá el valor más grande en una
distribución sesgada MODA
negativamente
Su valor no es ni el más grande ni
el más pequeño en distribuciones MEDIANA
asimétricas
Es en sí misma mejor que otras
operaciones aritméticas
MEDIA
Es la más ampliamente utilizada en
métodos estadísticos más MEDIA
avanzados
Puede estimarse gráficamente de
las curvas de ojiva
MEDIANA
Puede estimarse más rápidamente
en histogramas o polígonos de MODA
frecuencia
Mejor para variables continuas
para fines descriptivos
MEDIANA
Es igual a y MEDIANA
31
REPASO ACTIVO: EJERCICIO CLOZE.
32
CAPÍTULO 4.
MEDIDAS DE VARIABILIDAD:¿Cuán diferentes son las
observaciones?
4.1 INTRODUCCIÓN
33
Esas diferencias de la media se llamanvalores de
desviacióny se simbolizancon minúsculas: x cuando se
considera una variable (y x y y cuando se consideran dos
variables).
34
Para calcular para una población de valores.
35
De aquí, la SC de la muestra de será menor que la
suma de los cuadrados de (excepto en el raro caso en que
X= ). Cuando es desconocida, el uso de la estimación, ,
más que de para calcular la suma de cuadrados, SC, da
como resultado un valor para la suma de cuadrados que es
demasiado pequeño, y la ecuación 4.3 daría una
subestimación influida por la varianza de la población.
Afortunadamente, los estadísticos matemáticoshan resuelto
esta dificultad en nuestro lugar: han probado, bastante
asombrosamente, quela influencia en SC resultante del uso
de en lugar de , ¡es compensada con precisión al
reemplazar el denominador n por (n - 1) (véase la ecuación
4.6)! Utilizar el divisor (n - 1) da como resultadouna
estimación no influida de la varianza de la población de la
muestra aleatoria de n observaciones; n - 1tiene el nombre no
intuitivo de grados de libertad, y se representa por (letra
griega que se pronuncia como "ni" que corresponde a nuestra
letra n). Encontrará las expresiones "grados de libertad" y " " a
lo largo del libro; piense en grados de libertad comoun
tamaño de muestra, ajustado para compensar el sesgo. La
varianza de la muestra, , definida por la ecuación 4.6 es
una inferencia estadística no sesgada; es la estimación no
sesgada de .
36
A la larga, el valor medio de un estadígrafo no sesgado
(es decir, su valor esperado)es el parámetro que estima. Otra
forma de decir esto es que, a la larga, la suma algebraica de
los errores de muestreo para ese estadígrafoes cero.
4.12 RANGO
37
El rango semintercuartilar Q, es una medida de la
distancia entre el tercer y primer cuartiles, es decir:
38
4.15 CONFIABILIDAD Y CONSISTENCIA DE ESTIMADORES
39
RESUMEN DEL CAPÍTULO
40
ESTADÍSTICA
CAPÍTULO 2.
DISTRIBUCIONES DE FRECUENCIA: Tablas
estadísticas y gráficas
RESUMEN DE CAPÍTULO
41
PRUEBA DE DOMINIO.
a) distribución de rango-orden
b) distribución de frecuencias no agrupada
c) histograma
43 58 46 49 50 50 55 47 50 52 51 56
53 54 51 51 39 50 40 41 58 42 40 41
a) Encuentre Xmáx= 58
b) Encuentre Xmín= 39
c) Calcule el rango=19
42
7. ¿Qué nombre daría a un valor que se desvía marcadamente de
los otros valores en la distribución?
EXTERNO
a) eje X
b) eje Y
c) eje horizontal
d) abscisa
En las preguntas 11-16, haga coincidir las descripciones verbales y
gráficas:
a) 60?=10
b) 1 000?=15 o 20
43
18. ¿Cuál de las siguientes gráficas es mejor para determinar
percentiles?
a) Histograma
b) polígono de porcentajes
c) curva de ojiva
19. ¿Cuál de los siguientes cuatro términos difiere más de los otros
tres?
a)
b) Mediana
c)
d)
a) Variable
b) Constante
21. ¿En una gráfica de caja y patillas, qué porcentaje de los casos
cae dentro de la caja?
50%
a) Normal
b) Bimodal
c) asimétrica positiva
d) asimétrica negativa
44
f) Raza. CATEGÓRICA
g) calificación en ciencias. CONTINUA
h) calificación en matemáticas. CONTINUA
i) calificación en civismo. CONTINUA
j) NSE. CONTINUA
PROBLEMAS Y EJERCICIOS.
45
b) ¿Cuántos intervalos sugeriría para mostrar la
distribución?
46
h) ¿Sería un polígono de frecuencias una gráfica
apropiada para esos datos? ¿Por qué?
=80
=100
=110
47
m) Comente sobre la aparente simetría o asimetría de
esos datos.
48
a) ¿Un polígono de frecuencias es apropiado para
graficar esos datos? ¿Por qué?
49
g) ¿Habría probablemente brechas entre las columnas del
histograma? ¿Por qué?
50
CAPÍTULO 3.
MEDIDAS DE TENDENCIA CENTRAL Y ESCALAS DE
MEDICIÓN.
RESUMEN DE CAPÍTULO
51
En distribuciones segadas positivamente, se espera
que la media exceda ala mediana y a la moda; lo contrario es
cierto paradistribuciones sesgadas negativamente. Para
distribuciones continuas, la mediana es por lo generalel
indicador más significativo de tendencia centralpara fines
descriptivos.
52
distribución sesgada positivamente
Tendrá el valor más grande en una
distribución sesgada MODA
negativamente
Su valor no es ni el más grande ni
el más pequeño en distribuciones MEDIANA
asimétricas
Es en sí misma mejor que otras
operaciones aritméticas
MEDIA
Es la más ampliamente utilizada en
métodos estadísticos más MEDIA
avanzados
Puede estimarse gráficamente de
las curvas de ojiva
MEDIANA
Puede estimarse más rápidamente
en histogramas o polígonos de MODA
frecuencia
Mejor para variables continuas
para fines descriptivos
MEDIANA
Es igual a y MEDIANA
53
En distribuciones asimétricas, la MEDIANA con frecuencia
es la medida descriptiva preferida de tendencia central, pero
para fines inferenciales la MEDIA tiene el menor error de
muestreo.
PRUEBA DE DOMINIO.
54
6. Si = 20, = 14 у = 8, ¿cuál es el valor? de:
a) + = 20 + 8 = 28.
b) = 20 + 14 + 8 = 42.
55
15. ¿Cuál medida de tendencia central es la más confiable?
MEDIA.
¿Cuál es menos confiable?MODA.
56
21. Si la media y la mediana son iguales, no esperaríamos que
la distribución fuera
a) Normal
b) Rectangular
c) Bimodal
d) Simétrica
e) Asimétrica
57
27. DadaX: 6, 10,2,6.
a) = 24
b) n = 4.
c) =6.
PROBLEMAS Y EJERCICIOS.
1. Cuál es el rango?
Rango = - =52 – 0 = 52.
58
4. Construya un histograma de esos datos y comente sobre
la forma de la distribución.
6. Estime y .
= 2 o 3.
= 13.5.
7. Calcule la media.
= 9.78.
8. Determine la mediana.
5
9. Determine la moda.
1
59
10. Compare la distancia de ( a con la distancia de a
. - ES MAYOR QUE - .
El patrón sugiere asimetría POSITIVA.
13. Suponga que una distribución tiene una media de 70, una
mediana de 65 y una moda de 55. ¿En qué dirección está
sesgada la distribución?ESTA SESGADA A LA
DERECHA, ES DECIR, POSITIVAMENTE.
60
Las preguntas 15-16 corresponden a los datos presentados en
la tabla 2.2.
15. Mo = 50
16. Md=51
61
CAPÍTULO 4.
MEDIDAS DE VARIABILIDAD: ¿Cuán diferentes son las
observaciones?
RESUMEN DE CAPÍTULO
62
PRUEBA DE DOMINIO.
63
18. Utilizando la tabla 4.1 y suponiendo que una muestra de
100 observaciones se obtiene aleatoriamente de una
población con = 10, estime el rango.
5(10)=50
64
29. Encuentre para:
a) Escuela A;25
b) Escuela B; 100
c) Escuela C.400
Donde: ;
Donde:
Por tanto:
65
PROBLEMAS Y EJERCICIOS.
Calcule:
a) = 5
b) SC = 32
c) =5.33
d) = 2.31
Calcule:
a) = 4
b) SC = 26
c) =6.5
d) = 2.55
Calcule:
a) = 4
b) SC = 36
c) =5.14
d) = 2.27
67
Ejercicios 6-9. Ocasionalmente, los estadígrafos resumidos
como n, y están dados, pero el investigador necesita
trabajar las fórmulas "de forma inversa " para determinar y
SC. Para cada uno de los siguientes ejercicios, trabaje
inversamente para encontrar y SC.
7. = 82.4, = 8, n= 10.
=824; SC=576.
9. = 28.4, = 3, n = 41.
=1164.4; SC=360.
1, 0, 2, 1, 0, 0, 1, 0, 2, 4, 0
68
d) , NO CAMBIA
Encuentre:
a) = 6.4
b) SC = 0.52
c) = 0.52/7=0.0743
d) = =.273
e) rango = 6.8-6.0=0.8
69
Los datos de prueba de los datos HSB fueron procesados
mediante un programa de computadora y la salida se muestra
abajo (N = 200).
Variable Rango
Calificación T en lectura 52.23 10.25 105.12 48.00
Calificación Ten escritura 52.78 9.48 89.84 36.00
Calificación T en matemáticas 52.64 9.37 87.77 42.00
Calificación Ten ciencias 51.85 9.90 98.03 48.00
Calificación T en civismo 52.40 10.74 115.26 45.00
SC=
70
25. Realmente el conjunto de datos del HSB es una muestra
para un conjunto de datos mucho mayor en el que las
cinco pruebas fueron transformadas de modo que la media
de cada una fuera 50 y la varianza fuera 100.
a) ¿En cuál de los cinco exámenes la media tiene el
menor error de muestreo? CIENCIAS.
71
APÉNDICES.
APÉNDICE C: Glosario de Símbolos.
, Medias de la muestra
Media de la población
Sumatoria de los valores de la variable X
72
4. Símbolos presentados en el capítulo 4, Variabilidad
73
APÉNDICE E: Glosario de Fórmulas.
y ………………………………..…..(3.1 – 3.2)
o ….....(3.3)
……………………………………………..…..(4.1)
Suma de cuadrados = SC = ……....(4.2)
………..…..(4.3)
……………………………………….…...(4.4)
Error de muestreo= Estadígrafo- Parámetro…….…....(4.5)
…………………….…....(4.6)
……………………………………….…....(4.7)
E(estadística no sesgada)=parámetro……..…….…....(4.8)
…………………………………………..…....(4.9)
Rango= Xmáx - Xmín………………………….….…..(4.10)
……………………………………..…….…..(4.11)
74
APÉNDICE E: Glosario de Términos.
75
DESVIACIÓN DE CUARTIL o rango semiintercuartil, es la
mitad de la diferencia entre y : .
76
ESCALA DE PROPORCIÓN de medición, se calibra de un
punto cero absoluto y los números sucesivos marcan
cantidades iguales del atributo que se mide.
77
GRADOS DE LIBERTAD, , es una propiedad matemática de
un conjunto de datos que está relacionada con el número de
restricciones impuestas a los datos.
78
MEDIA PRINCIPAL.Es la media de todas las observaciones en
un conjunto de datos.
MU ( ) Es la media de la población.
79
PROPORCIÓN.Es la razón de una parte al total.
80
VALOR DE DESVIACIÓN.Es el resultado cuando el valor
medio se resta de un valor bruto, refleja la distancia de la
media al valor bruto (es decir, ).
81
PERSONAJES DE ESTADÍSTICA.
82
5. Rock, Hilton, Pollack, Ekstrom y Goertz, 1985; Elaboraron
los datos del studio real del libro.
6. Tukey (1977):
- sugirió un método alternativo para contar las
observaciones cuando n es grande. El método de
Tukey cuenta los valores en prácticos grupos
convenientes de diez: las primeras cuatro cuentas se
denotan por puntos que forman las esquinas de un
cuadrado; las siguientes cuatro cuentas son segmentos
de línea que forman los lados del cuadrado; la novena
cuenta y la décima se indican por líneas diagonales
dentro del cuadrado.
- En los años recientes, se ha llegado a usar
ampliamente LOS GRÁFICOS DE PATILLAS, en gran
medida como resultado de su influencia.
- En la gráfica de cala, la caja se extiende de Q1, a Q3
(llamados "bisagras" por Tukey) y define el 50% central
de la distribución.
83
10. Velleman y Wilkinson (1993), quienes afirman:
―Desafortunadamente, el uso de las categorías de Steven para
seleccionar o recomendar métodos de análisis estadístico es
inapropiado y puede ser erróneo. Tales categorías no
describen los atributos de los datos reales que son esenciales
para un buen análisis estadístico. Ni proporcionan un esquema
de clasificación apropiado para los métodos modernos de
análisis de datos.‖
84