Análisis de Datos Cuantitativos

c

Y
Y
YYY
Y
YYYY
Y
Y

YYY

Y
YY
Y
Y YY

Y

YY

Y YY
RY los datos que son obviamente erróneos o irrelevantes. Esto ha de ser
hecho con precaución: no debiéramos borrar datos que son solamente "anómalos"
y no armonizan con nuestras hipótesis. Pueden también demostrar que la hipótesis
es defectuosa.
RY o
nuestros datos significa que eliminamos la influencia de algún
factor bien conocido pero sin interés. Por ejemplo, podemos eliminar el efecto de
la inflación dividiendo todos los precios por el índice de precios de la fecha de la
compra.
En el análisis propiamente dicho de los datos, el propósito es extraer una invariante o

estructura que nos interese a partir de los datos. Esto no significa que introduzcamos los
datos en un ordenador y esperemos que el ordenador nos muestre qué estructuras
pueden encontrarse en ellos. Los ordenadores no son lo bastante listos para eso.
En lugar de ello, es habitual que ya en un momento tan temprano como el inicio del
proyecto, el investigador tenga un modelo matemático que aplicará a los datos. Este
modelo también proporciona las hipótesis eventuales para el proyecto de investigación, o
al menos actúa como una hipótesis de trabajo inicialmente no exacta que se puntualizará
durante el análisis.
Los datos empíricos pueden entonces analizarse del modo siguiente: primero, el
investigador dispone los datos de acuerdo con el modelo y después considera en qué
grado el marco es adecuado a los datos o si ha de buscarse un modelo que se adapte
mejor.
En otras palabras, el investigador suele primero decidir qué tipo de patrón es el que está
buscando en los datos. Esto determinará los métodos para un análisis matemático. Así, la
primera cuestión a la hora de elegir el método de análisis es: ¿Queremos usar las variables
medidas para clasificar casos o individuos? ¿O deseamos analizar variables inconexas, o
bien las relaciones entre diversas variables?
Otra decisión importante se refiere al propósito final de su proyecto. ¿Usted desea

describir cómo ? el actual (o anterior) estado de su objeto, o usted desea descubrir cómo
el objeto debe ser: qué grado de las cualidades medidas sería óptimo? Este último tipo de
análisis se discute bajo del título Agregar una dimensión normativa a un análisis
descriptivo.
Y
Y
Y
A continuación hay una lista de algunos métodos habituales para el análisis estadístico de
sola variable. Los métodos han sido dispuestos de acuerdo con la escala de medición
de la variable.
Y Y Y

Y Y
Y
Y
Y
Y YY
Y Y
Métodos de

- Tabulación ; Presentación gráfica -
de los datos
- La moda -
Medias: - - La mediana -
- - - Media aritmética -
- - Desviación de cuartil -
Medidas de dispersión: - - El rango -
- - - Desviación estándar -
Y

Y! Y
YY
Y
Un modo simple de presentar una distribución de

valores es mostrar cada valor como un punto en una
escala. Si hay un gran número de valores, puede ser
mejor clasificarlos primero y entonces presentar la
frecuencia de cada clase como un " (Fig.
de la derecha).
Si nuestros
estudios tienen
que ver con
personas, ocurrirá con bastante frecuencia que
nuestras mediciones estarán distribuidas de acuerdo
con cierta curva, la llamada ? (a la
izquierda) que es, por consiguiente, llamada la
Y. Una de sus propiedades es que el
68% de todas las mediciones diferirá de la media (en la
figura: #) en no más que la desviación estándar, y el
95% en no más que el doble de la desviación estándar.
A veces querremos poner el énfasis no en la distribución

, sino en la
o de porcentaje. Un
diagrama apropiado para esto es el gráfico
Y

,
también llamado "de tarta" o "de queso" (a la derecha):
#
Y
Una media es una estadística que caracteriza el valor

típico de nuestros datos y elimina la dispersión aleatoria
de valores. Para cada una de las distintas escalas de medición hay un tipo adecuado de
media,
RY la moda
RY la mediana
RY la media aritmética.
# es el valor más común en nuestro conjunto de datos.
#
es el valor en el medio de la selección, si todos los valores están dispuestos del
menor al mayor.
#
Y$% & es la suma de todos los valores dividido por su número, o
De entre las medias que se han presentado más arriba, el investigador puede elegir
habitualmente aquella que muestra mejor el valor típico de la variable. La media
aritmética es el más popular, pero puede ofrecer un cuadro equivocado por ejemplo en
datos que incluyen un valor que difieren en gran medida de los otros (véase la imagen de
abajo).
Lo mismo ocurre si la
distribución está

como en la
imagen de la derecha. En
el ejemplo, se relacionan
los minutos que los
distintos sujetos tardan en
llevar a cabo una tarea.
Los más rápidos
necesitaron 5 minutos,
pero el resultado más
común (=la i) fue de
siete minutos. El valor en
el medio, es decir, la
i?
se ha mostrado en "M" rojo en la imagen. La mediana tenía aquí el valor 11.
¿Qué pasa con la i?

? Como al sujeto más lento le llevó el acabar 34 minutos, la media
se eleva a 11.98 minutos, lo que no da un cuadro exacto del resultado medio en este caso.
Esto muestra que los datos están desviados; el tipo de media debe elegirse con cuidado.
Una presentación gráfica muchas veces sería más ilustrativa que calcular una sola
estadística.
La distribución mostrada en esta figura está escorada

, porque las
mediciones que han dado valores mayores que la mediana (11) se extienden en un amplio
rango (de 11 a 34), mientras que las mediciones que han dado valores por debajo de la
mediana se concentran pocos valores (5...11).
Se puede también, si es necesario, acudir a una estadística para describir la cantidad de

desviación.
Al elegir la media más apropiada, debemos tener en cuenta la escala que fue usada en la
recolección de los datos. Si la escala era nominal, la única media posible es la moda. Si la
escala fue ordinal, podemos usar la mediana o la moda.
Finalmente, si la media fue calculada a partir de una muestra, debemos examinar su
representatividad estadística, o qué probable es que la misma media sea cierta en la
población de la que la muestra se extrajo. Una comprobación apropiada para esto es la
prueba t.
6 YY
Y
YYY
Una vez que hemos calculado el valor medio, puede ser a veces interesante describir a
qué distancia en torno a la media están diseminados los valores singulares. Para este fin,
podemos elegir entre diversas estadísticas. La elección depende del tipo de media que
hayamos usado:
RY En conexión con la moda la dispersión de valores raramente es interesante.

RY En lugar de ello, si hemos calculado una mediana, muchas veces querremos
señalar la diseminación de valores en torno a ella. Una forma adecuada para esto
es la
Y
Y
Un "cuartil más alto" es aquel valor que es
sobrepasado por el 25% del conjunto de todas las mediciones; del mismo, modo el
25% de todos los valores son más bajos que el "cuartil bajo". La desviación media
de los cuartiles (marcadas con Q verde en la diagrama) a partir de la mediana es
llamada desviación de cuartiles y es calculada con facilidad dividiendo por la mitad
la diferencia de los cuartiles.
RY Una estadística alternativa y muy simple es el la diferencia entre el mayor y
el menor valor.
RY En conexión con la media aritmética muchas veces querremos calcular la

Y
Si los valores se miden a partir de una población, la formula
será,
Sin embargo, si la desviación estándar sólo se refiere a una muestra, la formula es,
En ambas fórmulas, es el número de los valores, y los valores de cada variable

sustituirán a ' uno tras otro. Raramente un investigador se molestará en realizar por sí
mismo el cálculo, porque el algoritmo necesario para esto existe incluso en calculadoras
de bolsillo.
A la raíz cuadrada de la desviación estándar se llama , y también ésta es usada

con frecuencia para describir y analizar la dispersión.
Si la estadística de dispersión se ha calculado a partir de una muestra, su
representatividad estadística debe también calcularse al final. La prueba t es adecuada
para esto.

Y(Y
Es la medida que indica la dirección y el grado en que un valor individual se aleja de la

media, en una escala de unidades de desviación estándar
)
Y
Relación entre dos categorías
*Y
Numero de elementos de una categoría entre el numero total de observaciones

multiplicado por 100
Y+Y
YY !YY
YYY
Y
Y
Y
Y
Determinamos las puntuaciones o valores obtenidos por los casos (participantes,

objetivos, etc.) en cada ítem, tomado individualmente. Algunos ítems constituyen
variables y otros ítems agrupados, miden una misma variable y deben constituir una
escala para poder juntarse o sumarse, ahora debemos demostrar que tales escalas fueron
confiables y validas en la investigación
RY La confiabilidad
La confiabilidad se calcula mediante diversos métodos:
1.Y Medida de estabilidad; que se calcula aplicando a los participantes la
misma prueba dos veces y luego obteniendo un coeficiente de correlación
entre las puntuaciones de ambas aplicaciones.
2.Y Método de formas alternativas o paralelas; Se calcula a través de un
coeficiente de correlación entre los resultados de dos pruebas
supuestamente equivalentes.
3.Y Método de mitades partidas; Se calcula por medio de un coeficiente de
correlación entre las puntuaciones de las mitades del instrumento
4.Y Medidas de coherencia interna; Coeficientes de confiabilidad alfa de
Cronbach(ɲ) y los coeficientes KR-20 y KR
Todos estos coeficientes oscilan entre 0 y 1 donde un coeficiente de 0
significa nula confiabilidad y 1 representa un máximo de confiabilidad.
El investigador calcula su valor, lo reporta y lo somete a escrutinio de los
usuarios del estudio u otros investigadores.
El coeficiente que elijamos para determinar la confiabilidad debe ser
apropiado al nivel de medición de la escala de nuestra variable. Alfa trabaja
con variables de intervalos o de razón y KR-20 y KR-21 con ítems
dicotómicos (por ejemplo: si-no)
Es indispensable incluir las dimensiones de la variable medida, el tamaño de

muestra y el método utilizado. Una cuestión importante es que regularmente los
coeficientes son sensibles al número de ítems o reactivos, entre más agreguemos,
el valor del coeficiente será más elevado.
RY La validez
La evidencia sobre la validez del contenido se obtiene mediante las opiniones del
experto y al asegurarse que las dimensiones medidas por el instrumento sean
representativas del universo o dominio de dimensiones de la(s) variable(s) de
interés.
La evidencia de la validez de criterio se produce al correlacionar las puntuaciones
de los participantes, obtenidas por medio del instrumento, con sus valores
logrados en el criterio.
La evidencia de la validez de constructo se obtiene mediante el análisis de factores.
Tal método nos indica cuantas dimensiones integran a una variable y que ítems
conforman cada dimensión. Los reactivos que no pertenezcan a una dimensión
(están aislados) y no miden lo mismo que los demás ítems, por lo tanto deben
eliminarse.
Una vez que se determina la confiabilidad (de 0 a 1) y se muestra la evidencia
sobre la validez, si algunos ítems son problemáticos se elimina de los cálculos (pero
en el reporte de la investigación, se indica cuales fueron eliminados);
posteriormente se vuelve a realizar el análisis descriptivo
Y ,Y Y

Y
Y
- Y Y "
Y
Y $Y
- Y!

&Y
RY ¿Para qué es útil la estadística inferencial?

Con frecuencia, se pretende generalizar los resultados obtenidos en la muestra a la
población o el universo. Los datos casi siempre se recolectan de una muestra y sus
resultados estadísticos se denominanY
-!.Y la medida o la desviación
estándar de la distribución de una muestra son estadígrafos. A las estadísticas de la
población o al universo se les conoce como
Y Los parámetros no son
calculados, pero pueden ser inferidos de los estadígrafos, de ahí el nombre de

- Y!

YY
La inferencia de los parámetros se lleva a cabo mediante técnicas estadísticas
apropiadas. Se utiliza para dos procedimientos:
a)Y Probar hipótesis
b)Y Estimar parámetros
RY ¿En qué consiste la prueba de hipótesis?

Una hipótesis es una proposición respecto a uno o varios parámetros, y lo que el
investigador hace por medio de la prueba de hipótesis es determinar si la hipótesis
es congruente con los datos obtenidos en la muestra
La hipótesis se retiene como un valor aceptable del parámetro, si es congruente
con los datos. Si no lo es, se rechaza (pero los datos no se descartan). Para
comprender lo que es la prueba de hipótesis en la estadística inferencial es
necesario revisar el concepto de distribución muestral.
RY ¿Qué es una distribución muestral?

Una distribución muestral es un conjunto de valores sobre una estadística
calculada de todas las muestras posibles de determinado tamaño de una
población. Si calculamos la media de todas las medias de la muestra, obtendríamos
el valor de la media poblacional.
En el teorema central del límite se expresa:

Si una población tiene de media ͞m͟ y de desviación estándar ͞s͟, la distribución
de las medias en el muestreo aleatorio realizado en esta población tiende, al
å
aumentar ͞n͟, a una distribución normal de media ͞m͟ y desviación estándar

donde ͞n͟ es el tamaño de muestra.
El teorema especifica que la distribución muestral tiene una media igual a la de la
población, una varianza igual a la varianza de la población dividida entre el tamaño
de muestra
RY ¿Qué es el nivel de significancia?

La probabilidad de que un evento ocurra oscila entre cero (0) y uno (1), donde cero
significa la imposibilidad de ocurrencia y uno la certeza de que el fenómeno
ocurra.
Una gran cantidad de los fenómenos del comportamiento humano se manifiesta
de la siguiente forma: la mayoría de las puntuaciones se concentran en el centro
de la distribución, en tanto que en los extremos encontramos solo algunas
puntuaciones.
Las principales características de la distribución normal son:

1.Y Es unimodal, una sola moda.
2.Y La asimetría es cero. La mitad de la curva es exactamente igual a la
otra mitad
3.Y Es una función particular entre desviaciones con respecto a la media
de una distribución y la probabilidad de que estas ocurran
4.Y La base está dada en unidades de desviación estándar, destacando
las puntuaciones -1s, -2s, -3s, +1s, +2s y +3s
5.Y Es mesocúrtica (curtosis es cero)
6.Y La media, la mediana y la moda coinciden en el mismo punto
Aplicando el concepto de probabilidad a la distribución muestral, tomaremos el área de

esta como 1.00; para probar hipótesis inferenciales respecto a la media, el investigador
debe evaluar si es alta o baja la probabilidad de que la media de la muestra se esté cerca
de la media de la distribución muestral. Si es baja, el investigador dudara de generalizar a
la población. Si es alta, el investigador podrá hacer generalizaciones. Es aquí donde entra
el
Y
Y! YY
Y!, el cual es un nivel de la probabilidad de equivocarse y
se fija antes de probar hipótesis inferenciales.
RY ¿Con que porcentaje de confianza el investigador generaliza, para suponer que tal
cercanía es real y no por un error de muestreo?
Existen dos niveles convenidos en ciencias sociales:
a)Y El nivel de significancia de 0.05, el cual implica que el investigador tiene
95% de seguridad para generalizar sin equivocarse y solo 5% en contra.
b)Y El nivel de significancia de 0.01, el cual implica que el investigador tiene
99% en su favor y 1% en contra.
RY ¿Cómo se relacionan la distribución muestral y el nivel de significancia?
El nivel de significancia se expresa en términos de probabilidad y la distribución
muestral también como probabilidad. El nivel de significancia lo tomamos como un
área bajo la distribución muestral.
Así el nivel de significancia representa aéreas de riesgo o confianza en la
distribución muestral.
RY Una vez definido el nivel de significancia ¿qué hacemos para ver si nuestra
hipótesis sobre la media poblacional es aceptada o rechazada?
Antes de estudiar el procedimiento es necesario hacer las siguientes
consideraciones:
a)Y La distribución muestral es una distribución normal de puntuaciones ͞z͟, la
base de la curva son puntuaciones z o unidades de desviación estándar.
b)Y Las puntuaciones z son distancias que indican aéreas bajo la distribución
normal. En este caso, aéreas de probabilidad.
c)Y El área de riesgo es tomada como el área de rechazo de la hipótesis; por el
contrario, el área de confianza, como el área de aceptación de la hipótesis
d)Y Se habla de una hipótesis acerca del parámetro
Si partimos de estas consideraciones, el procedimiento es:
a)Y Sobre bases firmes, establecer una hipótesis acerca del parámetro
poblacional.
b)Y Definir el nivel de significancia
c)Y Recolectar datos en una muestra representativa.
d)Y Estimar la desviación estándar de la distribución muestral de la media
utilizando la siguiente fórmula:

A

Donde ͞Sx͟ es la desviación estándar de la distribución muestral de la
media, s representa la desviación estándar de la muestra y n es el tamaño
de la muestra
e)Y Transformar la media de la muestra en una puntuación z, en el contexto de
la distribución muestral, con una variación de la formula ya conocida para
obtener puntuaciones z:

´
A
Donde x es la media de la muestra, es la media hipotética de la
distribución muestra y Sx es la desviación estándar de la distribución
muestral de medias.
f)Y En la tabla de aéreas bajo la curva normal, buscar aquella puntuación z que
deje a 2.5% por encima de ella, que es 1.96. Se busca el 2.5% porque la
tabla solo abarca la mitad de la distribución y el riesgo que estamos
afrontando es de 5%. Las aéreas se expresan en proporciones. Lo que
buscamos es una puntuación z que deje por encima un área de 0.025. o
2.5%, esta puntuación z es de 0.96
g)Y Compare la media de la muestra transformada a puntuación z con el valor
1.96; si es menor, aceptar la hipótesis; si es mayor, rechazarla.
Análisis Paramétricos

YYY
YYY

Y
YY
- Y% /Y
Para realizar análisis paramétricos debe partirse de los siguientes supuestos:
1.Y La distribución poblacional de la variable dependiente es normal: el universo tiene

una distribución normal.
2.Y El nivel de medición de la variable dependiente es por intervalos o razón.
3.Y Cuando dos o más poblaciones son estudiadas, tienen una varianza homogénea:
las poblaciones en cuestión poseen una dispersión similar en sus distribuciones.
¿Cuáles son los métodos o las pruebas estadísticas paramétricas más utilizadas?
Las pruebas estadísticas paramétricas más utilizadas son:
RY Coeficiente de correlación de Pearson y regresión lineal.

RY Prueba ͞t͟
RY Prueba de contraste de la diferencia de proposiciones.
RY Análisis de varianza unidireccional (ANOVA)
RY Análisis de varianza factorial (ANOVA)
RY Análisis de covarianza (ANOVA)
%Y
Y
Y
!

Y
Y
Y
Y
/Y
Definición: es una prueba estadística para analizar la relación entre dos variables medidas
en un nivel por intervalos o razón.
Se simboliza por la letra ͞r͟.

Se utiliza dos variables. La prueba en si no considera a una como independiente y a otra
como dependiente, ya que no evalúa la causalidad. La noción de causa y efecto
(independiente-dependiente) es posible establecerla teóricamente, pero la prueba no
considera dicha causalidad.
El coeficiente de correlación de Pearson se calcula a partir de las puntuaciones obtenidas

en una muestra de dos variables. Se relacionas las puntuaciones obtenidas de una variable
con las puntuaciones obtenidas de la otra, con los mismos participantes o casos.
El coeficiente ͞r͟ de Pearson puede variar de -1.00 a +1.00. donde:
-1-00= correlación negativa perfecta.
-0.90= correlación negativa muy fuerte-
-0.75= correlación negativa considerable.
-0.50=correlación negativa media.
-0.25= correlación negativa débil.
-0.10= correlación negativa muy débil.
0.00= no existe correlación alguna entre las variables.
+0.10= correlación positiva muy débil.
+0.25= correlación positiva débil.
+0-50= correlación positiva media.
+0.75= correlación positiva considerable.
+0.90= correlación positiva muy fuerte.
+1.00= correlación positiva perfecta.
El signo indica la dirección de la correlación (positiva o negativa); y el valor numérico, la

magnitud de la correlación.
Cuando el coeficiente ͞r͟ de Pearson se eleva al cuadrado (r2), se obtiene el coeficiente de

determinación y el resultado indica la varianza de factores comunes. Esto es, el porcentaje
de la variación de una variable debido a la variación de otra variable y viceversa (o cuanto
explica o determina una variable la variación de la otra).
Ejemplo: en una fábrica de automóviles la correlación entre ͞productividad͟ y ͞asistencia
al trabajo͟ es de 0.80.
r = 0.80
' =0.64
͞La productividad ͞constituye a, o explica, 64% de la variación de ͞la asistencia de

trabajo͟. ͞La asistencia al trabajo͟ explica el 64% de ͞la productividad͟. Si r es 0.72 y
consecuentemente ' =0.52, quiere decir que poco más de la mitad de la variabilidad en
una variable esta explicada por la otra.
%Y
YY

Y
/Y
Definición: es un modelo matemático para estimar el efecto de una variable sobre otra.
Está asociada con el coeficiente r de Pearson. Brinda la oportunidad de predecir las
puntuaciones de una variable tomando las puntuaciones de la otra variable. Entre mayor
sea la correlación entre las variables (covariacion), mayor capacidad de predicción.
Donde ɴ0 es la intersección o término "constante", las son los parámetros

respectivos a cada variable independiente, y p es el número de parámetros
independientes a tener en cuenta en la regresión. La regresión lineal puede ser
contrastada con la regresión no lineal.
Hipótesis: correlaciones y causales.
Variables: dos, una se considera como independiente y otra como dependiente. Pero, para
poder hacerlo, debe tenerse un sólido sustento teórico.
Procedimiento e interpretación: la regresión lineal se determina con base en el diagrama

de dispersión. Este consiste en una grafica donde se relacionan las puntuaciones de una
muestra en dos variables.
En el Modelo de Regresión es muy importante identificar cuál es la variable dependiente y

cuál es la variable independiente. En el Modelo de Regresión Simple se establece que Y es
una función de sólo una variable independiente, razón por la cual se le denomina también
Regresión Di variada porque sólo hay dos variables, una dependiente y otra independiente
y se representa así:
Y = f (X)
"Y está regresando por X"
La variable dependiente es la variable que se desea explicar, predecir. También se le llama

"'regresando"' ó "'variable de respuesta"'. La variable Independiente X se le denomina
"'variable explicativa"' ó "'regresor"' y se le utiliza para explicar Y. Se calcula la ecuación de
la recta que pasa por dos puntos dados. Sin embargo, en la regresión lineal por lo general
se tiene más que dos puntos de datos, y raras veces están todos en una sola recta. El
problema es que hallar la recta que ajusta los datos tan estrechamente que posible.
La Ecuación General es de la forma:
Donde:
'Y Y 'Y '0 Y

20 8.4 168 400
22 9.5 209 484
24 11.8 283.2 576
26 10.4 270.4 676
28 13.3 372.4 784
30 14.8 444 900
ɇ 150 ɇ 68.2 ɇ 1747 ɇ 3820
Entonces la ecuación quedaría como:
¿Qué es la prueba ͞t͟?
Definición: es una prueba estadística para evaluar si dos grupos difieren entre si de
manera significativa respecto a sus medias.
Se simboliza: por la letra ͞t͟.
Hipótesis: de diferencia entre dos grupos. La hipótesis de investigación propone que los
grupos difieren de manera significativa entre si y la hipótesis nula propone que los grupos
no difieren significativamente.
Variable: la comparación se realiza sobre una variable (teóricamente dependiente). Si hay

diferentes variables, se efectuaran varias pruebas ͞t͟ (una por cada variable), y la razón
que motiva la creación de los grupos puede ser una variable independiente.
Nivel de medición de la variable de comparación: Intervalos o razón.
Interpretación: El modelo matemático que en seguida se presenta, corresponde a dos

muestras independientes.
Donde:
t = valor estadístico de la prueba t de Student.
1 = valor promedio del grupo 1.
2 = valor promedio del grupo 2.
sp = desviación estándar ponderada de ambos grupos.
N1 = tamaño de la muestra del grupo 1.
N2 = tamaño de la muestra del grupo 1.
Ecuación para obtener la desviación estándar ponderada:

Donde:
sp = desviación estándar ponderada.
SC = suma de cuadrados de cada grupo.
N = tamaño de la muestra 1 y 2.
Pasos:
1.Y Determinar el promedio o media aritmética de cada grupo de población.

2.Y Calcular las varianzas de cada grupo, a fin de demostrar la homogeneidad de
varianzas mediante la prueba de X2 de Bartlett.
3.Y Calcular la suma de cuadrados de cada grupo: Suma de cuadrados (SC) = S(X - )2 .
4.Y Calcular la desviación estándar ponderada (sp) de ambos grupos.
5.Y Obtener la diferencia absoluta entre los grupos ( 1 - 2).
6.Y Aplicar la fórmula y obtener el valor estadístico de t.
7.Y Calcular los grados de libertad (gl). gl = N1 + N2 -2
8.Y Obtener la probabilidad del valor t en la tabla.
9.Y Decidir si se acepta o rechaza la hipótesis.
Ejemplo:
Un investigador ha obtenido la talla de 20 niños de 5 años de edad, de dos condiciones

socioeconómicas contrastantes (alta y baja). Considera que ambos grupos de población
tienen estaturas diferentes.
?
? ??

Tenemos un modelo experimental con dos muestras independientes.
?i
??
?

RY Hipótesis alterna (Ha). Las tallas de niños de 5 años de las dos muestras, de
condiciones socioeconómicas contrastantes, son distintas.
RY Hipótesis nula (Ho). Las diferencias observadas en las tallas de niños de las dos
muestras de condición socioeconómica similar se deben al azar.

??

Para todo valor de probabilidad igual o menor que 0.05, se acepta Ha y se rechaza Ho.
Ú??
Para todo valor de probabilidad mayor que 0.05, se acepta Ho y se rechaza Ha
Talla en cm de niños de condiciones socioeconómicas baja y alta.

? ??

Suma de cuadrados.
Desviación estándar ponderada.
Ecuación t.
gl = N1 + N2 -2 = 10 + 10 - 2 = 18
El valor de to se compara con los valores críticos de la tabla (tt) con 18 grados de libertad,
y se obtiene que en el valor más cercano al calculado, la probabilidad es de 0.001 (valor
crítico de t: 3.92).
ÿ?

Como el valor de to (3.99) tiene una probabilidad de significancia menor que 0.001,
también es menor que 0.05, propuesto como nivel de significancia, por lo cual se acepta
Ha y se rechaza Ho.
? ?

Las diferencias en talla de ambos niños de condiciones socioeconómicas antagónicas (alta
y baja) difieren notoriamente en el nivel de confianza de p menor que 0.001.
%Y
YY
Y
Y!

Y
Y
/Y
Definición: es una prueba estadística para analizar si dos proposiciones difieren

significativamente entre si.
Hipótesis: de diferencia de proposiciones en dos grupos.
Variable: la comparación se realiza sobre una variable. Si hay varias, se efectuara una
prueba de diferencia de proporciones por variable.
Nivel de medición de la variable de la comparación: intervalos o razón, expresados en

proporciones o porcentajes.
Procedimiento e interpretación: La fórmula que se utilizará para el cálculo de probabilidad

del estadístico de diferencia de proporciones es:
Ejemplo:
Se sabe que 3 de cada 6 productos fabricados por la máquina 1 son defectuosos y que 2
de cada 5 objetos fabricados por la máquina 2 son defectuosos; se toman muestras de 120
objetos de cada máquina:
a.Y ¿cuál es la probabilidad de que la proporción de artículos defectuosos de la

máquina 2 rebase a la máquina 1 en por lo menos 0.10?
b.Y ¿cuál es la probabilidad de que la proporción de artículos defectuosos de la
máquina 1 rebase a la máquina 2 en por lo menos 0.15?
Ô

Datos:
P1 = 3/6 = 0.5
P2 = 2/5 = 0.4
n1 = 120 objetos
n2 = 120 objetos
a.Y p (p2-p1 0.10) =?
Otra manera de hacer este ejercicio es poner P1-P2:

La probabilidad de que exista una diferencia de proporciones de artículos
defectuosos de por lo menos 10% a favor de la máquina 2 es de 0.0011.
b.Y p(p1-p2 0.15)=?
La probabilidad de que exista una diferencia de proporciones de artículos defectuosos de

por lo menos 15% a favor de la máquina 1 es de 0.2357.
%Y
Y
YY
Y Y
YY
YY! /Y
Definición: es una prueba estadística para analizar si mas de dos grupos difieren
significativamente entre sí a cuantos sus medias y varianzas. La prueba ͞t͟ se utiliza para
os grupos y el análisis de varianza unidireccional se usa para tres, cuatro o más grupos.
Aunque con dos grupos se puede utilizar también.
Hipótesis: de diferencia entre más de dos grupos. La hipótesis de investigación propone

que los grupos difieren significativamente entre si y la hipótesis nula propone que los
grupos no difieren significativamente.
Variables: una variable independiente y una variable dependiente.
Nivel de medición de las variables: la variable independiente es categórica y la

dependiente es por intervalo o razón.
El de que la variable independiente sea categórica significa que es posible formar grupos
diferentes. Puede ser una variable nominal, ordinal, por intervalos o de razón (pero en
estos últimos dos casos la variable debe reducirse a categorías).
Interpretación: el análisis de la varianza unidireccional produce un valor conoció como F o

razón F, que se basa en una distribución muestral, conocida como distribución F, que es
otro miembro de la familia de distribuciones muéstrales. La razón F compara las
variaciones en las puntuaciones debida a dos diferentes fuentes: variaciones entre los
grupos que se comparan y variaciones dentro del grupo.
En consecuencia, la razón F, es una razón de varianza; se expresa así:

Las formulas de media cuadrática son:

'
'
' '
Los grados de libertad entre grupos = K-1 (donde K es el número de grupos)

Los grados de libertad intragrupos = n-K (n es el tamaño de la muestra la suma de los

individuos de todos los grupos, y K recordemos que es el número de grupos).
Pues bien cuando F resulta significativa, quiere decir que los grupos difieren
͞significativamente͟ entre sí. Es decir , se acepta la hipótesis de investigación y se rechaza
la hipótesis nula .
Para realizar
YYY% Ydebe partirse de los siguientes supuestos:
1. La distribución de los valores de la variable dependiente no es normal
2. La variable dependiente es categórica y sólo puede ser medida a nivel nominal y
ordinal
Dentro de las pruebas

- YY% más utilizadas están:
· La ji cuadrada o X2
· Los coeficientes de correlación de Spearman y Kendall
· La prueba de U Mann Whitney
· La prueba de la mediana
A continuación se ofrece un cuadro con las pruebas más utilizadas en ciencias sociales y su
utilidad.
Y Y *6 Y2Y 5)614Y Y
)1 36 *6Y )Y 654 )2Y 6*) )* 6
4Y 4YY*64 6YY654
2YY#26 6
7Y
Y
Y Correlacionar ͞A mayor X, Dos (2), ambas El coeficiente oscila
dos variables mayor Y͟ ó medibles por entre ʹ1 y +1, el
͞A menor X, nivel de intervalo signo indica la
menor Y͟ o de razón fuerza de la
correlación. Entre
más se acerque a 0
la correlación será
menor. La
significancia debe
ser menor a .05.
YY

YY7Y Evaluar la ͞El grupo X Dos (2). La Un valor ͞t͟ para
diferencia diferirá del grupo primera variable dos grupos debe
significativa Y͟ (de manera que provoca la tener un mínimo de
entre las estadísticamente diferencia de 95% de
medias de significativa entre grupo es probabilidad de
dos grupos sus medias) dicotómica y diferencia
puede ser significativa (.05) Se
nominal, ordinal utiliza para
o de intervalo, comparar
pero reducida a resultados de una
dos categorías. La preprueba con los
variable en que resultados de una
se contrastan las postprueba, o para
medias es de comparar
intervalos o razón prepruebas y
postpruebas en dos
grupos diferentes.
Y
Y Evaluar la ͞El grupo X Dos (2) La La varianza es una
Y diferencia diferirá del grupo variable que medida de

significativa Y y Z͟ (de manera provoca la variabilidad o
entre las estadísticamente diferencia es dispersión
medias de significativa entre categórica y con alrededor de la
tres o más sus medias) nivel de medición media. Se obtiene
grupos. nominal. La un valor ͞F͟ o razón
variable en que ͞F͟ que para que
se contrastan las sea significativo al
medias es de .05% debe será
medición por igual o menor al de
intervalo o razón la tabla
correspondiente.
Indica que hay más
variación
intergrupo que
intragrupo.
Y

!

Y
Y Correlacionar ͞A mayor X, Dos. Ambas El coeficiente oscila

Y
Y dos variables mayor Y͟ ó medidas en un entre ʹ1 y +1, el

Y Y categóricas ͞A menor X, nivel de signo indica la

Y 8
Y menor Y͟ medición nominal fuerza de la
(son u ordinal correlación. Entre
diferentes más se acerque a 0
pero hacen la correlación es
algo similar) menor. La
significancia debe
ser menor a .05.
Y
" Evaluar la ͞Habrá Dos. Medidas en Un valor de X2 y su
correlación diferencias en X un nivel de significancia debe
entre dos al variar Y͟ medición probar que los
variables nominal, ordinal, valores observados
categóricas intervalos o razón puedan ser
pero reducidas a diferentes que los
categorías. valores esperados
en más del 95%
(.05)
Y
Y #Y Evaluar la ͞El grupo X diferirá La variable El valor de U se
9"
diferencia del grupo Y y Z͟ (de independiente es compara con el valor
entre dos o manera nominal y la crítico y si es igual o
más grupos estadísticamente dependiente es mayor, la diferencia es
en función significativa entre de intervalo o estadísticamente
de sus sus medias) razón significativa. Debe
medias. trabajarse con un nivel
de probabilidad del
95%.

Y Evaluar la ͞El grupo X diferirá La variable Se compara la

Y Y diferencia del grupo Y y Z͟ (de independiente es diferencia entre

entre dos o manera nominal y la medianas con un valor
más grupos estadísticamente dependiente es crítico. Si es igual o
en base a la significativa entre de intervalo o mayor, la diferencia
mediana sus medianas) razón será estadísticamente
significativa. Debe
trabajarse con un nivel
de probabilidad del 95%
Y
Las pruebas anteriores suponen la evaluación de una variable (entre dos o más grupos) o
la evaluación de la relación entre dos variables. Por lo tanto, en estos casos, se habla de
Y YY
Sin embargo, cuando se trata de relacionar varias variables independientes con una
dependiente, se utilizaYYY YEs un análisis más complejo, que requiere
del uso de computadoras y entre las pruebas más conocidas para realizarlo están ͞La
regresión múltiple͟, ͞el análisis lineal de patrones͟ y ͞el análisis multivariado de varianza͟
(MANOVA). Todos suponen que la variable dependiente tenga medición de intervalo o
razón.
Y
Y: Este paso implica, que una vez realizado nuestros análisis es posible que decidamos
realizar otros análisis extras o pruebas para confirmar tendencias y evaluar los datos desde
diferentes ángulos.
Y ;Se recomienda, una vez que se obtenga los resultados de los análisis estadísticos
(tablas, graficas, cuadros, etc.), las siguientes actividades -- sobre todo para quienes se inician
en la investigación---:
1.Y Revisar cada resultado [análisis general análisis especifico valores resultantes
(incluida la significancia) tablas, diagramas, cuadros, y graficas].
2.Y Organizar los resultados (primero los descriptivos, por variables; luego los resultados
relativos ala confiabilidad y la validez; posteriormente los inferenciales, que se pueden
ordenar por hipótesis o de acuerdo con su desarrollo).
3.Y Cotejar diferentes resultados: su congruencia y en caso de inconsistencia lógica
volverlos a revisar. Asimismo, se debe evitar la combinación de tablas, diagramas o
graficas que repitan datos. Por lo común, columnas o filas idénticas de datos no deben
aparecer en dos o más tablas. cuando este es el caso, debemos elegir la tabla o
elemento que ilustre o refleje mejor los resultados y sea la opción que presente mayor
claridad.
4.Y Priorizar la información mas valiosa (que es en gran parte resultado de la actividad anterior),
Sobre todo si se van a producir reportes ejecutivos y otros mas extensos.
5.Y Copiar y/o ͞formatear͟ las tablas en el programa con el cual se elaborara el reporte de la
investigación (procesador de textos o uno para presentaciones, como Word o power point).
6.Y Comentar o describir brevemente la esencia de los análisis, valores, tablas, diagramas,
graficas.
7.Y Volver a revisar los resultados.
8.Y Y, finalmente, elaborar el reporte de investigación.

Análisis de Datos Cuantitativos

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Análisis de Datos Cuantitativos

Hochgeladen von

Copyright:

Verfügbare Formate

c 

En el análisis propiamente dicho de los datos, el propósito es extraer una invariante o

Otra decisión importante se refiere al propósito final de su proyecto. ¿Usted desea

 Y  Y  Y

Un modo simple de presentar una distribución de

A veces querremos poner el énfasis no en la distribución

Una media es una estadística que caracteriza el valor

# es el valor más común en nuestro conjunto de datos.

¿Qué pasa con la i?

La distribución mostrada en esta figura está escorada  

Se puede también, si es necesario, acudir a una estadística para describir la cantidad de

RY En conexión con la moda la dispersión de valores raramente es interesante.

En ambas fórmulas,  es el número de los valores, y los valores de cada variable

A la raíz cuadrada de la desviación estándar se llama   , y también ésta es usada

Es la medida que indica la dirección y el grado en que un valor individual se aleja de la

Relación entre dos categorías

Numero de elementos de una categoría entre el numero total de observaciones

Determinamos las puntuaciones o valores obtenidos por los casos (participantes,

Es indispensable incluir las dimensiones de la variable medida, el tamaño de

RY ¿Para qué es útil la estadística inferencial?

RY ¿En qué consiste la prueba de hipótesis?

RY ¿Qué es una distribución muestral?

En el teorema central del límite se expresa:

RY ¿Qué es el nivel de significancia?

Las principales características de la distribución normal son:

Aplicando el concepto de probabilidad a la distribución muestral, tomaremos el área de

Si partimos de estas consideraciones, el procedimiento es:

Para realizar análisis paramétricos debe partirse de los siguientes supuestos:

1.Y La distribución poblacional de la variable dependiente es normal: el universo tiene

Las pruebas estadísticas paramétricas más utilizadas son:

RY Coeficiente de correlación de Pearson y regresión lineal.

Se simboliza por la letra ͞r͟.

El coeficiente de correlación de Pearson se calcula a partir de las puntuaciones obtenidas

El coeficiente ͞r͟ de Pearson puede variar de -1.00 a +1.00. donde:

-1-00= correlación negativa perfecta.

-0.90= correlación negativa muy fuerte-

-0.75= correlación negativa considerable.

-0.50=correlación negativa media.

-0.25= correlación negativa débil.

-0.10= correlación negativa muy débil.

0.00= no existe correlación alguna entre las variables.

+0.10= correlación positiva muy débil.

+0.25= correlación positiva débil.

+0-50= correlación positiva media.

+0.75= correlación positiva considerable.

+0.90= correlación positiva muy fuerte.

+1.00= correlación positiva perfecta.

El signo indica la dirección de la correlación (positiva o negativa); y el valor numérico, la

Cuando el coeficiente ͞r͟ de Pearson se eleva al cuadrado (r2), se obtiene el coeficiente de

͞La productividad ͞constituye a, o explica, 64% de la variación de ͞la asistencia de

Donde ɴ0 es la intersección o término "constante", las son los parámetros

Hipótesis: correlaciones y causales.

Procedimiento e interpretación: la regresión lineal se determina con base en el diagrama

En el Modelo de Regresión es muy importante identificar cuál es la variable dependiente y

La variable dependiente es la variable que se desea explicar, predecir. También se le llama

La Ecuación General es de la forma:

'Y Y 'Y '0 Y

¿Qué es la prueba ͞t͟?

Se simboliza: por la letra ͞t͟.

Variable: la comparación se realiza sobre una variable (teóricamente dependiente). Si hay

Nivel de medición de la variable de comparación: Intervalos o razón.

Interpretación: El modelo matemático que en seguida se presenta, corresponde a dos

Ecuación para obtener la desviación estándar ponderada:

c

Y Y Y

# es el valor más común en nuestro conjunto de datos.

¿Qué pasa con la i?

La distribución mostrada en esta figura está escorada

En ambas fórmulas, es el número de los valores, y los valores de cada variable

A la raíz cuadrada de la desviación estándar se llama , y también ésta es usada

'Y Y 'Y '0 Y