Sie sind auf Seite 1von 119

MODULO 3

3.- PRUEBAS ESTADÍSTICAS

Bibliografía básica:

Aaron y Aaron (2001). Capítulos 6, 7, 8, 9, 10, 11, 12 y 13.

Blalock (1978). Capítulos XIII y XVI.

1. LAS PRUEBAS DE HIPÓTESIS

1.1. La lógica de las pruebas de hipótesis.

Una hipótesis estadística es un enunciado referido a la población que puede ser


evaluado en función de información muestral, y considerado verdadero o falso en
términos de la evidencia que la muestra proporciona. Las hipótesis estadísticas
generalmente involucran uno o más características de la distribución, como forma de
una distribución, el valor de cierto parámetro o la independencia de la variable
aleatoria, entre otras.

Las hipótesis son siempre enunciados relativos a la población o distribución bajo


estudio, no enunciados referidos a la muestra. El valor del parámetro de la población
especificado en la hipótesis suele determinarse de las siguientes formas:

1. Puede surgir de la experiencia o conocimientos pasados del fenómeno de


interés, o incluso de experimentación previa. El objetivo de la prueba de
hipótesis en estos casos suele ser determinar si la situación experimental ha
cambiado.
2. Este valor puede determinarse a partir de alguna teoría o modelo con respecto
al objeto que se estudia. El objetivo de la prueba de hipótesis en este caso es
verificar la teoría o modelo.
3. Cuando el valor del parámetro de la población es resultado de consideraciones
experimentales, como especificaciones de diseño o de obligaciones
contractuales. En este caso, el objetivo de la prueba de hipótesis es la prueba
de conformidad.

Materia: METODOLOGÍA DE ANÁLISIS DE DATOS CUANTITATIVOS -1-


Profesora: Verónica Herrero
El siguiente ejemplo1, ilustra cómo se emplean las pruebas de hipótesis en
estadística:

Hace un tiempo se descubrió accidentalmente que cierto fármaco prescripto


para los casos graves de presión sanguínea elevada, provocaba el crecimiento
del cabello. Se ha estimado que el 80% de los pacientes tratados con ese
medicamento experimentan engrosamiento, alargamiento y oscurecimiento
del cabello dentro de las tres a seis semanas de haber empezado el
tratamiento. Como resultado de estos efectos colaterales, se ha estado
investigando las posibilidades de usarlo en forma tópica para tratar la calvicie
masculina.

Una investigadora realizó un experimento para probar los efectos del


mencionado fármaco contra la calvicie. El experimento se realizó durante un
periodo de seis meses para comparar la hipótesis.

Hipótesis nula:

El fármaco no tiene beneficios terapéuticos para prevenir la calvicie.

Contra la hipótesis (alternativa):

El fármaco tiene beneficios terapéuticos para prevenir la calvicie.

El experimento se realizó suponiendo que el fármaco no tiene


beneficios terapéuticos para prevenir la calvicie, pero con la esperanza de
encontrar evidencia de lo contrario. Utilizando dos grupos de personas calvas,
el grupo de tratamiento recibió dosis fijas del fármaco y el otro grupo de
control recibió un placebo.

Después del periodo experimental de seis meses, la investigadora encontró


evidencia para sugerir que el fármaco tenía beneficios reales para el
tratamiento de la calvicie masculina. Entonces ella rechazó la hipótesis A en
favor de la B. Al proceso usado por la investigadora se le llama prueba de
hipótesis.

La prueba de hipótesis, en muchos aspectos, se parece a un juicio sobre un delito


criminal. En el juicio se parte del supuesto de que el acusado es inocente. La hipótesis
nula es de inocencia. Lo contrario de la hipótesis nula es la hipótesis alternativa, que
expresa la creencia de culpabilidad, Por consiguiente, las hipótesis en un juicio
criminal se escribirían:

Ho: El acusado es inocente

Ha: El acusado es culpable

1
El ejemplo es citado en http://www.scribd.com/doc/26640224/Estadistica-informe.

Materia: METODOLOGÍA DE ANÁLISIS DE DATOS CUANTITATIVOS -2-


Profesora: Verónica Herrero
Para probar las aseveraciones o hipótesis se lleva a cabo un juicio. El testimonio y las
pruebas obtenidas durante el juicio equivalen a la información de la muestra. Si la
información de la muestra concuerda con la hipótesis de inocencia, no se puede
rechazar la hipótesis nula relativa a que el acusado es inocente. Sin embargo, si la
información muestral no es consistente con la hipótesis de inocencia, se rechazará la
hipótesis nula. En este caso, la acción a tomar se basará en la hipótesis alternativa de
que el acusado es culpable.

A continuación se describirán los lineamientos para establecer la hipótesis nula y


alternativa para diferentes tipos de situaciones, en los que se emplean normalmente
los procedimientos de prueba de hipótesis.

Un productor de juguetes Tailandés indica que solo un 10% de los osos de


juguete que hablan están defectuosos. Cuatrocientos de éstos juguetes se
sometieron a prueba de forma aleatoria. Las hipótesis nula y alternativa se
expresarían de la siguiente manera:

Ho: P ≤ 0,10

Ha: P > 0,10

Si los resultados de los datos de la muestra indican que no se puede rechazar


Ho, los investigadores no pueden decir que la proporción de defectuosos es
mayor a la declarada. Quizá se deban llevar a cabo más investigaciones y
pruebas. Sin embargo si los datos de la muestra indican que se puede rechazar
Ho, los investigadores pueden hacer la inferencia que la proporción de
defectuosos supera a la declarada. En función de tal conclusión se podrán
tomar las decisiones pertinentes.

Un investigador en Ciencias de la educación, está probando un nuevo método


de enseñanza de escritura, y postula que en textos de cierta extensión
predeterminada, el número promedio de errores ortográficos entre los
alumnos que aprenden con ese método no es mayor a 1 error que en los que
aprenden con métodos tradicionales. Si denominamos grupo 1 a los alumnos
que aprenden con un método tradicional y grupo 2 a los que aprenden con el
método analizado, las hipótesis podrían formularse de la siguiente manera:

Ho: 1 – 2 ≥ 1

Ha: 1 - 2 < 1

Materia: METODOLOGÍA DE ANÁLISIS DE DATOS CUANTITATIVOS -3-


Profesora: Verónica Herrero
Un antropólogo está estudiando una pequeña comunidad en América del
Norte que tiene prácticas maritales polígamas. En base a su trabajo cualitativo,
postula que para esa comunidad, el número de esposas en cada familia alcanza
un valor promedio de 3. Realizará una muestra de familias para constatar la
veracidad de su hipótesis.

Ho: = 3

Ha:  ≠ 3

En resumen las características de la hipótesis nula:

 Se va a considerar como cierta hasta que se tenga suficiente evidencia de


lo contrario.
 Siempre incluye el signo de igualdad.
 Es la base para el análisis estadístico de la prueba.

Características de la hipótesis alternativa:

 Es lo contrario a la hipótesis nula (incluye por lo tanto alguno de los


siguientes símbolos: , <, >).
 En general esta hipótesis se establece en términos de aquello sobre lo que
se está buscando evidencia.
 Es la que define la dirección de la zona de rechazo.

Materia: METODOLOGÍA DE ANÁLISIS DE DATOS CUANTITATIVOS -4-


Profesora: Verónica Herrero
1.2. Niveles de significación

Al tomar una decisión en una prueba de hipótesis, hay cuatro posibles resultados que
pueden ocurrir; como se ilustra en el siguiente esquema:

Tabla: tipos de error en una prueba de hipótesis

REALIDAD DE INTERÉS:

LA HIPOTESIS NULA (Ho) LA HIPOTESIS NULA (Ho)


ES VERDADERA ES FALSA
DECISION
NO RECHAZAR NO EXISTE ERROR ERROR DEL TIPO II
LA HIPOTESIS
NULA PROB= 1- Confianza de la PROB=
prueba

RECHAZAR LA ERROR DEL TIPO I NO EXISTE ERROR


HIPOTESIS
NULA PROB= PROB=1-

Nivel de Significancia Potencia de la Prueba

Dos de los resultados involucran decisiones correctas, en tanto, dos de las decisiones
involucran decisiones incorrectas:

 Rechazar Ho cuando es verdadera y no rechazar Ho cuando es falsa, son


decisiones incorrectas.
 Rechazar Ho cuando es cierta se llama error Tipo I, y no rechazar Ho, cuando
es falsa, se llama error Tipo II.

Se requiere disponer de alguna magnitud que mida la posibilidad de cometer alguno


de estos errores. Esta medida es una probabilidad.

 La probabilidad de rechazar Ho, dado que Ho es verdadera, se define como la


probabilidad del error Tipo I y se denota por .
 La probabilidad de no rechazar Ho, dado que Ho es falsa, se define como la
probabilidad del error tipo II y se denota por .

Materia: METODOLOGÍA DE ANÁLISIS DE DATOS CUANTITATIVOS -5-


Profesora: Verónica Herrero
Por tanto las probabilidades de los errores Tipo I y II están dadas por las proposiciones

P (rechazar Ho | Ho verdadera) =

P (no rechazar Ho | Ho es falsa) =

Tanto como son probabilidades condicionales. No pueden obtenerse las


probabilidades de los errores Tipo I y II en un sentido absoluto, debido a que el estado
de la naturaleza no es conocido. Es decir, sólo puede calcularse la probabilidad de
rechazar Ho sólo si se asume que Ho cierta, o la probabilidad de equivocarse el
rechazar Ho, si se asume que Ho es falsa.

Propiedades de y

1. El valor de se fija al escoger la zona de rechazo.

2. El valor de dependerá de la hipótesis alternativa que se escoja.

3. Para un tamaño muestral fijo, al aumentar la región de rechazo y por lo tanto


, disminuye. Si decrece, aumentará.

4. Al aumentar el tamaño de la muestra y decrecen a la vez

Materia: METODOLOGÍA DE ANÁLISIS DE DATOS CUANTITATIVOS -6-


Profesora: Verónica Herrero
1.3. Etapas en el diseño de una prueba, distintos casos

PASOS A SEGUIR EN UNA PRUEBA DE HIPOTESIS

1. Definir la Hipótesis nula H0 y la Hipótesis alternativa Ha

En la prueba de hipótesis, se debe establecer el valor que se presume


(hipotetizado) del parámetro de población antes de estudiar la muestra. La
premisa que deseamos someter a prueba se conoce como hipótesis nula y se
simboliza Ho.

De acuerdo con los datos muestrales la hipótesis nula se rechazará o no


rechazará. Es muy importante comprender que no podemos aceptar la
hipótesis nula como verdadera, ya que para demostrar sin lugar a dudas que la
hipótesis es verdadera necesitamos conocer el valor del parámetro de la
población. En cambio no rechazar implica que la evidencia muestral no es lo
suficientemente contundente como para rechazarla.

En la hipótesis nula siempre se considera el signo de igual (=).

Supongamos que deseamos probar la hipótesis de que la media edad de cierta


población es igual a 16 años. La expresaríamos de la siguiente manera:

“La hipótesis nula es que la media de la población es igual a 16”.

O en términos simbólicos:

Ho: = 16

La hipótesis alternativa se refiere a la conclusión a la que se llegará si se


rechaza a la hipótesis nula. También se conoce como hipótesis de
investigación. La hipótesis alternativa se considera válida si los datos de la
muestra proporcionan suficiente evidencia estadística de que la hipótesis nula
es falsa (es decir, si es posible rechazar la hipótesis nula).

Consideraremos tres hipótesis alternativas posibles:

Ha: 16

Ha: > 16

Ha: < 16

El signo de igual (=) nunca aparecerá en la hipótesis alternativa. Para la


utilización de los estadísticos de prueba se tomará la hipótesis nula como

Materia: METODOLOGÍA DE ANÁLISIS DE DATOS CUANTITATIVOS -7-


Profesora: Verónica Herrero
válida, a los fines de partir de una distribución conocida. La hipótesis alternativa
se observa sólo si se demuestra que no es verdadera la hipótesis nula.

2. Seleccionar el estadístico de prueba que sea apropiado.

El estadístico es un valor que se calcula en base a la información de la


muestra, y que se utiliza para determinar si se rechaza la hipótesis nula

Existen muchas estadísticas de prueba que pertenecen a una distribución


muestral, a partir de considerar la forma de tal distribución y sus respectivos
parámetros. Las que estudiaremos en esta materia son:

Z, t,  2, F

3. Definir el nivel de significación y la zona de rechazo

El nivel de significación es la probabilidad de rechazar la hipótesis nula cuando


es verdadera es a lo que se llama error Tipo I.

El nivel de significación se simboliza con . Se le llama también nivel de


riesgo.

No se puede determinar de antemano un único nivel de significación que se


aplique a todas las pruebas. Generalmente se utilizan los niveles 0.05 (al que
nos solemos referir como un nivel del 5%), 0.01, 0.10, o cualquiera entre 0 y 1
a criterio del investigador responsable de la prueba.

La zona de rechazo corresponde a los valores del estadístico de prueba para


los cuales se rechaza la hipótesis nula. La regla de decisión en la prueba de
hipótesis, puede establecerse considerando:

 El estadístico de prueba.
 La probabilidad.
 La distribución de probabilidad del estadístico utilizado en la prueba.

La zona de rechazo tiene una magnitud dada por  y una dirección dada por
la hipótesis alternativa.

El siguiente esquema considera la hipótesis nula que se planteo en base a la


media poblacional, y al primer ejemplo de hipótesis alternativa. Bajo hipótesis
nula cierta, las zonas de rechazo y no rechazo para un nivel de significación del
5%, serán:

Materia: METODOLOGÍA DE ANÁLISIS DE DATOS CUANTITATIVOS -8-


Profesora: Verónica Herrero
Figura: Esquema de zonas de rechazo y no rechazo

4. Calcular el estadístico de prueba a partir de los datos muestrales considerando


H0 como verdadera

5. Decidir si H0 se rechaza o no se rechaza.

6. Obtener las conclusiones del problema

ERRORES TIPO I Y TIPO II

Ahora focalizaremos en los conceptos de error Tipo I y error Tipo II, con respecto a las
pruebas para la media poblacional. Estos conceptos se aplican en los demás casos de
pruebas de hipótesis.

La probabilidad del error Tipo I es igual al nivel de significación que se definió para
someter a prueba la hipótesis nula. Hay una probabilidad ( ) de que seleccione una
muestra al azar (probabilística) de la cual surja una media muestral comprendida en la
región de rechazo o las regiones de rechazo. Si surgiera tal valor, dado como indica la
regla de decisión que debe procederse, se rechaza la hipótesis nula, pese a ser ésta

Materia: METODOLOGÍA DE ANÁLISIS DE DATOS CUANTITATIVOS -9-


Profesora: Verónica Herrero
verdadera, y estaríamos cometiendo el error Tipo I. Cabe destacar que se rechazar
porque resulta inverosímil (aunque no imposible) que surja tal valor como media
muestral, si es que es verdadera la hipótesis nula, y en función de este razonamiento
está diseñada la regla de decisión.

El caso de la probabilidad del error tipo II es bastante diferente, ya que su


determinación suele ser mucho compleja en la mayoría de las situaciones. La única
forma en que se puede determinar la probabilidad del error Tipo II ( ) es con
respecto a un valor específico incluido dentro del rango de la hipótesis alternativa. Es
decir, para cada valor posible (diferente del considerado en la hipótesis nula), se
obtiene un valor diferente de la probabilidad de cometer el error tipo II.

Analizaremos los resultados de un estudio vinculado con una gran tienda de


departamentos, con un gran número de sucursales en todo el país. Según su gerente
general, las sucursales en promedio venden anualmente $15 millones.

a) Se toma una muestra al azar una muestra de 120 sucursales y se encuentra que
la venta media es de 15.39 millones de pesos anuales, con una desviación
estándar de 2.9 millones de pesos. Probar la hipótesis 15 millones con un
nivel de significación del 10%

b) Si la es en realidad 14.8 millones de dólares, ¿Cuál es la probabilidad de


cometer el error Tipo II.

Datos

n = 120

= 15.39 millones

 = 2.9 millones

 = 0.10

1. Establecer la hipótesis

Ho: = 15

Ha: 15

2. Establecer el estadístico de prueba

Z=

3. Definir el nivel de significancia y la zona de rechazo

Materia: METODOLOGÍA DE ANÁLISIS DE DATOS CUANTITATIVOS - 10 -


Profesora: Verónica Herrero
Nivel de significación = 0.10

Zona de rechazo = { Z/ Z < -1.64 ó Z/Z > 1.64 }

4. Calcular la estadística de prueba

Z=

El valor de la media poblacional es el que está siendo sometido a prueba en la


hipótesis por lo tanto:

Z= 1.47

Como 1.47 < 1.64

No se rechaza Ho

5. Conclusión: No existe evidencia para decir que las ventas promedio por sucursal
son diferentes de 15 millones de pesos con un nivel de significación de 0.10.

Materia: METODOLOGÍA DE ANÁLISIS DE DATOS CUANTITATIVOS - 11 -


Profesora: Verónica Herrero
4.3.1. Una población: media, proporción

CASO RESUELTO DE PRUEBA DE HIPOTESIS PARA LA

SUPUESTOS:

a) conocida
b) Ó

CASO:

En una empresa de fletes internacionales de equipamiento de precisión (en general


pequeños pero frágiles), se está analizando el peso de los envíos habituales, para un
nuevo diseño de cajas protectoras especiales de un material adaptable a diferentes
formas. En función de adecuar el diseño, se necesita conocer el peso promedio de
todos los paquetes que se envían habitualmente a través de su servicio. Como hay
limitaciones de tiempo y dinero para pesarlos a todos, se toma una muestra de 36
paquetes de la cual se obtiene una media muestral = 160 gramos. Se conoce que
la distribución de los paquetes tiene
= 30 gramos. Con un nivel de significación de 0.05. ¿Se puede concluir que el peso
promedio de todos los paquetes es menor que 170 gramos?

Datos

n =36

= 160 gramos

 = 30 gramos

= 0.05

1. Establecer la hipótesis

Ho: 170

Ha: < 170

Materia: METODOLOGÍA DE ANÁLISIS DE DATOS CUANTITATIVOS - 12 -


Profesora: Verónica Herrero
2. Establecer la estadística de prueba

Z=

3. Definir el nivel de significación y la zona de rechazo

Nivel de significancia = .05

Zona de rechazo = { Z/ Z -1.64}

4. Calcular el estadístico de prueba

Z=

la media poblacional esta bajo la hipótesis nula entonces tenemos

Materia: METODOLOGÍA DE ANÁLISIS DE DATOS CUANTITATIVOS - 13 -


Profesora: Verónica Herrero
5. Regla de decisión basada en la estadística de prueba

Como -2 es menor que -1.64 la hipótesis nula se rechaza con un nivel de significación
de 0.05.

Regla de decisión basada en la probabilidad

P ( Z < -2 ) = .02275

P ( Z < -1.64) = 0.05

Como 0.02275 es menor que 0.05 la hipótesis nula se rechaza.

Regla de decisión basada en la distribución de probabilidad del estadístico utilizado en


la prueba.

Como 160 es menor que 162 la hipótesis nula se rechaza.

Materia: METODOLOGÍA DE ANÁLISIS DE DATOS CUANTITATIVOS - 14 -


Profesora: Verónica Herrero
6. Conclusión

A partir de la evidencia muestral recogida, el peso promedio de todos los paquetes


enviados habitualmente corresponde a un valor menor de 170 gramos con una
significación del 0,05.

PROBLEMA RESUELTO DE PRUEBA DE HIPOTESIS PARA LA

( desconocida y )

En relación con un contrato de provisión de computadoras para escuelas, hay una


denuncia de sobrefacturación por parte de la empresa que ganó la licitación. El
contrato definía que se entregarían computadoras de un valor promedio de US $
1,150. Se analizan los precios de las facturas entregadas en 12 establecimientos
educativos participantes del programa, seleccionados al azar. Al analizar esta muestra,
surge una media muestral de US $ 1,275 y una desviación estándar de US $ 235, ¿Se
dispone de evidencia de que el valor medio de las computadoras entregadas difiere de
$1150? Someteremos esta hipótesis a prueba, con un nivel de significación de 0,05.

Datos

n =12

Media muestral: $1275

s= $ 235

 = .05

1. Establecer la hipótesis

Ho:  = 1150

Ha:  1150

Materia: METODOLOGÍA DE ANÁLISIS DE DATOS CUANTITATIVOS - 15 -


Profesora: Verónica Herrero
2. Establecer el estadístico de prueba

Debido a que desconocemos la desviación estándar poblacional, utilizamos un


estadístico t.

t=

3. Definir el nivel de significación y zona de rechazo

f(t)

t grados de libertad: 11

-2.201 2.201

Nivel de significación = 0.05

Zona de rechazo = { t/t -2.201 ó t/t 2.201

4. Calcular el estadístico de prueba

como la media poblacional esta bajo la hipótesis nula entonces tenemos

t=

Materia: METODOLOGÍA DE ANÁLISIS DE DATOS CUANTITATIVOS - 16 -


Profesora: Verónica Herrero
= = 1.84

5. Como 1.84 está entre -2.201 y 2.201 no se rechaza la hipótesis nula a un nivel de
significación de 0.05

6. Conclusión

No se tiene evidencia suficiente para decir que los valores de las computadoras
entregadas son diferentes a $ 1150.

Prueba de hipótesis referida a la proporción poblacional

Un candidato en una elección estará interesado en conocer si ha habido un aumento


en la proporción de votantes que lo prefieren en vista de las próximas elecciones; una
empresa puede querer conocer si ha ocurrido o no una baja en la proporción de
clientes que prefieren su marca; un médico desea confirmar la propaganda de un
medicamento en la cual se afirma éste cura al 80% de los enfermos que lo utilizan. En
situaciones como éstas nos interesa probar alguna afirmación referente a una
proporción. El procedimiento para probar una proporción en una población normal es
prácticamente igual al presentado para las medias.

Podemos usar cualquiera de los siguientes dos métodos:


1. Calculando la región de rechazo ó
2. Analizando el valor P

1. Cálculo la Región de Rechazo

Digamos que po es la proporción que se desea comprobar.

Materia: METODOLOGÍA DE ANÁLISIS DE DATOS CUANTITATIVOS - 17 -


Profesora: Verónica Herrero
Paso 1 Establecer las hipótesis. Ho : p = po
H1 : p > po ó
p < po ó
p  po

Paso 2 A partir del nivel de significación definido () indicar la región de rechazo en la
curva normal estándar (curva z).

 ó  ó /2 /2

z -z -z z

(H1 : P > Po) (H1 : P < Po) (H1 : P  Po)

 x
Paso 3 Calcular el valor z para la proporción muestral  p   usando la
 n
fórmula
p  p0 p0 (1  p0 )
Z= , p 
p n

Paso 4 Dibujar este valor de z en el diagrama de la región de rechazo


obtenido en el Paso 2.
Paso 5 Si el valor z cae dentro de la región de rechazo (sombreada),
entonces se rechaza Ho. Si cae fuera de la región sombreada,
entonces no se rechaza Ho.

Paso 6 Escribir la conclusión de la prueba.

Ejemplo:

Recientemente un documento conjunto de varias organizaciones sociales advierte


sobre el crecimiento de la pobreza. Se produjo una gran discusión entre las
organizaciones y el gobierno, a partir de lo cual se realiza un nuevo estudio para
determinar la proporción de hogares que se encuentran por debajo de la línea de la
pobreza. Se desea someter a prueba la cifra proclamada por las organizaciones
sociales, que indican que el 40% (en proporción: 0,4) de los hogares se encuentra en
condiciones de pobreza. Para ello se tomó una muestra de 200 hogares, y se obtuvo
una estimación de P de 0,45. Con una significación de 0,01, ¿qué puede decirse sobre
la manifestación de las organizaciones sociales?

Materia: METODOLOGÍA DE ANÁLISIS DE DATOS CUANTITATIVOS - 18 -


Profesora: Verónica Herrero
Planteo de las hipótesis

Hipótesis nula:

H0 : p = 0.4

Hipótesis alternativa:
H1 : p 0.4

Datos:

p = 0.45,

n = 200,

 = 0.01.

Procedimiento:

Paso 1

H0 : p = 0.4
H1 : p  0.4

Paso 2: Usando  = 0.01, el diagrama de la región de rechazo es:

Paso 3 Calculando el valor z para la proporción muestral p = 0.45), obtenemos:

Materia: METODOLOGÍA DE ANÁLISIS DE DATOS CUANTITATIVOS - 19 -


Profesora: Verónica Herrero
0.4(1  0.4)
p   0.0346
200
0.45  0.4
Z=  1.45
0.0346

Paso 4: Localizar z = 1.45 en el diagrama de la región de rechazo (obtenida en el


Paso 2):
f(Z)

.005 .005

-2.575 2.575
Z

1.45

Paso 5: Tomar la decisión estadística: dado que el valor de Z=1,45 se encuentra en la


zona de no rechazo, con un nivel de significación del 0,01, no podemos descartar que
el valor de P sea el que se indicó en la hipótesis nula (P=0,04).

Paso 6: Podemos mantener la hipótesis de que la proporción poblacional de hogares


bajo la línea de pobreza es 0.4, con un nivel de significación de 0,01.

Materia: METODOLOGÍA DE ANÁLISIS DE DATOS CUANTITATIVOS - 20 -


Profesora: Verónica Herrero
2. Cálculo usando el Valor P

Dejemos que P0 sea la proporción proclamada por la denuncia de las organizaciones


sociales.

Paso 1 Establezca las hipótesis:

H0 : P = P0

H1 : P > P0 ó
P < P0 ó
p  p0

 x
Paso 2 Calcule el valor z para la proporción muestral  p   usando la
 n
fórmula:
p  p0 p0 (1  p0 )
Z= , donde  p  .
p n

Paso 3 Usando la hipótesis alterna dibuja la región bajo la curva z que


representa los valores extremos.

Valor P ó Valor P ó P/2 P/2

z -z -z z

(H1 : P > Po) (H1 : P < Po) (H1 : P  Po)

Paso 4 El valor P al área de la cola sombreada (s) en el Paso 3.

Paso 5 Si el valor P <  entonces rechaza H0


Si el valor P , entonces no rechaces H0.

Paso 6 Detallar la conclusión del problema.

Materia: METODOLOGÍA DE ANÁLISIS DE DATOS CUANTITATIVOS - 21 -


Profesora: Verónica Herrero
Ejemplo 1:

Una empresa dedicada a la comercialización de perfumes importados analiza su


posición competitiva frente a empresas rivales en la ciudad, partiendo de la hipótesis
de una participación de mercado del 40% (proporción: 0,40). Ante el ingreso reciente
de una empresa internacional del rubro al mercado local, decide emprender un estudio
de mercado específico para su segmento de interés, el público de nivel
socioeconómico medio alto y alto de la ciudad, para determinar si su hipótesis es
correcta. Se indagan las compras de 200 personas del segmento en una muestra
representativa. En la muestra se obtuvo que una proporción muestral igual a 0,45.
¿Qué respondería Ud. al interrogante planteado, con un nivel de significación del 1%?

Datos:
p = 0.45, n = 200, y = 0.01.

Planteo de la hipótesis

H0 : p = 0.4
H1 : p  0.4

Análisis:

Paso 1 H0 : p = 0.4
H1 : p  0.4

Paso 2 Calculando el valor z de p , obtenemos


0.4(1  0.4)
p   0.0346
200
0.45  0.4
Z=  1.45
0.0346

Paso 3 La región bajo la curva z que contiene los valores extremos es

P/2 P/2

-1.45 1.45

Materia: METODOLOGÍA DE ANÁLISIS DE DATOS CUANTITATIVOS - 22 -


Profesora: Verónica Herrero
El valor P = suma de las áreas de las regiones sombreadas en el Paso 3.
= 2 (el área a la derecha de 1.45)
= 2 (0.5 – 0.4265)
= 0.147

Paso 5 Como el valor P es mayor que , entonces no disponemos de


información suficiente como para rechazar H0 (es decir, no se
rechaza Ho).
Paso 6 Hasta que se disponga de evidencia en contrario, sostendremos la
idea de que la proporción en la población es 0.4.

Materia: METODOLOGÍA DE ANÁLISIS DE DATOS CUANTITATIVOS - 23 -


Profesora: Verónica Herrero
4.3.2. Dos poblaciones: diferencia de medias, diferencia de proporciones

El procedimiento de prueba de hipótesis no tiene alteraciones en este tipo de pruebas


respecto de lo presentado para las pruebas de medias y proporciones.

La diferencia fundamental se vincula con la selección del estadístico apropiado en


cada caso.

Diferencia de medias

En el caso de las pruebas sobre diferencias de medias se pueden distinguir dos


situaciones generales básicas:

1. muestras independientes
2. muestras relacionadas o apareadas

Ambos tipos de situaciones tienen amplia utilidad para múltiples propósitos de


aplicación en ciencias sociales.

Dos muestras son independientes si la aparición o selección de un individuo en una


muestra no tiene ninguna relación con la aparición o selección de ningún individuo o
elemento en la otra muestra. Este caso se aplica cuando los individuos de cada una de
las muestras pertenece a dos poblaciones distintas, cuya diferencia de medias es el
propósito principal de la prueba.

Por el contrario, decimos dos muestras están apareadas si la inclusión de un individuo


en una de las muestras condiciona la selección de otro en la otra muestra
considerado, o bien, se analiza repetidamente información (generalmente a lo largo del
tiempo) sobre un mismo individuo.

En el caso de muestras independientes, consideraremos dos pruebas de hipótesis


referidas a las diferencias entre medias de ambas muestras, teniendo en cuenta los
supuestos que puedan considerarse.

Pruebas para diferencias de medias independientes

a) Prueba t de varianzas iguales

En el caso que puedan suponerse iguales las varianzas (aunque desconocidas), se


procede a utilizar este procedimiento.

Supuestos:
 Las muestras fueron tomadas de manera independiente y al azar de sus
respectivas poblaciones

Materia: METODOLOGÍA DE ANÁLISIS DE DATOS CUANTITATIVOS - 24 -


Profesora: Verónica Herrero
 Las poblaciones se distribuyen normal
 Las varianzas son iguales:
 12   22

Los subíndices indican en este caso las respectivas muestras 1 y 2. Debe tenerse en
cuenta que la diferencia entre medias (especialmente importante para el caso de
pruebas unilaterales en las que se aplica el mismo estadístico, con procedimiento
análogo de adaptación de las pruebas al caso unilateral), debe realizarse en el mismo
orden para las medias muestrales y poblacionales.

Las hipótesis nula y alternativa serán:

Hipótesis nula:

H0: 1   2

Hipótesis alternativa:

H1: 1   2

El estadístico de prueba tiene distribución t, con (n1+n2-2) grados de libertad:

( x1  x 2 )  ( 1   2 )
t
1 1 
s 2p   
 n1 n2 

La varianza conjunta se calcula de la siguiente manera:

(n1  1) s12  (n2  1) s 22


s 2p 
(n1  1)  (n2  1)

b) Prueba t para varianzas distintas

Cuando no es posible asegurar que las varianzas de ambas poblaciones son iguales
(y en particular, cuando así lo permite aseverar un test realizado para someter a
contraste la igualad de tales varianzas), se procede modificando el estadístico de
prueba como detallamos a continuación.

Materia: METODOLOGÍA DE ANÁLISIS DE DATOS CUANTITATIVOS - 25 -


Profesora: Verónica Herrero
( x1  x 2 )  ( 1   2 )
t
 s12 s 22 
  
 n1 n2 

El estadístico t anterior, posee v grados de libertad, calculados de la siguiente manera:

 s12 s 22 
  
v  n1 n2 
2 2
 s12   s 22 
   
 n1    n2 
n1  1 n2  1

Afortunadamente para quienes toman este curso, la atención principal debe estar
centrada en la interpretación de resultados obtenidos con estas técnicas y métodos, y
no con el cálculo manual de este tipo de fórmula. Veremos a continuación un ejemplo
de salida de SPSS para una caso donde se interpreten este tipo de resultados.

Ejemplo:

Se analizan datos de las muestras de dos poblaciones de mujeres:

La muestra 1 corresponde a mujeres residentes en zonas rurales.

La muestra 2 corresponde a mujeres residentes en zonas urbanas.

Se estudia el número de hijos tenidos por las mujeres.

Analice lo siguiente: ¿por qué se trata de una prueba para muestras independientes?

Los resultados obtenidos a través de la aplicación del método de análisis en spss, de


Diferencia de medias para muestras independientes es el siguiente:

En primer lugar, arroja una tabla de datos descriptivos para los grupos de datos.
Puede observarse que la muestra 1 corresponde a 15 casos, en tanto la muestra 2
comprende 52 casos. El promedio de hijos tenidos para la muestra 1 es 3,6 mientras el
correspondiente a la muestra 2, alcanza los 1,46 hijos. A simple vista podemos tener
una idea a priori de una diferencia significativa entre ambas muestras. Esta intuición
sirve para la interpretación de los resultados.

También ser observan en la salida, las varianzas muestrales correspondientes.

Materia: METODOLOGÍA DE ANÁLISIS DE DATOS CUANTITATIVOS - 26 -


Profesora: Verónica Herrero
Estadísticas del grupo

Error estándar
Muestra N Media Desv. estándar de la media

NUMERO DE HIJOS 1,00 15 3,6000 2,92282 ,75467


TENIDOS
2,00 52 1,4615 1,16251 ,16121

La salida correspondiente a la prueba t de diferencia de medias arroja el siguiente


resultado:

La tabla permite observar en primer lugar, que no corresponde considerar el caso de


varianzas iguales (ya que en este caso se rechaza el test de igualdad de varianzas).
Para este último análisis se analizan las primeras dos columnas de resultados. El valor
F del test cae en zona de rechazo (ya que el p-valor –“Sig.”- es inferior a 5%, si es que
se toma este  como referencia).

Por lo tanto consideraremos los resultados provistos por la segunda fila de resultados
de la tabla para analizar la prueba de diferencia de medias de muestras
independientes.

Con la información muestral disponible, se obtiene un valor del estadístico t de la


prueba de 2,771. Ese valor de t (con los grados de libertad calculados v=15,298)
implican que con un nivel de significación del =0,05, se rechaza la hipótesis nula de
igualdad de medias, ya que el p-valor (Sig, en la quinta columna de la tabla) arroja un
valor inferior a 0,05, correspondiente a 0,014. Si por el contrario el nivel de
significación hubiera sido 0,01, no tendríamos elementos para rechazar la hipótesis de
igualdad entre las medias.

Pruebas para diferencias de medias relacionadas o apareadas

El caso de las muestras relacionadas es de amplia utilización cuando se necesita


disponer de comparaciones entre sujetos con muy poca variabilidad entre sí (estudios

Materia: METODOLOGÍA DE ANÁLISIS DE DATOS CUANTITATIVOS - 27 -


Profesora: Verónica Herrero
de gemelos por ejemplo) o en pruebas sucesivas repetidas (estudios “antes y
después” sobre un mismo sujeto).

En este caso, analizamos la diferencia específica para el par de observaciones


apareadas, que denominaremos D.

Di  X i1  X i 2

Esta diferencia para cada par de datos que estamos estudiando representa las
diferencias uno a uno. Por ejemplo, si es un estudio entre gemelos, en el cual a uno de
los gemelos de cada conjunto de hermanos gemelos que se está estudiando se le
aplicó un tratamiento, cuyo efecto se quiere comprobar, la diferencia D es la medida
de la distancia en la variable de respuesta para ambos sujetos. Justamente lo que se
pretende someter a prueba es la existencia o no de tal diferencia entre los sujetos que
fueron sometidos a tratamiento y los que no, aún en estos casos, en los cuales los
sujetos poseen mucha homogeneidad entre sí.

El promedio muestral de tales diferencias se obtiene considerando todas las D para los
n pares de sujetos de estudio:

D
 Di
n

Denotaremos  D a la diferencia poblacional, que se somete a prueba.

La prueba se lleva a cabo con el mismo procedimiento utilizado previamente para los
diversos casos de pruebas de hipótesis.

Las hipótesis nula y alternativa en este caso serán:

Ho:  D  0
H1:  D  0

El estadístico de prueba será:

D  D
t
s D2
n

Este estadístico posee n-1 grados de libertad.

Para el cálculo de la desviación estándar muestral se deberá considerar la siguiente


fórmula:

Materia: METODOLOGÍA DE ANÁLISIS DE DATOS CUANTITATIVOS - 28 -


Profesora: Verónica Herrero
sD 
D i
2
 nD 2
n 1

4.3.3. Diferencia de medias de más de dos poblaciones

Análisis de varianza

El análisis de varianza o como es más conocido, ANOVA, sus siglas de la


denominación en inglés: ANalysis Of VAriance, examina dos o más conjuntos de
datos, en particular sus varianzas, e intenta detectar diferencias estadísticamente
representativas entre las medias de dichos conjuntos.

En general, el propósito del ANOVA es probar si existen diferencias significativas entre


medias. Si sólo comparamos dos medias, el ANOVA producirá el mismo resultado que
la prueba t para muestras independientes (si estamos comparando dos grupos
diferentes de casos u observaciones) o la prueba t para muestras dependientes (si
estamos comparando dos variables en un conjunto de casos u observaciones).
Produce un resultado realmente novedoso y útil cuando lo utilizamos para comparar
las medias de tres o más grupos.

El método de análisis de varianza se basa en el hecho de que hay una diferencia entre
los grupos sólo si la varianza intergrupos es mayor que la varianza intra-grupo.

El análisis se inicia calculando la varianza intra-grupo para cada grupo, y la media de


todas estas varianzas de grupo.

La separación de la suma de cuadrados

La idea básica del ANOVA es el hecho de que las varianzas pueden ser divididas, es
decir separadas. Se debe recordar que la varianza se calcula como la suma de
desviaciones al cuadrado respecto de la media general (o gran media), dividida por n-1
(el tamaño de la muestra menos uno). Por eso, dado un cierto n, la varianza es una
función de las sumas de cuadrados (de desvíos), a la cual denominaremos SS. La
partición de la varianza funciones como mostraremos a continuación:

Consideremos el siguiente conjunto de datos, correspondientes a las notas en cierta


prueba estandarizada, de muestras de alumnos de tres zonas del país (el grupo 1 es
una muestra de alumnos de la región menos aventajada, el grupo 2 corresponde a una
muestra de la zona de situación intermedia en cuanto a nivel socioeconómico, y el
grupo 3 corresponde a una muestra de la zona con mayor nivel socioeconómico). Se
desea analizar si hay diferencias en las notas promedio de los alumnos de acuerdo
con la zona de residencia:

Materia: METODOLOGÍA DE ANÁLISIS DE DATOS CUANTITATIVOS - 29 -


Profesora: Verónica Herrero
Tabla: Datos del problema

Grupo 1 Grupo 2 Grupo 3


Observación 1 2 6 8
Observación 2 3 7 8
Observación 3 1 5 7
Media del grupo 2 6 7,67
Suma de cuadrados 2 2 0,67
(dentro)
Gran Media 5,2
Suma de cuadrados 55,56
totales

Las medias de los tres grupos son bastante diferentes. Las sumas de cuadrados en
cada grupo son relativamente reducidas. En total suma 4,56. Por otra parte, si
analizamos la SS total, obtenemos 55,56. En definitiva, calcular la varianza (suma de
cuadrados) basados en la variabilidad en los grupos conduce a una estimación mucho
menor de la varianza que calcularla basada sobre la variabilidad total. La razón para
ello en este ejemplo es que hay una gran diferencia entre las medias, y esta diferencia
genera la diferencia entre las SS.

A través del cuadro ANOVA, tendríamos el siguiente resultado:

Tabla de ANOVA

Fuente de Suma de Grados de Cuadrados F p


variación cuadrados libertad medios
Entre 50,89 2 25,44
grupos
(Efecto) 32,71 0,001
Dentro de 4,67 6 0,778
grupos
(Error)
Total 55,56 8 -

Suma de cuadrados del Error (Suma de Cuadrados Dentro) y Suma de


cuadrados del Efecto (Suma de Cuadrados Entre)

La variabilidad dentro de los grupos es generalmente denominada Varianza de Error.


Este término denota el hecho de que no podemos realmente explicarlo o tenerlo en
cuenta en este diseño que estamos considerando. Sin embargo, la variabilidad entre

Materia: METODOLOGÍA DE ANÁLISIS DE DATOS CUANTITATIVOS - 30 -


Profesora: Verónica Herrero
grupos (Efecto), puede ser explicada. Como su nombre lo indica, esta variabilidad se
debe a las diferencias en las medias entre los grupos. Explicado de otra forma, ser
miembro de un grupo explica esta variabilidad ya que conocemos que esto se asocia
con las diferencias en las medias.

El ANOVA es otro ejemplo de prueba en la que se desea conocer la significación


estadística. En este caso el test o prueba se basa en la comparación de la varianza
debida a la variabilidad entre grupos (Cuadrados medios entre, CME) con la
variabilidad dentro de los grupos (Cuadrados medios dentro, CMD, o Cuadrados
medios del error). Bajo hipótesis nula (que se expresa como: no hay diferencias entre
las medias de los grupos de la población), la varianza estimada basada en la
variabilidad dentro de los grupos debería ser aproximadamente la misma que la
varianza debida a variabilidad entre grupos. Podemos entonces comparar estas dos
estimaciones de la varianza a través de la prueba F, la cual somete a prueba si el
cociente de dos varianzas es significativamente mayor que 1.

En el ejemplo, el test es elevadamente significativo, por lo cual se concluye que en


efecto las medias de los grupos (al menos una de ellas) son significativamente
diferentes entre sí.

Lógica básica del ANOVA

El propósito del análisis de varianza es probar si son estadísticamente significativas


las diferentes en las medias para tres ó más grupos de casos.

Para ello se analiza la varianza, particionándo la varianza total en sus componentes:


el que se debe al error aleatorio (Suma de cuadrados dentro de los grupos) y el que se
debe a las diferencias entre las medias (Suma de cuadrados entre los grupos).

Estos componentes de la varianza son sometidos a la prueba de significación


estadística, y si resulta significativa, se rechaza la hipótesis nula referida a la no
existencia de diferencia entre las medias y se concluye que hasta nueva evidencia se
mantiene como válida la hipótesis alternativa referida a que las medias de la población
son diferentes entre sí (o más precisamente, que al menos una de las medias
consideradas lo es).

Comparaciones Post hoc

El hecho de rechazar la hipótesis nula de un ANOVA no nos dice nada acerca de las
diferencias de las medias entre sí, sólo nos permite asegurar que tal diferencia es
significativa, en al menos una de las medias consideradas.

Para poder identificar cuál o cuáles medias difieren se realizan pruebas como el test
de Tuckey, que posibilitan su detección.

Las salidas de SPSS que mostramos a continuación corresponden a una prueba


ANOVA, para someter a contraste la hipótesis de igualdad en la cantidad promedio de
miembros por hogar entre las distintas regiones del país. El análisis se realizó con
datos de la EPH de primer semestre de 2009:

Materia: METODOLOGÍA DE ANÁLISIS DE DATOS CUANTITATIVOS - 31 -


Profesora: Verónica Herrero
ANOVA

Cantidad de miembros del Hogar

Suma de Cuadrados
cuadrados GL medios F Sig.

Entre grupos 1583,586 5 316,717 88,237 ,000

Dentro de grupos 64243,100 17898 3,589

Total 65826,686 17903

Como se observa en la tabla, se rechaza la hipótesis nula de igualdad de medias.

Ahora veremos los análisis posteriores vinculados con detectar cuál de las regiones
posee diferente media:

Comparaciones múltiples

Cantidad de miembros del Hogar


Tukey HSD

Intervalo de confianza 95%


(I) Código de (J) Código Diferencia Error
Región de Región media (I-J) estándar Sig. LI LS

Gran Buenos NOA -,754* ,049 ,000 -,89 -,61


Aires
NEA -,516* ,056 ,000 -,68 -,36

Cuyo -,368* ,059 ,000 -,54 -,20

Pampeana ,025 ,044 ,992 -,10 ,15

Patagónica -,159* ,051 ,023 -,31 -,01

NOA Gran ,754* ,049 ,000 ,61 ,89


Buenos
Aires

NEA ,238* ,055 ,000 ,08 ,39

Cuyo ,387* ,058 ,000 ,22 ,55

Pampeana ,780* ,042 ,000 ,66 ,90

Patagónica ,595* ,050 ,000 ,45 ,74

NEA Gran ,516* ,056 ,000 ,36 ,68


Buenos
Aires

Materia: METODOLOGÍA DE ANÁLISIS DE DATOS CUANTITATIVOS - 32 -


Profesora: Verónica Herrero
NOA -,238* ,055 ,000 -,39 -,08

Cuyo ,148 ,063 ,177 -,03 ,33

Pampeana ,541* ,050 ,000 ,40 ,68

Patagónica ,357* ,056 ,000 ,20 ,52

Cuyo Gran ,368* ,059 ,000 ,20 ,54


Buenos
Aires

NOA -,387* ,058 ,000 -,55 -,22

NEA -,148 ,063 ,177 -,33 ,03

Pampeana ,393* ,053 ,000 ,24 ,54

Patagónica ,208* ,059 ,006 ,04 ,38

Pampeana Gran -,025 ,044 ,992 -,15 ,10


Buenos
Aires

NOA -,780* ,042 ,000 -,90 -,66

NEA -,541* ,050 ,000 -,68 -,40

Cuyo -,393* ,053 ,000 -,54 -,24

Patagónica -,185* ,044 ,000 -,31 -,06

Patagónica Gran ,159* ,051 ,023 ,01 ,31


Buenos
Aires

NOA -,595* ,050 ,000 -,74 -,45

NEA -,357* ,056 ,000 -,52 -,20

Cuyo -,208* ,059 ,006 -,38 -,04

Pampeana ,185* ,044 ,000 ,06 ,31

*. The mean difference is significant at the 0.05 level.

La columna de la significación nos permite identificar las diferencias que son


significativas (aquellas con una significación superior a 0,05).

Se resumen en el siguiente cuadro, las agrupaciones de regiones entre las cuales no


hay diferencias significativas en sus medias:

Materia: METODOLOGÍA DE ANÁLISIS DE DATOS CUANTITATIVOS - 33 -


Profesora: Verónica Herrero
Cantidad de miembros del Hogar
a,,b
Tukey HSD

Subconjuntos para  = 0.05

Código de Región N 1 2 3 4

Pampeana 5687 3,09

Gran Buenos Aires 2781 3,12

Patagónica 2690 3,28

Cuyo 1656 3,48

NEA 1951 3,63

NOA 3139 3,87

Sig. ,997 1,000 ,057 1,000

Supuestos y efectos de la violación de supuestos

a) Desviación de la distribución normal

Supuestos:
 Se supone que la variable dependiente está medida al menos en un nivel de
una escala de intervalo.
 Además, la variable dependiente debería distribuirse normal en los grupos.

Efectos de la violación del supuesto:


 La prueba F es notablemente robusta de desviaciones de la normalidad.
 Si la curtosis es mayor que 0, entonces, la F tiene a ser demasiado pequeña y
no podemos rechazar la hipótesis nula aunque ésta sea incorrecta.
 Lo opuesto ocurre en el caso en que la curtosis es menor que 0.
 La asimetría de la distribución generalmente no tiene un efecto considerable
sobre la prueba F.

b) Homogeneidad de Varianzas

Supuestos:
 Las varianzas de los diferentes grupos del diseño son idénticas.
 Si las varianzas de dos grupos son diferentes unas de otras, la suma de dos
varianzas no es apropiada y no conduciría a una estimación de la varianza
común dentro de los grupos.

Materia: METODOLOGÍA DE ANÁLISIS DE DATOS CUANTITATIVOS - 34 -


Profesora: Verónica Herrero
Efectos de la violación del supuesto:
 La prueba F es bastante robusta contra violaciones de este supuesto.

Veamos un ejemplo de aplicación de ANOVA para un problema de


ciencias sociales

Se quiere evaluar la eficacia de distintos métodos para la enseñanza de idioma


extranjero para obtener puntaje en una prueba internacional. Para ello se
seleccionan al azar 25 estudiantes de un curso y se distribuyen aleatoriamente
en 5 grupos. Al primero de ellos no se le somete a ningún método especial de
aprendizaje, al segundo un método con énfasis en la conversación informal, al
tercero a un método de comunicación por teléfono, al cuarto realiza su
entrenamiento para el examen a través de películas y series en el idioma
original y al quinto se le duplica la cantidad de horas de estudio con el método
básico. Las notas en el examen internacional de los 25 sujetos al finalizar la
aplicación de los diferentes métodos son:

ANOVA

Grupo
1 2 3 4 5
180 172 163 158 147
173 158 170 146 152
175 167 158 160 143
182 160 162 171 155
181 175 170 155 160

La tabla de ANOVA es:

Fuente de GL SS MS F
variación
Tratamiento 4 2010,64 502,66 11,24
Error 20 894,4 44,72
Total 24 2905,04

Como F0,05(4,20) =2,87 y 11,24>2,87 rechazamos la hipótesis nula y concluimos


que los resultados de los tratamientos son diferentes.

La tabla de ANOVA que devuelve el programa SPSS es

Materia: METODOLOGÍA DE ANÁLISIS DE DATOS CUANTITATIVOS - 35 -


Profesora: Verónica Herrero
nota_test

Suma de Cuadrados
cuadrados GL medios F Sig.

Entre grupos 2010,640 4 502,660 11,240 ,000

Dentro de grupos 894,400 20 44,720

Total 2905,040 24

Materia: METODOLOGÍA DE ANÁLISIS DE DATOS CUANTITATIVOS - 36 -


Profesora: Verónica Herrero
MODULO 4

RELACIONES ENTRE VARIABLES

Bibliografía básica:

Aaron y Aaron (2001). Capítulos 14 y 16.

Blalock (1978). Capítulos XV, XVII, XVIII y XIX.

Cuando se consideran dos variables, aparecen diferentes formas de medir su posible


interrelación.

El siguiente cuadro (adaptado de Babbie, 2000, Fundamentos de la investigación


social, pág. 378), da una visión ordenadora de los principales indicadores que
recorreremos en este módulo, como así también de algunos que exceden el alcance
de este curso, pero pueden ser útiles y deberían ser explorados en detalle, si son
requeridos en investigaciones específicas.

Cuadro: Medidas de asociación y niveles de medición

Variable independiente
Nominal Ordinal Intervalar o de
razón
Variable Nominal Tablas cruzadas Tablas cruzadas
dependiente Chi Cuadrado Chi Cuadrado
Lambda Lambda
Ordinal Tablas cruzadas Tablas cruzadas
Chi Cuadrado Chi Cuadrado
Lambda Lambda
Gamma
Tau de Kendall
d de Sommers
Intervalar o de Medias Medias Correlación
razón Prueba t Prueba t r de Pearson
ANOVA ANOVA Regresión

Las pruebas indicadas para variables dependientes medidas en escala intervalar o de


razón y variables dependientes medidas en escala nominal u ordinal: diferencia de
medias - pruebas t y ANOVA, han sido estudiadas en el módulo anterior.

El resto de los análisis serán objeto de estudio de este módulo, con énfasis en los
puntos que detalla el programa de la materia.

Materia: METODOLOGÍA DE ANÁLISIS DE DATOS CUANTITATIVOS -1-


Profesora: Verónica Herrero
5.1. Tablas de análisis para la relación entre variables

5.1.1. Prueba de independencia de atributos

La prueba de independencia permite establecer si existe o no relación entre variables


medidas en escala nominal, cada una de las cuales posea dos o más categorías.

Veamos un ejemplo. Supongamos que desde el Ministerio de asuntos sociales, se


emprende una evaluación del resultado de varios programas de asistencia
desarrollados por el gobierno en el último mandato.

En particular, se quiere considerar el efecto sobre la mejora en la situación


socioeconómica de las familias beneficiarias de los programas de asistencia,
diferenciándolas por el tipo de beneficio recibido. Se trabajó en el período (3 años) con
tres programas básicos: uno relativo a una política de ingreso, en la cual se hacía una
transferencia compensatoria a familias con ingresos muy reducidos, una segunda
política correspondiente a la solución de problemas habitacionales a familias pobres
sin vivienda, y una tercera, consistente en un programa de acceso ampliado a
cobertura de salud con énfasis en los grupos de edad más vulnerables.

A los fines de la evaluación, se trabajó con muestra de cada una de las poblaciones de
beneficiarios, y se estudió comparativamente su situación socioeconómica, en relación
el momento de recepción del beneficio.

Los resultados arrojados por el estudio son los siguientes:

Tabla: Cantidad de familias en cada situación tras el beneficio de la política social


recibido

Cambios en la situación socioeconómica de las familias


Política Mejoraron Se mantuvieron Empeoraron
igual
Ingresos 180 150 90
Salud 120 180 70
Vivienda 70 100 130
Fuente: elaboración propia

La prueba Chi cuadrado que presentaremos permite establecer si existe relación entre
escalas como las planteadas en el ejemplo.

La prueba Chi cuadrada es una prueba de carácter general que se utiliza cuando se
desea determinar si las frecuencias absolutas obtenidas en la observación (como en la
tabla del ejemplo previo), difieren significativamente o no de las que se esperarían bajo
cierta hipótesis planteada de interrelación de las categorías de las variables
consideradas.

Materia: METODOLOGÍA DE ANÁLISIS DE DATOS CUANTITATIVOS -2-


Profesora: Verónica Herrero
Tabla cruzada: Datos observados, frecuencias absolutas, porcentajes totales, en filas y
en columnas

Tabla cruzada: politica * cambio


cambio Total
Mejoraron Se Empeoraron
mantuvieron
política Ingresos Total 180 150 90 420
% en política 42,9% 35,7% 21,4% 100,0%
% en cambio 48,6% 34,9% 31,0% 38,5%
% del total 16,5% 13,8% 8,3% 38,5%
Salud Total 120 180 70 370
% en política 32,4% 48,6% 18,9% 100,0%
% en cambio 32,4% 41,9% 24,1% 33,9%
% del total 11,0% 16,5% 6,4% 33,9%
Vivienda Total 70 100 130 300
% en política 23,3% 33,3% 43,3% 100,0%
% en cambio 18,9% 23,3% 44,8% 27,5%
% del total 6,4% 9,2% 11,9% 27,5%
Total Total 370 430 290 1090
% en política 33,9% 39,4% 26,6% 100,0%
% en cambio 100,0% 100,0% 100,0% 100,0%
% del total 33,9% 39,4% 26,6% 100,0%

Considerando los datos de la tabla previa, se puede observar que entre los que
mejoraron, es más elevada la proporción, respecto del total que recibió los beneficios
de una política de ingresos, en tanto, entre los que se mantuvieron, la proporción que
se destaca es la de individuos que recibieron los beneficios del programa de salud.
Finalmente, los hogares que vieron desmejorar su situación socio-económica,
presentan proporcionalmente una mayor presencia de la política de vivienda que el
resto.

A los fines de corroborar si tal observación puede sostenerse, o bien si se trata sólo de
una casualidad presente en los datos de la muestra, la prueba Chi cuadrado permite
someter a contraste las siguientes hipótesis:

Materia: METODOLOGÍA DE ANÁLISIS DE DATOS CUANTITATIVOS -3-


Profesora: Verónica Herrero
Ho:

Las variables son independientes entre sí (es decir, no tienen relación)

H1:
Las variables no son independientes.

Observe que si bien estamos interesados en considerar la vinculación entre las


variables, la hipótesis nula parte del supuesto neutral de no relación o independencia.
En el caso de rechazar la hipótesis nula, detectaremos la relación que suponemos que
existe, que motivó el estudio.

El estadístico justamente considerará esta situación, en la cual, si los valores


observados se distancian significativamente del valor esperado bajo el supuesto de
independencia, el estadístico resultará en un valor elevado (ubicado en la zona de
rechazo), y se rechazará la hipótesis nula. El estadístico Chi cuadrado está dado por:

( fo  fe )2
2  
fe

Este estadístico se distribuye Chi cuadrado con (c-1).(f-1) grados de libertad.

Donde

fo: frecuencias observadas


fe: frencuencias esperadas
c= número de columnas
f= número de filas

Veamos los resultados que proporciona la aplicación del método, utilizando el paquete
estadístico SPSS:

Materia: METODOLOGÍA DE ANÁLISIS DE DATOS CUANTITATIVOS -4-


Profesora: Verónica Herrero
Tabla: Valores observados y esperados
politica * cambio Crosstabulation

cambio

Mejoraron Se mantuvieron Empeoraron Total

politica Ingresos Observados 180 150 90 420

Esperados 142,6 165,7 111,7 420,0

Salud Observados 120 180 70 370

Esperados 125,6 146,0 98,4 370,0

Vivienda Observados 70 100 130 300

Esperados 101,8 118,3 79,8 300,0

Total Observados 370 430 290 1090

Esperados 370,0 430,0 290,0 1090,0

Tabla de resultados:

Pruebas Chi cuadrado

Significación
asintótica (2
Valor GL colas)

Chi cuadrado de Pearson 76,296a 4 ,000

Razón de Verosimilitud 72,575 4 ,000

Asociación Lineal Lineal 46,957 1 ,000

Número de casos válidos 1090

El resultado proporcionado por el indicador Chi Cuadrado de Pearson (primer renglón


de los resultados) da la información correspondiente para tomar decisión.

En el caso del ejemplo, rechazamos la hipótesis nula (observar la significación del


resultado, que es menor al 0,05), por lo tanto, concluimos que con la información
muestral disponible, no podemos descartar la existencia de una relación (no son
independientes) entre las variables política de beneficios y resultados en la situación
socioeconómica de las familias beneficiarias.

Materia: METODOLOGÍA DE ANÁLISIS DE DATOS CUANTITATIVOS -5-


Profesora: Verónica Herrero
5.2. Coeficientes de asociación

Medidas de fuerza de la relación

A partir del prueba de independencia sólo podemos afirmar si existe o no relación


entre las variables.

En el caso de detectar (rechazando la hipótesis nula de la prueba de independencia)


que existe relación, podemos estar interesados a su vez en conocer en qué medida se
relacionan las variables.

5.2.1. V de Cramer

La V de Cramer es la medida basada en el estadístico Chi cuadrado más popular de


las correspondientes a la asociación entre variables nominales debido a que da un
indicador buen ubicado entre 0 y 1 ajustado al tamaño de la tabla.

V es igual a la raíz cuadrada de Chi cuadrado dividido por el tamaño de la muestra por
el mínimo entre el número de filas menos 1 y el número de columnas menos 1:

2
V
n.k

Donde k= mínimo entre el número de filas menos 1 y el número de columnas menos 1.

¿Cómo se interpreta la V de Cramer?


V puede ser vista como la asociación entre dos variables como un porcentaje de su
máxima variación posible.

¿Qué significa la asociación medida por V en sus valores extremos?


V define una relación perfecta como aquella que es predictiva (o monotónicamente
ordenada), y define una relación nula como la independencia estadística. Da valores
entre 0 y 1. El 0 corresponde a ausencia de asociación y 1 a asociación perfecta.

Otras características de V:

 La significación de V es la misma que la de la Chi cuadrado. En el caso del uso


del paquete SPSS, este la reporta como un resultado junto con el cálculo de V.

 Simetría: V es una medida simétrica. No se ve afectada por cual es la variable


independiente.

Materia: METODOLOGÍA DE ANÁLISIS DE DATOS CUANTITATIVOS -6-


Profesora: Verónica Herrero
 El coeficiente V de Cramer se utiliza cuando la variable de menor nivel es
nominal.

5.2.2. Q de Kendall

El Coeficiente Q de Kendall (conocido también como Q de Yule) mide la asociación


entre dos variables a nivel nominal u ordinal y se usa para tablas de contingencia de
dos columnas por dos renglones. Este indicador es un caso especial del conocido
indicador Gamma para variables ordinales.

Los valores que puede alcanzar oscilan entre - 1 y + 1; cuando es igual a -1 indicará
una completa disociación entre las variables, y si es igual a +1 mostrará una
asociación total.

En caso de que el valor sea igual a cero, se concluye que no hay asociación o relación
entre las variables, lo cual es la diferente al hecho de que exista una disociación.

Supongamos una tabla genérica 2 x 2, con las siguientes denominaciones para las
casillas:

Variable 1
Variable 2 1ª categoría 2ª categoría Total
1ª categoría a b
2ª categoría c d
Total

La estructura del coeficiente será:

ad  bc
Q
ad  bc

Cuando los productos de las diagonales son iguales, el valor de Q es cero, e indica
independencia entre las variables.

Q alcanza sus límites, -1 ó 1, cuando alguna de las casillas es cero.

5.2.3. r de Spearman y de Pearson

Para las variables cuantitativas o numéricas (tanto intervalares como medidas en


escalas de razón), podemos calcular como medidas de la asociación entre ellas,
diferentes coeficientes que permiten cuantificar la correlación entre sí.

Materia: METODOLOGÍA DE ANÁLISIS DE DATOS CUANTITATIVOS -7-


Profesora: Verónica Herrero
Coeficiente de correlación por rangos de Spearman

Este coeficiente es una medida de asociación lineal que utiliza los rangos, números de
orden, de cada grupo de sujetos y compara dichos rangos.

El denominado rho de Spearman es análogo al coeficiente de correlación de Pearson,


que presentaremos a continuación, pero en este caso calculado sobre el rango de
observaciones.

Esta diferencia implica que la correlación estimada entre las variables X e Y


corresponda en este caso a diferencias entre dados apareados. El coeficiente de
correlación de Spearman es recomendable para situaciones en las que los datos
presentan valores externos, lo que los valores afectan demasiado el coeficiente de
correlación de Pearson, o para el caso de distribuciones no normales.

El cálculo del coeficiente viene dado por:

6 d i2
r  1
n.(n 2  1)

Donde di es la diferencia de los rangos de X e Y.

Los valores de los rangos se colocan según el orden numérico de los datos de la
variable.

Veamos un ejemplo:

Edad del ciudadano Cantidad de elecciones


en las que votó
18 0
25 2
35 7
17 0
35 8
45 9
53 12
46 8
27 5
66 19
70 16
56 13
30 3

Si ordenamos cada variable de menor a mayor, podemos asignar a cada valor de cada
variable un rango correspondiente a la posición que ocupa en la serie ordenada.

Materia: METODOLOGÍA DE ANÁLISIS DE DATOS CUANTITATIVOS -8-


Profesora: Verónica Herrero
Cuando aparezcan valores coincidentes se coloca el promedio de los rangos que
hubiesen sido asignado si no hubiese coincidencias.

La siguiente tabla incorpora entre paréntesis el rango para cada valor de ambas
series:

Edad del ciudadano Cantidad de elecciones


en las que votó
18 (2) 0 (1,5)
25 (3) 2 (3)
35 (6,5) 7 (6)
17 (1) 0 (1,5)
35 (6,5) 8 (7,5)
45 (8) 9 (9)
53 (10) 12 (10)
46 (9) 8 (7,5)
27 (4) 5 (5)
66 (12) 19 (13)
70 (13) 16 (12)
56 (11) 13 (11)
30 (5) 3 (4)

Por lo tanto, las diferencias quedan de la siguiente manera, si directamente trabajamos


con los rangos respectivos:

Tablas: Diferencias de rangos

Rango de edad Rango de cantidad de di di 2


elecciones en las que
votó
2 1,5 0,5 0,25
3 3 0 0
6,5 6 0,5 0,25
1 1,5 -0,5 0,25
6,5 7,5 -1 1
8 9 -1 1
10 10 0 0
9 7,5 1,5 2,25
4 5 -1 1
12 13 -1 1
13 12 1 1
11 11 0 0
5 4 1 1

Para calcular el valor de r de Spearman tenemos:

6.9 54
r  1  1
13.(13  1)
2
13.168

Materia: METODOLOGÍA DE ANÁLISIS DE DATOS CUANTITATIVOS -9-


Profesora: Verónica Herrero
r  0,975

Interpretación del coeficiente de correlación de Spearman:

 Los valores próximos a 1 indican una correlación fuerte y positiva.


 Los valores próximos a –1 indican una correlación fuerte y negativa.
 Valores próximos a cero indican que no hay correlación lineal.

En el caso del ejemplo, el valor del coeficiente de correlación indica una correlación
positiva fuerte: a medida que es mayor la edad del ciudadano, mayor el número de
elecciones en las que votó.

Coeficiente de correlación por rangos de Spearman

La medida de la relación lineal entre dos variables cuantitativas, se estudia por medio
del cálculo del coeficiente de correlación de Pearson.

Interpretación de los resultados:

Este coeficiente brindará valores entre –1 y +1.

 Cuando el valor tiende a 1, la asociación positiva es elevada. Un valor de 1


indica una relación lineal positiva perfecta.
 Cuando el valor tiende a -1, la asociación negativa es elevada. Un valor de -1
indica una relación lineal negativa perfecta.
 Una correlación próxima a cero indica que no hay relación lineal entre las dos
variables.

La representación gráfica de los datos para visualizar la relación entre el valor del
coeficiente de correlación y la forma de la gráfica es fundamental ya que podría existir
una relación no lineal o la ausencia de relación que prever desde el propio gráfico.

El coeficiente de correlación posee las siguientes características:

El valor del coeficiente de correlación es independiente de cualquier unidad de medida


usada para medir las variables. Esto implica que el coeficiente es una magnitud que no
posee una unidad de medida propia.

El valor del coeficiente de correlación se altera de forma importante ante la presencia


de un valor extremo.

El coeficiente de correlación mide solo la relación lineal. Dos variables pueden tener
una relación no lineal fuerte, a pesar de que su correlación sea pequeña. Por tanto

Materia: METODOLOGÍA DE ANÁLISIS DE DATOS CUANTITATIVOS - 10 -


Profesora: Verónica Herrero
cuando se consideren las relaciones entre dos variables debe preliminarmente partir
de su representación gráfica y luego calcular el coeficiente de correlación.

El coeficiente de correlación no se debe extrapolar más allá del rango de valores


considerado para su cálculo ya que la relación existente entre X e Y puede cambiar
fuera de dicho rango.

La correlación no implica causalidad. La causalidad requiere más información que un


simple valor cuantitativo de un coeficiente de correlación y especialmente trabajarse a
partir de los modelos teóricos propios de cada disciplina.

El coeficiente de correlación de Pearson puede calcularse en cualquier grupo de


datos.

La validez del test de hipótesis sobre la correlación entre las variables exige el
cumplimiento de los siguientes supuestos:

a. Que ambas variables correspondan a una muestra aleatoria de individuos.


b. Que al menos una de las variables tenga una distribución normal en la
población de la cual la muestra procede.

El coeficiente de correlación puede arrojar valores entre –1 y +1, en tanto el valor 0


indica que no existe asociación lineal entre las dos variables a estudio.

Mostraremos ahora el cálculo del coeficiente de correlación de Pearson a través de un


ejemplo.
Se dispone de la siguiente información captada en una muestra de recién nacidos, en
la cual se registra el dato de edad gestacional y el peso al nacer (en gramos).

Tabla: datos de análisis


Edad gestacional (semanas) Peso al nacer (gramos)

25,00 748,00
26,00 847,00
27,00 934,00
28,00 1051,00
29,00 1117,00
30,00 1310,00
29,00 1120,00
31,00 1446,00
32,00 1645,00
33,00 1845,00
34,00 2075,00
35,00 2327,00
36,00 2594,00
36,00 2500,00

Materia: METODOLOGÍA DE ANÁLISIS DE DATOS CUANTITATIVOS - 11 -


Profesora: Verónica Herrero
Edad gestacional (semanas) Peso al nacer (gramos)

38,00 3180,00
39,00 3320,00
40,00 3500,00
41,00 3600,00
42,00 3650,00
36,00 2670,00
35,00 2400,00
34,00 2200,00
35,00 2350,00
36,00 2800,00
38,00 2850,00
38,00 3040,00
38,00 3150,00
39,00 3400,00

El primer paso es obtener las medias de cada una de las variables:

X  35,89 semanas

Y  2599,20 gramos

Para el cálculo del coeficiente, incluiremos las columnas auxiliares correspondientes a


los desvío y al producto de los desvíos, respecto de las medias respectivas.

Tabla: datos de análisis


Edad gestacional Peso al nacer XX Y Y ( X  X )(Y  Y )
(semanas) (gramos)
25,00 748,00 -10,89 -1851,18 20168,16
26,00 847,00 -9,89 -1752,18 17337,40
27,00 934,00 -8,89 -1665,18 14811,38
28,00 1051,00 -7,89 -1548,18 12222,51
29,00 1117,00 -6,89 -1482,18 10219,27
30,00 1310,00 -5,89 -1289,18 7599,40
29,00 1120,00 -6,89 -1479,18 10198,59
31,00 1446,00 -4,89 -1153,18 5644,53
32,00 1645,00 -3,89 -954,18 3716,30
33,00 1845,00 -2,89 -754,18 2183,16
34,00 2075,00 -1,89 -524,18 993,19
35,00 2327,00 -0,89 -272,18 243,53
36,00 2594,00 0,11 -5,18 -0,55
36,00 2500,00 0,11 -99,18 -10,44

Materia: METODOLOGÍA DE ANÁLISIS DE DATOS CUANTITATIVOS - 12 -


Profesora: Verónica Herrero
Edad gestacional Peso al nacer XX Y Y ( X  X )(Y  Y )
(semanas) (gramos)
38,00 3180,00 2,11 580,82 1222,77
39,00 3320,00 3,11 720,82 2238,32
40,00 3500,00 4,11 900,82 3698,09
41,00 3600,00 5,11 1000,82 5109,43
42,00 3650,00 6,11 1050,82 6415,51
36,00 2670,00 0,11 70,82 7,45
35,00 2400,00 -0,89 -199,18 178,22
34,00 2200,00 -1,89 -399,18 756,35
35,00 2350,00 -0,89 -249,18 222,95
36,00 2800,00 0,11 200,82 21,14
38,00 2850,00 2,11 250,82 528,03
38,00 3040,00 2,11 440,82 928,03
38,00 3150,00 2,11 550,82 1159,61
39,00 3400,00 3,11 800,82 2486,74

Para el cálculo del coeficiente de correlación de Pearson consideramos las sumas de


las columnas respectivas:

r
 ( X  X )(Y  Y )
 ( X  X )  (Y  Y )
2 2

200321,16
r
873,58.34583089,7

r  0,9895

Observe que el valor del coeficiente de correlación alcanza un valor muy próximo a 1,
lo cual, como indicamos previamente, significa que la relación entre las variables es
positiva y fuerte.

Tras realizar el cálculo del coeficiente de correlación de Pearson se debe determinar si


dicho coeficiente es estadísticamente diferente de cero, o lo que es lo mismo, si ese
valor no se debió sólo al azar. Para dicho cálculo se aplica un test basado en la
distribución de la t de Student. Veamos cómo analizarlo a partir de la salida de SPSS
para el ejemplo previo.

Materia: METODOLOGÍA DE ANÁLISIS DE DATOS CUANTITATIVOS - 13 -


Profesora: Verónica Herrero
Correlaciones

edad_gestacional peso_al_nacer

edad_gestacional Coeficiente de 1 ,990**


correlación de Pearson

Sig. (2-tailed) ,000

N 38 38

peso_al_nacer Coeficiente de ,990** 1


correlación de Pearson

Sig. (2-tailed) ,000

N 38 38

**. Correlation is significant at the 0.01 level (2-tailed).

La tabla de doble entrada proporciona las correlaciones entre todas las variables
numéricas que se indiquen.

En este caso, para el caso del a correlación entre la edad gestacional y el peso al
nacer, reporta un p-valor de 0,000. El cual comparado con un a convencional del 0,05,
nos hace concluir que se debe rechazar la hipótesis de no correlación
(correspondiente a esta prueba).

Materia: METODOLOGÍA DE ANÁLISIS DE DATOS CUANTITATIVOS - 14 -


Profesora: Verónica Herrero
5.3. La forma de la relación: el modelo lineal

Un modelo aplicable para analizar la relación entre dos variables es el modelo de


regresión. La utilización del modelo de regresión lineal está muy difundida en las
Ciencias Sociales, en particular, porque permite describir una serie muy amplia de
fenómenos (comportamiento de los individuos, reacciones de los consumidores,
decisiones económicas, entre otros).
El análisis de regresión lineal tiene como finalidad explorar y cuantificar la relación
entre variables, una llamada dependiente (Y) y una o más variables independientes.
En el caso de utilizar una sola variable independiente o explicativa, estamos frente a
una regresión lineal simple, en tanto si las variables explicativas o independientes son
dos o más, el análisis se denomina regresión lineal múltiple.
Cabe señalar que una de las aplicaciones más destacadas del modelo es la de realizar
predicciones y pronósticos acerca de la variable dependiente, teniendo en cuenta
valores de las variables explicativas o independientes.
En el caso de este modelo, deben considerarse además de las técnicas de estimación,
una serie de pruebas de diagnóstico (análisis de residuos, análisis de influencia, etc.)
cuyo cumplimiento es necesario para obtener estimaciones adecuadas.

El diagrama de dispersión
Un gráfico que nos permite visualizar de manera sencilla la posible existencia de una
relación entre las variables de interés, es el diagrama de dispersión. Este gráfico
consiste en la colección de puntos en un diagrama de ejes cartesianos, donde los
valores de la variable dependiente se representan en las ordenadas y los de la
variable independiente en las abcsisas. Cada punto del gráfico se indica con las
coordenadas del mismo representado como par ordenado (x, y). El conjunto de puntos
surgidos de graficar todos los datos disponibles recibe el nombre de nube de puntos.
Lo que el diagrama de dispersión da la posibilidad de observar, es la forma de la
relación, en términos no estrictos (en el sentido que siempre necesitaremos los test y
estimaciones estadísticas), pero es un buen punto de partida, por ejemplo, para
preliminarmente analizar si la línea recta será una aproximación aceptable de la
relación o no.
En el ejemplo de Diagrama de dispersión, la variable Y (dependiente) indica el salario
horario inicial (expresado en moneda corriente) de un ocupado en el mercado laboral,
la variable X (independiente) representa los años de experiencia previa que esa
persona exhibía en su curriculum. Para describir la relación aparente entre estas
variables, podríamos indicar que si bien en nuestra muestra hay pocos casos con baja
experiencia relativa, a medida que más experiencia laboral previa tenía un ocupado,
su salario inicial resulta más elevado. Con la intención de ser más específicos y
sintéticos al mismo tiempo, el modelo de regresión lineal intenta asociar la relación
entre estas variables a través de una línea recta que generalice esta vinculación,
despreciando las oscilaciones específicas de cada caso particular respecto de la línea
recta que indicaría la estructura de la relación entre experiencia y salario inicial.

Materia: METODOLOGÍA DE ANÁLISIS DE DATOS CUANTITATIVOS - 15 -


Profesora: Verónica Herrero
Figura: Diagrama de dispersión
Y = salario horario inicial

X = años de experiencia laboral al ingreso


Fuente: Elaboración propia

Actividad:

Elabore (utilizando una hoja cuadriculada, para facilitar la adecuación a una escala
proporcional de cada variable) la siguiente relación:

Los siguientes datos fueron tomados de un estudio sobre las diferentes


sucursales de una marca de supermercados de la ciudad:

Sucursal Superficie del local de Ventas diarias (en


venta (m2) miles de $)
1 300 425
2 350 435
3 450 550
4 500 600
5 700 860
6 760 770
7 770 980
8 900 1100

Materia: METODOLOGÍA DE ANÁLISIS DE DATOS CUANTITATIVOS - 16 -


Profesora: Verónica Herrero
Sucursal Superficie del local de Ventas diarias (en
venta (m2) miles de $)
9 1200 1240
10 1400 1500
11 2000 2400
12 2050 2200
13 2100 2080

La relación puede sintetizarse de manera que represente una línea recta de la


siguiente manera:
Y    X
Los coeficientes  y  son los que definen la recta. El coeficiente  representa la
ordenada al origen, es decir, el punto en que la recta corta al eje vertical. El coeficiente
 es la pendiente de la recta, el cual indica el cambio experimentado en la variable Y
cuando se produce cierto incremento en la variable X. En el ejemplo,  representa el
cambio en el salario inicial ante el cambio en un año de experiencia laboral al ingreso.
En el caso de , está indicando el salario promedio de una persona sin experiencia
laboral al ingreso (cuando X=0).
En el siguiente gráfico se representa una recta que podría describir de manera general
y simplificada la relación analizada.

Materia: METODOLOGÍA DE ANÁLISIS DE DATOS CUANTITATIVOS - 17 -


Profesora: Verónica Herrero
Figura: Recta de regresión
Y = salario horario inicial

X = años de experiencia laboral al ingreso


Fuente: Elaboración propia

Método para obtener estimaciones de  y 


No hemos mencionado aún cómo determinar los valores que nos permitan trazar una
recta, es decir, estimaciones de  y  en base a los datos de la muestra disponible.
En la ecuación:
Y    X
 y  son constantes. La relación especificada entre X e Y es exacta, sin embargo,
como hemos observado en el diagrama de dispersión, tal relación podría tener algunos
desvíos o perturbaciones que denominaremos término de error. Por lo tanto, debemos
reescribir la relación como el valor esperado de Y que depende de valores de X:
E(Y / X )    X

Interpretación de los valores de 


Si la pendiente  que corresponde a la recta de regresión es positiva, la relación entre
las variables es tal que cuando el valor de X aumenta, también lo hace el de Y.
Si la pendiente  es menor que cero, entonces, la relación es negativa, es decir, a
medida que aumenta el valor de X, el valor de Y es menor.

Materia: METODOLOGÍA DE ANÁLISIS DE DATOS CUANTITATIVOS - 18 -


Profesora: Verónica Herrero
Si  = 0, entonces no hay una relación lineal entre X e Y de manera que podamos
indicar cómo cambia Y conociendo el cambio en X.

Figura: valores de  y forma de la relación


>0 






<0 


Fuente: Elaboración propia

Supuestos del modelo de regresión lineal


1. Linealidad
Debe verificarse que la forma de la ecuación que describa la relación entre X e
Y sea lineal.

2. Normalidad
Las distribuciones de los valores de Y para valor de X deben ser normales.

3. Homocedasticidad
La variabilidad de los valores de la variable dependiente Y es igual para
cualquier valor de la variable X.

Materia: METODOLOGÍA DE ANÁLISIS DE DATOS CUANTITATIVOS - 19 -


Profesora: Verónica Herrero
La violación de este supuesto es más frecuente cuando se trabaja con
obsrvaciones correspondientes a datos de corte transversal.

4. Independencia de errores
Los residuos o errores (las diferencias entre los valores pronosticados y los
observados realmente), deben ser independientes entre sí.
La violación de este supuesto es más frecuente cuando se trabaja con datos
correspondientes a series de tiempo.

Bondad de ajuste
Para poder afirmar que el resultado de la regresión es adecuado, necesitamos
contar con algún indicador del grado en que la recta ajusta acertadamente a la
nube de puntos. En particular estamos pensando en un indicador del grado de
fidelidad con que la recta obtenida por el método de mínimos cuadrados
describe la relación existente entre los datos.
La medida de aplicación más generalizada corresponde al coeficiente de
determinación o R2.
Este indicador corresponde al cuadrado del coeficiente de correlación. Es una
medida estandarizada que asume valores entre 0 y 1:
 0 cuando las variables son independientes
 1 si la relación captada por la recta es perfecta

El R2 nos permite medir cuánto podemos explicar los valores de la variable


dependiente basándonos en el conocimiento de otras variables y de su
relación. Mide más precisamente, la relación entre la variabilidad de la variable
dependiente explicada por el modelo (lo cual incluye la variable independiente
y la forma lineal de su relación con la dependiente), respecto de la variabilidad
total de la variable dependiente.

Para el ejemplo presentado, el valor del R2 alcanza 0,83, lo cual significa que el
83% de la variabilidad del salario inicial al momento de ingreso es explicada de
manera lineal, por los años de experiencia previos al ingreso.

Veamos un ejemplo

Analizaremos los siguiente datos relativos al promedio de las notas obtenidas


en el secundario y las notas obtenidas en la universidad por un a muestra
representativas de egresados.

Materia: METODOLOGÍA DE ANÁLISIS DE DATOS CUANTITATIVOS - 20 -


Profesora: Verónica Herrero
A continuación se presenta la base de datos utilizada, cargada en SPSS.

Figura: datos de trabajo

Estamos interesados en modelar una relación que intente pronosticar la nota


promedio en la universidad al momento de ingreso.

Veamos en primer lugar, el gráfico de la nube de puntos o diagrama de


dispersión.

Materia: METODOLOGÍA DE ANÁLISIS DE DATOS CUANTITATIVOS - 21 -


Profesora: Verónica Herrero
Figura: diagrama de dispersión

Fuente. Elaboración propia

La gráfica anterior permite prever una relación lineal positiva entre las variables.

El siguiente resultado es un resumen del modelo, donde aparece como indicador el R2,
que presentamos como medida de la bondad de ajuste. Como puede observarse, el
valor de este indicador es elevado y próximo a 1, por lo que el modelo de regresión
planteado explica el 83,2% de la variabilidad total de la variable dependiente (nota
promedio en la universidad). En esa misma tabla se indica el R cuadrado ajustado que
es la medida análoga pero cuando se trabaja con una regresión lineal múltiple, donde
es habitual que el R2 sea más elevado simplemente con incorporar variables al
análisis, y por eso la medida del R2 ajustado, libre de los efectos de incorporar nuevas
variables, corrigiendo por los grados de libertad, es una mejor medida de la bondad de
ajuste, en tales casos de regresión línea múltiple.

Resumen del modelo

R cuadrado Error estándar


Modelo R R Cuadrado ajustado de la estimación

1 ,912a ,832 ,819 ,76790

a. Predictores (Constante), notas_secundario

Materia: METODOLOGÍA DE ANÁLISIS DE DATOS CUANTITATIVOS - 22 -


Profesora: Verónica Herrero
La tabla ANOVA permite hacer una evaluación global del modelo de regresión a través
de la prueba F. Como puede observarse, tal como lo indica el valor de la significación
del test, el modelo de regresión sirve en este caso para describir la relación entre las
variables de interés.

ANOVAb

Suma de Cuadrados
Modelo cuadrados GL medios F Sig.

1 Regresión 37,934 1 37,934 64,331 ,000a

Residual 7,666 13 ,590

Total 45,600 14

Finalmente, los resultados arrojados por el modelo permiten obtener los coeficientes
de regresión.
En primer lugar, el valor estimado para la ordenada al origen es de -1,558 (aparece
referido en la primer columna de resultados, consignada como constante). Este valor
no resultó ser signficativamente diferente de cero, ya que el valor de la significación es
0,157 (superior al 0,05 con que trabajamos habitualmente en este tipo de hipótesis).
Recordemos que la ordenada al origen indica el valor de la recta regresión (en
particular de la variable dependiente) cuando la variable independiente vale 0.

Coeficientesa

Coeficientes
Coeficientes no estandarizados estandarizados

Modelo B Error estándar Beta t Sig.

1 (Constante) -1,558 1,036 -1,503 ,157

notas_secundario 1,224 ,153 ,912 8,021 ,000

a. Variable dependiente: notas_universidad

La pendiente estimada por mínimos cuadrados, que mide el cambio en la variable


dependiente ante un cambio en la variable independiente, alcanzó un valor de 1,224.
Esto quiere decir, que tal como esperábamos a partir del gráfico de dispersión, la
relación entre ambas variables es positiva, y que por cada punto adicional de nota en
el promedio del secundario, se espera 1,224 puntos adicionales en el promedio de
notas de la universidad.

Materia: METODOLOGÍA DE ANÁLISIS DE DATOS CUANTITATIVOS - 23 -


Profesora: Verónica Herrero
Como indica el nivel de significación para el coeficiente de la pendiente, dicho
coeficiente es significativamente diferente de 0, lo cual implica que la relación lineal
positiva entre las variables es válida para este caso.

Con la información obtenida de la regresión, podríamos ahora pronosticar la nota


promedio en la universidad, tal como se solicitó, a partir de la nota promedio obtenida
en el secundario.

Por ejemplo, si un alumno que ingresa a la universidad obtuvo una nota promedio de
6, entonces:

Nota _ universidad  1,224 .6  1,558


Nota _ universidad  5,786

Y así podríamos proceder con cualquier otra nota del secundario, simplemente
reemplazando en la ecuación de regresión lineal estimada.

El uso de regresión lineal en economía

La Economía es la ciencia social que se ha apropiado por encima de las demás, del
uso de los modelos de regresión lineal como instrumento para explicar diversas
relaciones entre variables.

Este uso ha dado como consecuencia primera el desarrollo de una disciplina basada
en el manejo de múltiples modelos matemático para facilitar la predicción de variables
económicas, entre los cuales se destacan los modelos de regresión. De más está
decir, que los aportes propios generados desde esta disciplina, la Econometría, han
significado importantes avances para los conocimientos sobre aspectos complejos de
modelos lineales multivariables avanzados.

A continuación, como reflexión final, incorporo un ejemplo de aplicación, en campos


ajenos a la economía, en los cuales a muchos economistas les gusta incursionar, y en
los que suelen utilizar también como herramienta al propio modelo de regresión.

Los genios creativos, bajo la lupa de los economistas


Por Sebastián Campanario
(Fuente: http://blogs.clarin.com/economiainsolita)

Materia: METODOLOGÍA DE ANÁLISIS DE DATOS CUANTITATIVOS - 24 -


Profesora: Verónica Herrero
Uno de los descubrimientos económicos más fascinantes de los últimos años nació
por accidente. En la primavera de 1997, David Galenson, por entonces un
desconocido académico de Chicago, especializado en el mercado de esclavos de la
época colonial, decidió comprar una pequeña acuarela del pintor norteamericano Sol
LeWitt. Para chequear si el precio era justo, llamó a un amigo marchand, quien opinó
que era un poco caro: “Nosotros tenemos trabajos más grandes al mismo valor”, le
dijo.
Galenson compró la obra, de todas formas, pero se fue a su casa pensando si el
mercado de las pinturas era como el de las alfombras: cuanto más grande el cuadro,
más caro. En los meses siguientes, estudió la vida y obra y 42 artistas de EE.UU.
contemporáneos. Cuando aplicó herramientas econométricas, el resultado fue
sorprendente: halló “dos nubes” en una regresión que vinculaba la edad de los
pintores con el valor de mercado de su obra. Con muy pocas excepciones, encontró
dos tipos de “genios creativos”: los “innovadores conceptuales”, que producen cambios
rupturistas en sus campos a una muy temprana edad; y los “experimentalistas”, que
siguen un proceso de prueba y error y logran sus resultados más valiosos después de
los 40 años. En el primer pelotón se ubican Picasso, Andressens y Munch; en el
segundo Rodin, Cezanne y Monet.
¿Es el precio de mercado un indicador mentiroso del valor artístico de un cuadro?
Galenson se lo preguntó, y corrió la regresión contra otra variable: la cantidad de
reproducciones de cada cuadro en libros de arte prestigiosos.
El resultado fue el mismo.
El economista de Chicago luego extendió sus estudios a otras ramas, como literatura o
cine, y halló que el patrón de “jóvenes genios y viejos maestros” se repetía. Mientras
que Hemingway, Welles, Melville y Joyce están en el primer grupo, Dickens, Twain y
Hitchcock hicieron lo mejor en el final de sus carreras.

Materia: METODOLOGÍA DE ANÁLISIS DE DATOS CUANTITATIVOS - 25 -


Profesora: Verónica Herrero
MODULO 3

Hipótesis estadística = enunciado referido a la población que puede ser evaluado en función de información de
la muestra, y considerado verdadero o falso de acuerdo a la evidencia que la muestra nos proporciona.
Generalmente involucran uno o más características de la distribución, como: Forma de una distribución, Valor
de cierto parámetro, Independencia de la variable aleatoria, entre otras.

Son suposiciones o afirmaciones que formulamos acerca de los valores de un determinado parámetro, o de
características de la población en conjunto. Nunca las hipótesis hacen referencia a la muestra.
El valor del parámetro de la población especificado en la hipótesis suele determinarse de la siguiente forma:
 Surgir de la experiencia, conocimientos pasados o experiencia previa. El objetivo de la prueba de
hipótesis será determinar si la situación experimental ha cambiado.
 A partir de una teoría o modelo sobre el objeto de estudio. Objetivo de la prueba de hipótesis: verificar
la teoría o modelo.
 Resultado de consideraciones experimentales, como especificaciones de diseño o de obligaciones
contractuales. Objetivo de la prueba de hipótesis: prueba de conformidad.

Pruebas de hipótesis paramétricas (referidas a parámetros) = diferente propósito al de la estimación.


 Se parte del supuesto que la hipótesis nula es inocente.
Hipótesis nula:
Se va a considerar como cierta hasta que se tenga suficiente evidencia de lo contrario. Nunca se va a
“aceptar” una hipótesis nula, porque nunca se obtiene información suficiente para hacerlo. Para esto
necesitamos la totalidad de los datos de la población.
Hipótesis formulada con la intención de rechazarla (Ho).
Siempre incluye el signo de igualdad.
Es la base para el análisis estadístico de la prueba.
Hipótesis alternativa:
Es lo contrario a la hipótesis nula.
Incluye símbolos como ≠, <, >
Se establece en términos de aquello sobre lo que se está buscando evidencia.
Será cierta en caso de rechazar la hipótesis nula, define la dirección de la zona de rechazo. (H1).
Las hipótesis son antagónicas. Nunca pueden ser aceptadas una hipótesis nula y una alternativa
simultáneamente. Rechazarla es fuerte. Evidencia a favor o en contra de la hipótesis:
- Si la evidencia es en contra: podemos rechazarla con tranquilidad
- Si la evidencia es a favor: me permite no rechazarla (genera más dudas).

REALIDAD
H0 cierta H0 falsa = H1 cierta
ERROR TIPO 1 Decisión correcta
Rechazar H0 Prob = α Prob = 1 - β
DECISIÓN

Nivel de significación Potencia de la prueba


Decisión correcta ERROR TIPO 2
No rechazar H0 Prob = 1 - α Prob = β
Confianza de la prueba
Prob = α mide la posibilidad de cometer el error tipo 1 = rechazar la Ho cuando es verdadera
Prob = β mide la posibilidad de cometer el error tipo 2 = no rechazar la Ho cuando es falsa.
Potencia = 1 - β = probabilidad de rechazar una hipótesis nula siendo esta falsa (es buena, porque nos dice
cuanto podemos acertar, o cuanto no nos equivocamos).

Propiedades de α y β:
- El valor de α se fija al escoger la zona de rechazo
- El valor de β depende de la hipótesis alternativa que se escoja
- Para un tamaño muestral fijo, al aumentar la zona de rechazo y por lo tanto aumentar α, β disminuye.
Y si α decrece, β aumentará. (son inversamente proporcionales)
- Al aumentar el tamaño de la muestra, ambos decrecen a la vez.

PASOS PARA PRUEBA DE HIPOTESIS:


 1er paso: Definir la Ho y la H1.
Seleccionar una Muestra Representativa (bien seleccionada, de acuerdo a procedimientos probabilísticos, que
nos dirá la probabilidad de cada elemento de la población a ser parte de la muestra)

 2do paso: Seleccionar el estadístico de prueba apropiado.


Estadístico: valor que se calcula en base a la información de la muestra y que se utiliza para determinar si se
rechaza la hipótesis nula. Para elegirlo debe conocer su distribución en el muestreo. Existen muchas
estadísticas de prueba que pertenecen a una distribución muestral, en esta materia se estudiarán: Z, t, X2, F.

 3er paso: Definir el nivel de significación y la zona de rechazo


Nivel de significación o de riesgo: Probabilidad de cometer el Error
Tipo I. Se simboliza con α. En general suelen ser 5%, para pruebas más
precisas 1%. Es el máximo error que estamos dispuestos a tolerar.
Zona de rechazo: valores del estadístico de prueba para los cuales se
rechaza la Ho. Tiene una magnitud dada por α y una dirección dada por
la hipótesis alternativa. La regla de decisión en la prueba de hipótesis
puede establecerse considerando:
 El estadístico de prueba
 La probabilidad
 La distribución de probabilidad del estadístico de prueba

 4to paso: Calcular el estadístico de prueba a partir de los datos muestrales considerando Ho como
verdadera, para una muestra aleatoria.

 5to paso: Decidir si Ho se rechaza o no se rechaza


Evaluar la situación a partir del valor que surgió, comparando el estadístico con las zonas de rechazo o no
rechazo y se procede según las reglas de decisión (cuadrito hoja anterior)

 6to paso: Obtener las conclusiones del problema


Ejemplo para practicar los pasos de una prueba de hipótesis.
1º. Definir la hipótesis nula y alternativa 4º. Calcular el estadístico de prueba
Ho μ = 15 Z = 15,39 - 15 = 0,39 = 1,5
H1 μ ≠ 15 2,9 0,26
√120
2º. Elegir el estadístico de prueba
5º. Comparar y decidir si se rechaza o no
1,5 está dentro de la zona de no rechazo. Por lo
tanto la hipótesis no se rechaza

6º. Conclusiones.
3º. Definir el nivel de significación y la zona de
No existe evidencia para decir que 15 millones no
rechazo
es el número de ventas promedio.

Pruebas unilaterales: zona de rechazo en extremo superior.

PRUEBAS DE HIPOTESIS PARA DOS POBLACIONES


Diferencia de medias con muestras independientes
Dos muestras son independientes si la aparición o selección de un individuo en una muestra no tiene ninguna
relación con la aparicion o selección de ningún individuo o elemento en la otra muestra. Este caso se aplica
cuando los individuos de cada muestra pertenece a dos poblaciones distintas, cuya diferencia de medias es el
propósito principal de la prueba.
Se consideran dos pruebas de hipótesis referidas a las diferencias entre medias de ambas muestras, teniendo
en cuenta los supuestos que puedan considerarse.

 Prueba T de varianzas iguales


Se suponen iguales varianzas (aunque desconocidas). Supuestos:
 Las muestras fueron tomadas de manera independiente y al azar de sus respectivas poblaciones
 Las poblaciones tienen distribución normal
 Las varianzas son iguales:

Los subíndices indican muestra 1 y 2. La diferencia entre medias debe realizarse en el mismo orden para
medias muestrales y poblacionales.

 Prueba T para varianzas distintas


Cuando no es posible asegurar que las varianzas de ambas poblaciones sean iguales, se procede codificando el
estadístico de prueba a través de la fórmula.
Salida de SPSS: 1 = mujeres de zonas urbanas
2 = mujeres de zonas rurales a priori podemos ver una
diferencia significativa
entre ambas muestras

No corresponde considerar el caso de varianzas iguales ya


Grados de libertad Se rechaza la hipótesis nula de igualdad de las medias
que se rechaza el test de igualdad de varianzas, porque el
calculados porque arroja un valor inferior a 0,05
valor de Sig es menor a 5%. Por esto, tomaremos los datos de
la segunda fila (no se suponen varianzas iguales).

Diferencia de medias con muestras relacionadas o apareadas


Dos muestras están apareadas si la inclusión de un individuo en una de las muestras condiciona la selección de
otro en la iotra muestra, o bien se analiza repetidamente l información a lo largo del tiempo sobre un mismo
individuo.

PRUEBAS DE HIPOTESIS PARA MÁS DE DOS POBLACIONES


Análisis de varianza o ANOVA
Examina las varianzas de dos o mas conjuntos de datos e intenta detectar diferencias estadísticamente
representativas entre las medias de dichos conjuntos.
El propósito es probar si exist4en diferencias significativas entre medias.
El método de ANOVA se basa en el hecho de que hay una diferencia entre grupos solo si la varianza intergrupos
es mayor que la varianza intragrupos.

Luego de hacer la prueba estadística, y si resulta significativa se rechaza la hipótesis nula referida a la no
existencia de diferencia entre las medias:

La columna de la significación nos permite identificar las


diferencias que son
significativas (aquellas con una significación superior a
0,05).

Se resumen en el siguiente cuadro, las agrupaciones de


regiones entre las cuales no
hay diferencias significativas en sus medias:

MODULO 4
Existen distintas formas de medir la interrelación de dos variables:

VARIABLE INDEPENDIENTE
Nominal Ordinal De intervalo / De razón
Tablas cruzadas Tablas cruzadas
Nominal Chi cuadrado Chi cuadrado
VARIABLE DEPENDIENTE

Lambda Lambda
Tablas cruzadas Tablas cruzadas
Chi cuadrado Chi cuadrado
Lambda Lambda
Ordinal
Gamma
Tau de Kendall
D de Sommers
Medias Medias Correlación
De Intervalo
Prueba t Prueba t R de Pearson
De Razón
ANOVA ANOVA Regresión

PRUEBA DE INDEPENDENCIA DE ATRIBUTOS


Permite establecer si existe o no relación entre variables con dos o más categorías, medidas en escala nominal.

Prueba chi cuadrado = prueba general que se utiliza cuando se desea determinar si las frecuencias absolutas
obtenidas en la observación difieren significativamente o no de las que se esperarían bajo cierta hipótesis
planteada de interrelación de las categorías de las variables consideradas.

Dada la siguiente información obtenida en la primera tabla, se confecciona una tabla cruzada determinando los
porcentajes respecto al resto de características:

Se puede observar que:


Entre los que mejoraron, es mayor la proporción
en los que tuvieron política de ingresos
Entre los que se mantuvieron, es mayor la
proporción entre los que tuvieron plan de salud
Entre los que desmejoraron, es mayor la
proporción de la política de vivienda.
Para corroborar si estas observaciones son ciertas o si solo fueron casualidad, Chi Cuadrado nos permite
someter a contraste las siguientes hipótesis:

Ho cierta (hipótesis nula): Las variables son independientes entre sí (no tienen relación)
Ho falsa = H1 cierta: Las variables no son independientes.

En caso de rechazar la hipótesis nula, se determinará la relación que suponemos que existe.
Si los valores observados se distancian del valor esperado bajo el supuesto de independencia, el estadístico
resultará en un valor elevado (ubicado en la zona de rechazo) y se rechazará la hipótesis nula. El estadístico Chi
Cuadrado está dado por:
Este estadístico se distribuye Chi Cuadrado con (c-1) . (f-1) grados de libertad.
Donde:
fo = frecuencias
observadas
fe = frecuencias
esperadas
c = número de columnas
f = número de filas
Aplicando SPSS obtenemos los siguientes resultados:

Este resultado de Chi Cuadrado de Pearson con significació


menor al 0,05 nos hace rechazar la hipótesis nula. Por lo tanto
con la información muestral disponible, existe una relació
entre las variables “política de beneficios” y “resultados”.

MEDIDAS DE FUERZA DE LA RELACION


A partir de la prueba de independencia podemos afirmar si existe o no relación, en el caso de
detectar relación podemos saber en qué medida se relacionan las variables:

V de Cramer
Medida basada en el estadístico Chi Cuadrado más popular, debido a que da un indicador bien
ubicado entre 0 y 1 ajustado al tamaño de la tabla.

X2 = chi cuadrado
n = tamaño de la muestra
k = mínimo entre el número de filas menos 1 y el número de
columnas menos 1

Características de V de Cramer:
 se interpreta como la asociación entre dos variables como un porcentaje de su máxima
variación posible.
 La asociación medida por V en sus valores extremos, define una relación perfecta
como aquella que es predictiva, y define una relación nula como la independencia
estadística. Da valores entre 0 y 1. 0 es ausencia de asociación y 1 asociación perfecta.
 Su significación es igual que la de Chi Cuadrado. En SPSS se reporta la significación de V
como un resultado, junto con el cálculo de V
 Es una medida simétrica. No se ve afectada por cuál es la variable independiente.
 El coeficiente V de Cramer se utiliza cuando la variable de menor nivel es nominal.

Q de Kendall o Q de Yule
Mide la asociación entre dos variables a nivel nominal u ordinal.
Teniendo una tabla 2x2 con las siguientes denominaciones, la
estructura del coeficiente será:

Cuando los productos de las diagonales son iguales, el valor de Q es cero, e indica
independencia entre las variables. Q alcanza sus límites -1 o +1 cuando alguna de las casillas es
cero.

Características de Q de Kendall:
 Se usa para tablas de contingencia de dos columnas por dos renglones
 Es un caso especial del indicador Gamma para variables ordinales
 Los valores que puede alcanzar oscilan entre -1 y +1. -1 es completa disociación entre
variables y +1 muestra asociación total.
 En el caso en que el valor sea igual a cero, no hay asociación o relación (pero esto no
quiere decir que haya disociación)

R de Spearman
Coeficiente de correlación por rangos. Es una medida de asociación lineal que utiliza los
rangos, números de orden, de cada grupo de sujetos y compara dichos rangos.
Es similar al R de Pearson, pero en este caso calculado sobre el rango de observaciones.
La correlación estimada entre las variables X e Y corresponde a diferencias entre datos
apareados. El coeficiente de relación de Spearman es recomendable para situaciones en las
que:
- los datos presentan valores externos,
- los valores afectan demasiado el coeficiente de correlación de Pearson
- o para el caso de distribuciones normales.
Cálculo del coeficiente:
1 menos (6 x la suma de los di al cuadrado) dividido [cantidad de
datos x (cantidad de datos al cuadrado menos uno)]
di = diferencia de los rangos X e Y.

Los valores de los rangos se colocan según el orden numérico de los datos de la variable.
Por ejemplo, obteniendo la siguiente tabla:
1) Ordenamos cada variable de menor a mayor, asignando a cada valor de la variable un
rango correspondiente a la posición que ocupa en la serie ordenada. Se coloca entre
paréntesis al lado.
2) Cuando aparezcan valores coincidentes se coloca el promedio de los rangos que
hubiesen sido asignados si no hubiese coincidencias.
3) Luego trabajamos directamente con todos los rangos respectivos

Edad del Cantidad de Edad del Cantidad de Rango Rango de Cantidad


di di2
ciudadano veces que votó ciudadano veces que votó de Edad de votos
18 0 18 (2) 0 (1,5) 2 1,5 0,5 0,25
25 2 25 (3) 2 (3) 3 3 0 0
35 7 35 (6,5) 7 (6) 6,5 6 0,5 0,25
17 0 17 (1) 0 (1,5) 1 1,5 -0,5 0,25
35 8 35 (6,5) 8 (7,5) 6,5 7,5 -1 1
45 9 45 (8) 9 (9) 8 9 -1 1
53 12 53 (10) 12 (10) 10 10 0 0
46 8 46 (9) 8 (7,5) 9 7,5 1,5 2,25
27 5 27 (4) 5 (5) 4 5 -1 1
66 19 66 (12) 19 (13) 12 13 -1 1
70 16 70 (13) 16 (12) 13 12 1 1
56 13 56 (11) 13 (11) 11 11 0 0
30 3 30 (5) 3 (4) 5 4 1 1

=1- 6.9 = 1 - 54 = 1 - Respuesta:


54 = 1 - correlación
0,0019019 =fuerte
0,998 y positiva = a
13 . (132 - 1) 13 . 168 medida que es mayor la edad del ciudadano,
28392
es mayor el número de veces en que votó.

Interpretación del coeficiente de correlación de Spearman:


o Valores próximos a 1 = correlación fuerte y positiva
o Valores próximos a -1 = correlación fuerte y negativa
o Valores próximos a 0 = no hay correlación lineal.
R de Pearson
Estudia la medida de la relación lineal entre dos variables cuantitativas. Características del
coeficiente de correlación:
 Su valor es independiente de cualquier unidad de medida para medir las variables. Es
una magnitud que no posee unidad de medida propia.
 Su valor se altera de forma importante ante la presencia de un valor extremo
 Mide solamente la relación lineal. Dos variables pueden tener una relación no lineal
fuerte a pesar de que su correlación sea pequeña. Por lo tanto, cuando se consideren
las relaciones entre dos variables debe preliminarmente partir de su representación
grafica y luego calcular el coeficiente de correlación
 No se debe extrapolar mas allá del rango de valores considerado para su cálculo ya
que la relación existente entre X e Y puede cambiar fuera de dicho rango
 Correlación no implica causalidad. Causalidad requiere más información que un simple
valor cuantitativo de un coeficiente de correlación y más especialmente al tratarse a
partir de los modelos teóricos propios de cada disciplina.
 Puede calcularse en cualquier grupo de datos
 Validez del test de hipótesis sobre la correlación entre las variables exige el
cumplimiento de:
o Que ambas variables correspondan a una muestra aleatoria de individuos
o Que al menos una tenga distribución normal en la población de la cual la
muestra procede.

Pasos para obtenerlo:


1º Obtener las medias de cada una de las variables. En este caso: X = 35,89 Y = 2599,20
2º Se suman las columnas auxiliares de desvío y producto de los desvíos, respecto de las
medias.
3º Consideramos las sumas de las columnas respectivas.

Respuesta: correlación fuerte y positiva = a


medida que es mayor la edad gestacional,
será mayor el peso a nacer.

Interpretación del coeficiente de correlación de Pearson:


o Valores próximos a 1 = asociación positiva elevada. 1 = relación lineal positiva perfecta.
o Valores próximos a -1 = asociación negativa elevada. -1 = relación lineal negativa
perfecta.
o Valores próximos a 0 = no hay relación lineal.

Luego de calcular el coeficiente de correlación de Pearson, debemos determinar si dicho


coeficiente es estadísticamente diferente a cero, si ese valor no se debió al azar. Para dicho
cálculo se aplica un test basado en la distribución de la t de Student.
Esta tabla proporciona las
correlaciones entre todas las
variables numéricas que se
indiquen.

En este caso, para el caso de la


correlación entre la edad
gestacional y el peso al nacer,
reporta un p-valor de 0,000. El
cual comparado con un a
convencional del 0,005 nos hace concluir que se debe rechazar la hipótesis de no correlación.
METODOLOGÍ A DE ANÁLISIS DE DATOS CUANTITATIVOS

RESUMEN SEGUNDO P ARCI AL

MODULO 3

4 LAS PRUEBAS DE HIPÓTESIS

4.1 La lógica de las pruebas de hipótesis

Una hipótesis estadística es un enunciado referido a la población que puede ser evaluado en función de información muestral, y considerado verdadero
o falso en términos de la evidencia que la muestra proporciona. Las hipótesis estadísticas generalmente involucran uno o más características de la
distribución, como forma de una distribución, el valor de cierto parámetro o la independencia de la variable aleatoria, entre otras.

Las hipótesis son siempre enunciados relativos a la población o distribución bajo estudio, no enunciados referidos a la muestra. El valor del parámetro
de la población especificado en la hipótesis suele determinarse de las siguientes formas:

1. Puede surgir de la experiencia o conocimientos pasados del fenómeno de interés, o incluso de experimentación previa. El objetivo de la
prueba de hipótesis en estos casos suele ser determinar si la situación experimental ha cambiado.
2. Este valor puede determinarse a partir de alguna teoría o modelo con respecto al objeto que se estudia. El objetivo de la prueba de hipótesis
en este caso es verificar la teoría o modelo.
3. Cuando el valor del parámetro de la población es resultado de consideraciones experimentales, como especificaciones de diseño o de
obligaciones contractuales. En este caso, el objetivo de la prueba de hipótesis es la prueba de conformidad.

La prueba de hipótesis, en muchos aspectos, se parece a un juicio sobre un delito criminal. En el juicio se parte del supuesto de que el acusado es
inocente. La hipótesis nula es de inocencia. Lo contrario de la hipótesis nula es la hipótesis alternativa, que expresa la creencia de culpabilidad, Por
consiguiente, las hipótesis en un juicio criminal se escribirían:

 Ho: El acusado es inocente


 Ha: El acusado es culpable

Para probar las aseveraciones o hipótesis se lleva a cabo un juicio. El testimonio y las pruebas obtenidas durante el juicio equivalen a la información de
la muestra. Si la información de la muestra concuerda con la hipótesis de inocencia, no se puede rechazar la hipótesis nula relativa a que el acusado es
inocente. Sin embargo, si la información muestral no es consistente con la hipótesis de inocencia, se rechazará la hipótesis nula. En este caso, la
acción a tomar se basará en la hipótesis alternativa de que el acusado es culpable.

En resumen las características de la hipótesis nula:

 Se va a considerar como cierta hasta que se tenga suficiente evidencia de lo contrario.


 Siempre incluye el signo de igualdad.
 Es la base para el análisis estadístico de la prueba.

Características de la hipótesis alternativa:

 Es lo contrario a la hipótesis nula (incluye por lo tanto alguno de los siguientes símbolos: ≠, <, >).
 En general esta hipótesis se establece en términos de aquello sobre lo que se está buscando evidencia.
 Es la que define la dirección de la zona de rechazo.

4.2 Nivel de significación

Al tomar una decisión en una prueba de hipótesis, hay cuatro posibles resultados que pueden ocurrir; como se ilustra en el siguiente esquema:

Tabla: tipos de error en una prueba de hipótesis

Realidad de interes
Decision La hipótesis nula (Ho) es verdadera La hipótesis nula (Ho) es falsa
No rechazar la hipótesis nula No existe error Error del Tipo II
PROB= 1-α Confianza de la prueba PROB= β
Rechazar la hipótesis nula Error del Tipo 1 No existe error
PROB= α PROB= 1-β
Nivel de Significancia Potencia de la Prueba

Dos de los resultados involucran decisiones correctas, en tanto, dos de las decisiones involucran decisiones incorrectas:

 Rechazar Ho cuando es verdadera y no rechazar Ho cuando es falsa, son decisiones incorrectas.


 Rechazar Ho cuando es cierta se llama error Tipo I, y no rechazar Ho, cuando es falsa, se llama error Tipo II.

Se requiere disponer de alguna magnitud que mida la posibilidad de cometer alguno de estos errores. Esta medida es una probabilidad.

 La probabilidad de rechazar Ho, dado que Ho es verdadera, se define como la probabilidad del error Tipo I y se denota por α.
 La probabilidad de no rechazar Ho, dado que Ho es falsa, se define como la probabilidad del error tipo II y se denota por β.

Por tanto las probabilidades de los errores Tipo I y II están dadas por las proposiciones

 P (rechazar Ho | Ho verdadera) = α
 P (no rechazar Ho | Ho es falsa) = β

Tanto α como β son probabilidades condicionales. No pueden obtenerse las probabilidades de los errores Tipo I y II en un sentido absoluto, debido a
que el estado de la naturaleza no es conocido. Es decir, sólo puede calcularse la probabilidad α de rechazar Ho sólo si se asume que Ho cierta, o la
probabilidad β de equivocarse el rechazar Ho, si se asume que Ho es falsa.

Propiedades de α y β

1. El valor de α se fija al escoger la zona de rechazo.


2. El valor de β dependerá de la hipótesis alternativa que se escoja.
3. Para un tamaño muestral fijo, al aumentar la región de rechazo y por lo tanto α, β disminuye. Si α decrece, β aumentará.
4. Al aumentar el tamaño de la muestra α y β decrecen a la vez.

4.3 Etapas en el diseño de una prueba, distintos casos

Pasos a seguir en una prueba de hipótesis

1. Definir la Hipótesis nula H0 y la Hipótesis alternativa Ha

En la prueba de hipótesis, se debe establecer el valor que se presume (hipotetizado) del parámetro de población antes de estudiar la muestra. La
premisa que deseamos someter a prueba se conoce como hipótesis nula y se simboliza Ho.

De acuerdo con los datos muestrales la hipótesis nula se rechazará o no rechazará. Es muy importante comprender que no podemos aceptar la
hipótesis nula como verdadera, ya que para demostrar sin lugar a dudas que la hipótesis es verdadera necesitamos conocer el valor del parámetro de
la población. En cambio no rechazar implica que la evidencia muestral no es lo suficientemente contundente como para rechazarla.

En la hipótesis nula siempre se considera el signo de igual (=).

La hipótesis alternativa se refiere a la conclusión a la que se llegará si se rechaza a la hipótesis nula. También se conoce como hipótesis de
investigación. La hipótesis alternativa se considera válida si los datos de la muestra proporcionan suficiente evidencia estadística de que la hipótesis
nula es falsa (es decir, si es posible rechazar la hipótesis nula).

El signo de igual (=) nunca aparecerá en la hipótesis alternativa. Para la utilización de los estadísticos de prueba se tomará la hipótesis nula como
válida, a los fines de partir de una distribución conocida. La hipótesis alternativa se observa sólo si se demuestra que no es verdadera la hipótesis nula.

2. Seleccionar el estadístico de prueba que sea apropiado.

El estadístico es un valor que se calcula en base a la información de la muestra, y que se utiliza para determinar si se rechaza la hipótesis nula

3. Definir el nivel de significación y la zona de rechazo

El nivel de significación es la probabilidad de rechazar la hipótesis nula cuando es verdadera es a lo que se llama error Tipo I.

El nivel de significación se simboliza con α. Se le llama también nivel de riesgo.

No se puede determinar de antemano un único nivel de significación que se aplique a todas las pruebas. Generalmente se utilizan los niveles 0.05 (al
que nos solemos referir como un nivel del 5%), 0.01, 0.10, o cualquiera entre 0 y 1 a criterio del investigador responsable de la prueba.

La zona de rechazo corresponde a los valores del estadístico de prueba para los cuales se rechaza la hipótesis nula. La regla de decisión en la prueba
de hipótesis, puede establecerse considerando:

 El estadístico de prueba.
 La probabilidad.
 La distribución de probabilidad del estadístico utilizado en la prueba.

La zona de rechazo tiene una magnitud dada por α y una dirección dada por la hipótesis alternativa.

4. Calcular el estadístico de prueba a partir de los datos muestrales considerando H0 como verdadera
5. Decidir si H0 se rechaza o no se rechaza.
6. Obtener las conclusiones del problema.

Errores Tipo 1 y Tipo 2

La probabilidad del error Tipo I es igual al nivel de significación que se definió para someter a prueba la hipótesis nula. Hay una probabilidad (α) de que
seleccione una muestra al azar (probabilística) de la cual surja una media muestral comprendida en la región de rechazo o las regiones de rechazo. Si
surgiera tal valor, dado como indica la regla de decisión que debe procederse, se rechaza la hipótesis nula, pese a ser ésta verdadera, y estaríamos
cometiendo el error Tipo I. Cabe destacar que se rechazar porque resulta inverosímil (aunque no imposible) que surja tal valor como media muestral, si
es que es verdadera la hipótesis nula, y en función de este razonamiento está diseñada la regla de decisión.

El caso de la probabilidad del error tipo II es bastante diferente, ya que su determinación suele ser mucho compleja en la mayoría de las situaciones. La
única forma en que se puede determinar la probabilidad del error Tipo II (β) es con respecto a un valor específico incluido dentro del rango de la
hipótesis alternativa. Es decir, para cada valor posible (diferente del considerado en la hipótesis nula), se obtiene un valor diferente de la probabilidad
de cometer el error tipo II.

Prueba de hipótesis referida a la proporción poblacional

El procedimiento para probar una proporción en una población normal es prácticamente igual al presentado para las medias.

Podemos usar cualquiera de los siguientes dos métodos:

1. Calculando la región de rechazo ó


2. Analizando el valor P

1. Cálculo la Región de Rechazo

Digamos que p0 es la proporción que se desea comprobar.

 Paso 1 Establecer las hipótesis.

H0: p = p0

H1: p > p0 ó

p < p0 ó

p ≠ p0

 Paso 2 A partir del nivel de significación definido (α) indicar la región de rechazo en la curva normal estándar (curva z).
 Paso 3 Calcular el valor z para la proporción muestral ( ) usando la fórmula
 Paso 4 Dibujar este valor de z en el diagrama de la región de rechazo obtenido en el Paso 2.
 Paso 5 Si el valor z cae dentro de la región de rechazo (sombreada), entonces se rechaza H0. Si cae fuera de la región sombreada, entonces
no se rechaza H0.
 Paso 6 Escribir la conclusión de la prueba.

2. Calculo usando el Valor P

Dejemos que P0 sea la proporción proclamada por la denuncia de las organizaciones sociales.

 Paso 1 Establezca las hipótesis:

H0: P = P0

H1: P > P0 ó

P < P0 ó

p ≠ p0

 Paso 2 Calcule el valor z para la proporción muestral ( ) usando la fórmula.


 Paso 3 Usando la hipótesis alterna dibuja la región bajo la curva z que representa los valores extremos.
 Paso 4 El valor P = al área de la cola sombreada (s) en el Paso 3.
 Paso 5:

Si el valor P < α entonces rechaza H0

Si el valor P ≥ α, entonces no rechaces H0.

 Paso 6 Detallar la conclusión del problema.

4.3.2. Dos poblaciones: diferencia de medias, diferencia de proporciones

El procedimiento de prueba de hipótesis no tiene alteraciones en este tipo de pruebas respecto de lo presentado para las pruebas de medias y
proporciones.

La diferencia fundamental se vincula con la selección del estadístico apropiado en cada caso.

Diferencia de medias

En el caso de las pruebas sobre diferencias de medias se pueden distinguir dos situaciones generales básicas:

1. muestras independientes
2. muestras relacionadas o apareadas

Ambos tipos de situaciones tienen amplia utilidad para múltiples propósitos de aplicación en ciencias sociales.

Dos muestras son independientes si la aparición o selección de un individuo en una muestra no tiene ninguna relación con la aparición o selección de
ningún individuo o elemento en la otra muestra. Este caso se aplica cuando los individuos de cada una de las muestras pertenece a dos poblaciones
distintas, cuya diferencia de medias es el propósito principal de la prueba.

Por el contrario, decimos dos muestras están apareadas si la inclusión de un individuo en una de las muestras condiciona la selección de otro en la otra
muestra considerado, o bien, se analiza repetidamente información (generalmente a lo largo del tiempo) sobre un mismo individuo.

En el caso de muestras independientes, consideraremos dos pruebas de hipótesis referidas a las diferencias entre medias de ambas muestras,
teniendo en cuenta los supuestos que puedan considerarse.

Pruebas para diferencias de medias independientes

a) Prueba t de varianzas iguales

En el caso que puedan suponerse iguales las varianzas (aunque desconocidas), se procede a utilizar este procedimiento.

Supuestos:

 Las muestras fueron tomadas de manera independiente y al azar de sus respectivas poblaciones
 Las poblaciones se distribuyen normal
 Las varianzas son iguales:

Los subíndices indican en este caso las respectivas muestras 1 y 2. Debe tenerse en cuenta que la diferencia entre medias (especialmente importante
para el caso de pruebas unilaterales en las que se aplica el mismo estadístico, con procedimiento análogo de adaptación de las pruebas al caso
unilateral), debe realizarse en el mismo orden para las medias muestrales y poblacionales.

b) Prueba t para varianzas distintas

Cuando no es posible asegurar que las varianzas de ambas poblaciones son iguales (y en particular, cuando así lo permite aseverar un test realizado
para someter a contraste la igualad de tales varianzas), se procede modificando el estadístico de prueba.

Pruebas para diferencias de medias relacionadas o apareadas

El caso de las muestras relacionadas es de amplia utilización cuando se necesita disponer de comparaciones entre sujetos con muy poca variabilidad
entre sí (estudios de gemelos por ejemplo) o en pruebas sucesivas repetidas (estudios “antes y después” sobre un mismo sujeto).

En este caso, analizamos la diferencia específica para el par de observaciones apareadas, que denominaremos D.

Esta diferencia para cada par de datos que estamos estudiando representa las diferencias uno a uno.
4.3.3. Diferencia de medias de más de dos poblaciones

Análisis de varianza

El análisis de varianza o como es más conocido, ANOVA, sus siglas de la denominación en inglés: ANalysis Of VAriance, examina dos o más conjuntos
de datos, en particular sus varianzas, e intenta detectar diferencias estadísticamente representativas entre las medias de dichos conjuntos.

En general, el propósito del ANOVA es probar si existen diferencias significativas entre medias. Si sólo comparamos dos medias, el ANOVA producirá
el mismo resultado que la prueba t para muestras independientes (si estamos comparando dos grupos diferentes de casos u observaciones) o la
prueba t para muestras dependientes (si estamos comparando dos variables en un conjunto de casos u observaciones).

Produce un resultado realmente novedoso y útil cuando lo utilizamos para comparar las medias de tres o más grupos.

El método de análisis de varianza se basa en el hecho de que hay una diferencia entre los grupos sólo si la varianza intergrupos es mayor que la
varianza intra-grupo.

El análisis se inicia calculando la varianza intra-grupo para cada grupo, y la media de todas estas varianzas de grupo.

La separación de la suma de cuadrados

La idea básica del ANOVA es el hecho de que las varianzas pueden ser divididas, es decir separadas. Se debe recordar que la varianza se calcula
como la suma de desviaciones al cuadrado respecto de la media general (o gran media), dividida por n-1 (el tamaño de la muestra menos uno). Por
eso, dado un cierto n, la varianza es una función de las sumas de cuadrados (de desvíos), a la cual denominaremos SS.

Lógica básica del ANOVA

El propósito del análisis de varianza es probar si son estadísticamente significativas las diferentes en las medias para tres ó más grupos de casos.

Para ello se analiza la varianza, particionándo la varianza total en sus componentes: el que se debe al error aleatorio (Suma de cuadrados dentro de los
grupos) y el que se debe a las diferencias entre las medias (Suma de cuadrados entre los grupos).

Estos componentes de la varianza son sometidos a la prueba de significación estadística, y si resulta significativa, se rechaza la hipótesis nula referida
a la no existencia de diferencia entre las medias y se concluye que hasta nueva evidencia se mantiene como válida la hipótesis alternativa referida a
que las medias de la población son diferentes entre sí (o más precisamente, que al menos una de las medias consideradas lo es).

Glosario Modulo 3

 Alfa (α): o nivel de significación, probabilidad de cometer un error Tipo I.


 ANOVA (análisis de varianza): procedimiento de prueba de hipótesis para estudios que incluyen más de dos grupos.
 Beta (β): Posibilidad de cometer el error Tipo II en la prueba de hipótesis.
 Distribución t de Student: Distribución teórica de probabilidad. Se usa para la comparación de dos medias en poblaciones independientes y
normales.
 Error Tipo I: Error de rechazar la hipótesis nula siendo ésta verdadera.
 Error Tipo II: Error de no rechazar la hipótesis nula siendo ésta falsa.
 Estadístico de prueba: Estadístico cuyo valor ayuda a determinar si se rechaza la hipótesis nula.
 Hipótesis nula: hipótesis que se supone tentativamente verdadera.
 Hipótesis alternativa: hipótesis que se concluye verdadera cuando se rechaza la hipótesis nula.
 Potencia: probabilidad de rechazar adecuadamente Ho cuando ésta es falsa.
 Prueba bilateral: Prueba de hipótesis en la que la significación se reparte entre las dos colas de la distribución.
 Prueba unilateral o de una cola: Toda la significación se ubica en una cola de la distribución.
 P-valor: probabilidad dada por la muestra, contra la hipótesis nula. Mientras menor sea p, mayor es la evidencia en contra de Ho.
 Valor crítico: Valor que se compara con el estadístico de prueba para determinar si se rechaza o no la Ho.

MODULO 4

5 RELACIONES ENTRE VARIABLES

Cuando se consideran dos variables, aparecen diferentes formas de medir su posible interrelación.

El siguiente cuadro, da una visión ordenadora de los principales indicadores que recorreremos en este módulo, como así también de algunos que
exceden el alcance de este curso, pero pueden ser útiles y deberían ser explorados en detalle, si son requeridos en investigaciones específicas.

Cuadro: Medidas de asociación y niveles de medición

Variable independiente
Nominal Ordinal Intervalo o de razón
Variable Nominal Tablas cruzadas Tablas cruzadas
dependiente Chi Cuadrado Chi Cuadrado
Lambda Lambda
Ordinal Tablas cruzadas Tablas cruzadas
Chi Cuadrado Chi Cuadrado
Lambda Lambda
Gamma
Tau de Kendall
D de Sommers
Intervalo o de razon Medias Medias Correlacion
Prueba t Prueba t R de Pearson
ANOVA ANOVA Regresion

5.1 Tablas de análisis para la relación entre variables

La prueba de independencia permite establecer si existe o no relación entre variables medidas en escala nominal, cada una de las cuales posea dos o
más categorías.
La prueba Chi cuadrada es una prueba de carácter general que se utiliza cuando se desea determinar si las frecuencias absolutas obtenidas en la
observación (como en la tabla del ejemplo previo), difieren significativamente o no de las que se esperarían bajo cierta hipótesis planteada de
interrelación de las categorías de las variables consideradas.

A los fines de corroborar si tal observación puede sostenerse, o bien si se trata sólo de una casualidad presente en los datos de la muestra, la prueba
Chi cuadrado permite someter a contraste las siguientes hipótesis:

H0:

Las variables son independientes entre sí (es decir, no tienen relación)

H1:

Las variables no son independientes.

Observe que si bien estamos interesados en considerar la vinculación entre las variables, la hipótesis nula parte del supuesto neutral de no relación o
independencia.

En el caso de rechazar la hipótesis nula, detectaremos la relación que suponemos que existe, que motivó el estudio.

El estadístico justamente considerará esta situación, en la cual, si los valores observados se distancian significativamente del valor esperado bajo el
supuesto de independencia, el estadístico resultará en un valor elevado (ubicado en la zona de rechazo), y se rechazará la hipótesis nula. El estadístico
Chi cuadrado está dado por:

( )

Este estadístico se distribuye Chi cuadrado con (c-1).(f-1) grados de libertad.

Donde

F0: frecuencias observadas

Fe: frecuencias esperadas

c= número de columnas

f= número de filas

5.2 Coeficientes de asociación

Medidas de fuerza de la relación

A partir del prueba de independencia sólo podemos afirmar si existe o no relación entre las variables.

En el caso de detectar (rechazando la hipótesis nula de la prueba de independencia) que existe relación, podemos estar interesados a su vez en
conocer en qué medida se relacionan las variables.

5.2.1 V de Cramer

La V de Cramer es la medida basada en el estadístico Chi cuadrado más popular de las correspondientes a la asociación entre variables nominales
debido a que da un indicador buen ubicado entre 0 y 1 ajustado al tamaño de la tabla.

V es igual a la raíz cuadrada de Chi cuadrado dividido por el tamaño de la muestra por el mínimo entre el número de filas menos 1 y el número de
columnas menos 1.

¿Cómo se interpreta la V de Cramer?

V puede ser vista como la asociación entre dos variables como un porcentaje de su máxima variación posible.

¿Qué significa la asociación medida por V en sus valores extremos?

V define una relación perfecta como aquella que es predictiva (o monotónicamente ordenada), y define una relación nula como la independencia
estadística. Da valores entre 0 y 1. El 0 corresponde a ausencia de asociación y 1 a asociación perfecta.

Otras características de V:

 La significación de V es la misma que la de la Chi cuadrado. En el caso del uso del paquete SPSS, este la reporta como un resultado junto
con el cálculo de V.
 Simetría: V es una medida simétrica. No se ve afectada por cual es la variable independiente.
 El coeficiente V de Cramer se utiliza cuando la variable de menor nivel es nominal.

5.2.2 Q de Kendall

El Coeficiente Q de Kendall (conocido también como Q de Yule) mide la asociación entre dos variables a nivel nominal u ordinal y se usa para tablas de
contingencia de dos columnas por dos renglones. Este indicador es un caso especial del conocido indicador Gamma para variables ordinales.

Los valores que puede alcanzar oscilan entre - 1 y + 1; cuando es igual a -1 indicará una completa disociación entre las variables, y si es igual a +1
mostrará una asociación total.

En caso de que el valor sea igual a cero, se concluye que no hay asociación o relación entre las variables, lo cual es la diferente al hecho de que exista
una disociación.

5.2.3 r de Spearman y de Pearson

Para las variables cuantitativas o numéricas (tanto intervalares como medidas en escalas de razón), podemos calcular como medidas de la asociación
entre ellas, diferentes coeficientes que permiten cuantificar la correlación entre sí.

Coeficiente de correlación por rangos de Spearman


Este coeficiente es una medida de asociación lineal que utiliza los rangos, números de orden, de cada grupo de sujetos y compara dichos rangos.

El denominado rho de Spearman es análogo al coeficiente de correlación de Pearson, que presentaremos a continuación, pero en este caso calculado
sobre el rango de observaciones.

Esta diferencia implica que la correlación estimada entre las variables X e Y corresponda en este caso a diferencias entre dados apareados. El
coeficiente de correlación de Spearman es recomendable para situaciones en las que los datos presentan valores externos, lo que los valores afectan
demasiado el coeficiente de correlación de Pearson, o para el caso de distribuciones no normales.

Interpretación del coeficiente de correlación de Spearman:

 Los valores próximos a 1 indican una correlación fuerte y positiva.


 Los valores próximos a –1 indican una correlación fuerte y negativa.
 Valores próximos a cero indican que no hay correlación lineal.

Coeficiente de correlación por rangos de Spearman

La medida de la relación lineal entre dos variables cuantitativas, se estudia por medio del cálculo del coeficiente de correlación de Pearson.

Interpretación de los resultados:

Este coeficiente brindará valores entre –1 y +1.

 Cuando el valor tiende a 1, la asociación positiva es elevada. Un valor de 1 indica una relación lineal positiva perfecta.
 Cuando el valor tiende a -1, la asociación negativa es elevada. Un valor de -1 indica una relación lineal negativa perfecta.
 Una correlación próxima a cero indica que no hay relación lineal entre las dos variables.

El coeficiente de correlación posee las siguientes características:

El valor del coeficiente de correlación es independiente de cualquier unidad de medida usada para medir las variables. Esto implica que el coeficiente
es una magnitud que no posee una unidad de medida propia.

El valor del coeficiente de correlación se altera de forma importante ante la presencia de un valor extremo.

El coeficiente de correlación mide solo la relación lineal. Dos variables pueden tener una relación no lineal fuerte, a pesar de que su correlación sea
pequeña. Por tanto cuando se consideren las relaciones entre dos variables debe preliminarmente partir de su representación gráfica y luego calcular el
coeficiente de correlación.

El coeficiente de correlación no se debe extrapolar más allá del rango de valores considerado para su cálculo ya que la relación existente entre X e Y
puede cambiar fuera de dicho rango.

La correlación no implica causalidad. La causalidad requiere más información que un simple valor cuantitativo de un coeficiente de correlación y
especialmente trabajarse a partir de los modelos teóricos propios de cada disciplina.

El coeficiente de correlación de Pearson puede calcularse en cualquier grupo de datos.

La validez del test de hipótesis sobre la correlación entre las variables exige el cumplimiento de los siguientes supuestos:

a. Que ambas variables correspondan a una muestra aleatoria de individuos.


b. Que al menos una de las variables tenga una distribución normal en la población de la cual la muestra procede.

El coeficiente de correlación puede arrojar valores entre –1 y +1, en tanto el valor 0 indica que no existe asociación lineal entre las dos variables a
estudio.

5.3 La forma de la relación: el modelo lineal

Un modelo aplicable para analizar la relación entre dos variables es el modelo de regresión. La utilización del modelo de regresión lineal está muy
difundida en las Ciencias Sociales, en particular, porque permite describir una serie muy amplia de fenómenos (comportamiento de los individuos,
reacciones de los consumidores, decisiones económicas, entre otros).

El análisis de regresión lineal tiene como finalidad explorar y cuantificar la relación entre variables, una llamada dependiente (Y) y una o más variables
independientes. En el caso de utilizar una sola variable independiente o explicativa, estamos frente a una regresión lineal simple, en tanto si las
variables explicativas o independientes son dos o más, el análisis se denomina regresión lineal múltiple.

Cabe señalar que una de las aplicaciones más destacadas del modelo es la de realizar predicciones y pronósticos acerca de la variable dependiente,
teniendo en cuenta valores de las variables explicativas o independientes.

En el caso de este modelo, deben considerarse además de las técnicas de estimación, una serie de pruebas de diagnóstico (análisis de residuos,
análisis de influencia, etc.) cuyo cumplimiento es necesario para obtener estimaciones adecuadas.

El diagrama de dispersión

Un gráfico que nos permite visualizar de manera sencilla la posible existencia de una relación entre las variables de interés, es el diagrama de
dispersión. Este gráfico consiste en la colección de puntos en un diagrama de ejes cartesianos, donde los valores de la variable dependiente se
representan en las ordenadas y los de la variable independiente en las abcsisas. Cada punto del gráfico se indica con las coordenadas del mismo
representado como par ordenado (x, y). El conjunto de puntos surgidos de graficar todos los datos disponibles recibe el nombre de nube de puntos.

Lo que el diagrama de dispersión da la posibilidad de observar, es la forma de la relación, en términos no estrictos (en el sentido que siempre
necesitaremos los test y estimaciones estadísticas), pero es un buen punto de partida, por ejemplo, para preliminarmente analizar si la línea recta será
una aproximación aceptable de la relación o no.

La relación puede sintetizarse de manera que represente una línea recta de la siguiente manera:

Los coeficientes α y β son los que definen la recta. El coeficiente α representa la ordenada al origen, es decir, el punto en que la recta corta al eje
vertical. El coeficiente β es la pendiente de la recta, el cual indica el cambio experimentado en la variable Y cuando se produce cierto incremento en la
variable X.
Supuestos del modelo de regresión lineal

1. Linealidad

Debe verificarse que la forma de la ecuación que describa la relación entre X e Y sea lineal.

2. Normalidad

Las distribuciones de los valores de Y para valor de X deben ser normales.

3. Homocedasticidad

La variabilidad de los valores de la variable dependiente Y es igual para cualquier valor de la variable X.

La violación de este supuesto es más frecuente cuando se trabaja con obsrvaciones correspondientes a datos de corte transversal.

4. Independencia de errores

Los residuos o errores (las diferencias entre los valores pronosticados y los observados realmente), deben ser independientes entre sí.

La violación de este supuesto es más frecuente cuando se trabaja con datos correspondientes a series de tiempo.

Bondad de ajuste

Para poder afirmar que el resultado de la regresión es adecuado, necesitamos contar con algún indicador del grado en que la recta ajusta
acertadamente a la nube de puntos. En particular estamos pensando en un indicador del grado de fidelidad con que la recta obtenida por el método de
mínimos cuadrados describe la relación existente entre los datos.

La medida de aplicación más generalizada corresponde al coeficiente de determinación o R2.

Este indicador corresponde al cuadrado del coeficiente de correlación. Es una medida estandarizada que asume valores entre 0 y 1:

 0 cuando las variables son independientes


 1 si la relación captada por la recta es perfecta

El R2 nos permite medir cuánto podemos explicar los valores de la variable dependiente basándonos en el conocimiento de otras variables y de su
relación. Mide más precisamente, la relación entre la variabilidad de la variable dependiente explicada por el modelo (lo cual incluye la variable
independiente y la forma lineal de su relación con la dependiente), respecto de la variabilidad total de la variable dependiente.

Glosario Modulo 4

 Coeficiente de correlación (r): promedio de los productos cruzados de las puntuaciones estandarizadas de dos variables. Medida del grado
de correlación lineal, en el rango [-1; 1].
 Coeficiente de correlación múltiple (R): medida de la asociación general entre una variable dependiente y la combinación de dos o más
variables de predicción. Raía cuadrada positiva del R2.
 Coeficiente de Determinación (R2): Cuadrado del coeficiente de correlación. Este estadístico indica la proporción de la variabilidad de una
variable (la variable dependiente), que es explicada conociendo un valor de una o más variables (las variables independientes).
 Coeficiente de regresión (b): coeficiente en un modelo de predicción (ecuación de regresión).
 Constante de regresión (a): número fijo determinado que se agrega a la predicción en un modelo de predicción (ecuación de regresión).
 Diagrama de dispersión: gráfico que refleja la relación entre dos variables.
 Error: en la predicción, es el registro real menos el registro predicho.
 Independencia: Cuando no existe una relación sistemática entre dos variables.
 Método de mínimos cuadrados: método para obtener los coeficientes del modelo de regresión, basado en minimizar las distancias al
cuadrado entre la recta de regresión y el valor observado, para cada valor de la/s variable/s independiente/s.
 Multicolinealidad: en la regresión múltiple, cuando las variables independientes (predictoras) están correlacionadas entre sí.
 Tabla de contingencia: cuadro de dos dimensiones que muestra las frecuencias en las que cada combinación de categorías de dos
variables ocurren.
 Variable Dependiente: la variable del desenlace de interés en cualquier tipo de estudio. El desenlace o resultado que uno pretende explicar
o estimar.
 Variable Independiente: Variable que se mide para determinar el valor correspondiente de la variable dependiente en cualquier tipo de
estudio. Las variables independientes definen las condiciones bajo las cuales se examinará la variable dependiente.
MODULOS 3 Y 4

4.1 Un valor de R2 que tiende a 1 indica

QUE LA RELACION LINEAL TIENDE A SER EXACTA

4.1 Que distribución tiene el estadístico de prueba en el caso de una prueba sobre el valor de
la media poblacional con varianza poblacional coincida?

NORMAL

4.1 En una prueba de hipótesis referida a la varianza cuantos grados de libertad tiene el
estadístico?

NO PUEDE DETERMINARSE CON LA INFORM. DISPONIBLE

4.1 Indicar cual es la afirmación correcta

EL COEFICIENTE DE CONFIANZA 1-a INDICA LA PROBABILIDAD DE RECHAZAR LA H-0 CUANDO


ESTA ES FALSA-

4.1 La hipótesis nula

CONSISTE EN DEFINIR DE MANERA CORRECTA CUAL VA A SER LA HIPOTESIS QUE QUEREMOS


SOMETER A CONTRASTE O PRUEBA .

(4.1) En todos los casos y ejercicios de pruebas de hipótesis se deben desarrollas una serie de
pasos. El segundo de ellos es: seleccionar el estadístico de prueba que sea apropiado.

(4.1) El error tipo II está implicado en:

EL NO RECHAZO DE LA HIPOTESIS NULA CUANDO ESTA ES FALSA.RIESGOS CONSIDERADOS EN


LA PRUEBA DE HIPOTESIS

4.1 Si se desea disminuir la probabilidad de cometer un error de tipo II debería

AUMENTAR EL NIVEL DE SIGNIFICACION

(4.1) ¿Cuándo se comete el error tipo I? cuando la hipótesis nula es cierta, pero se la rechaza.

(4.1) En la hipótesis nula siempre aparece:

(4.1) Cuando las dos muestras se han construido de manera que la inclusión de un individuo
en una de las muestras condiciona la selección de otro en la otra muestra considerado:

(4.1) En todos los casos y ejercicios de prueba de hipótesis se debe desarrollar una serie de
pasos, el primero de ellos es: Planteamiento de hipótesis definir la hipótesis nula y la
hipótesis alternativa.

4.1 En todos los casos y ejercicios de prueba de hipótesis se debe desarrollar entre otros los
siguientes pasos
TODAS LAS OPCIONES SON CORRECTAS,.

4.1 En todos los casos y ejercicios de prueba de hipótesis se debe desarrollar una serie de
pasos, el segundop de ellos es

ESTABLECER LA HIPOTESIS ALTERNATIVA

(4.1) Si en una prueba de hipótesis, con todo lo demás constante, se decide disminuir la
probabilidad de cometer un error tipo I, ¿Qué se espera que ocurra?: aumenta la probabilidad
del error tipo II. Cuándo disminuye la probabilidad del error tipo uno aumenta la
probabilidad del error tipo 2.

(4.1) La duración promedio de los televisores de cierta marca es de 7 años, según la garantía
del fabricante. Para una muestra aleatoria de 35 televisores al azar de esa marca de una tienda
minorista, la duración promedio medida fue de 6,2 años con una desviación estándar de 2
años. Con una significación de 0,05, si se desea corroborar si la duración de los televisores
recibidos por la tienda es idéntica a la declarada por la marca, ¿Qué hipótesis nula se plantea?:

el riesgo B (beta) es: la probabilidad de cometer un error tipo II

4.1) La duración promedio de los televisores de cierta marca es de 7 años, según la garantía del
fabricante. Para una muestra aleatoria de 35 televisores al azar de esa marca de una tienda
minorista, la duración promedio medida fue de 6,2 años con una desviación estándar de 2
años. Con una significación de 0,05, si se desea corroborar si la duración de los televisores
recibidos por la tienda es idéntica a la declarada por la marca, ¿Qué TIPO DE PRUEBA SE
DESARROLLA

UNA PRUEBA DE HIPOTESIS BILATERAL SOBRE LA MEDIA POBLACIONAL

(4.1) ¿Cuál es el propósito principal de una prueba de hipótesis?: El propósito de la prueba de


hipótesis no es cuestionar el valor calculado del estadístico (muestral), sino hacer

Un juicio con respecto a la diferencia entre estadístico de muestra y un valor planteado del
parámetro. (Extraído de la web)
(4.1) ¿Qué se pregunta habitualmente, cuando se obtiene medidas de resumen de muestras
correspondientes a dos poblaciones?:

(4.1) La potencia tiene una probabilidad: (rechazar una hipótesis nula)

4.1 EL CONCEPTO LA SENSIBILIDAD QUE ESTA TIENE PARA DETECTAR SITUACIONES EN LAS
CUALES CORRESPONDE RECHAZAR LA HIPOTESIS NULA POR SER ESTA FALSA HACE
REFERENCIA A

LA POTENCIA DE LA PRUEBA.
4.1 la potencia de la prueba es

LA SENSIBILIDAD QUE ESTA TIENE PARA DETECTAR SITUACIONES EN LAS CUALES


CORRESPONDE RECHAZAR LA 1-SENSIBILIDAD QUE ESTA TIENE PARA DETECTAR
SITUACIONES EN LAS CUALES CORRESPONDE RECHAZAR LA HIPOTESIS NULA POR SER ESTA
FALSA.

4.1 LOS PASOS CORRESPONDIENTES A UNA PRUEBA DE HIPOTESIS UTILIZANDO EL VALOR P


SE SINTETIZAN ENTRE OTROS EN…

TODAS LAS OPCIONES SON CORRECTAS.

(4.1) La hipótesis alternativa: HIPOTESIS QUE SE CONCLUYE VERDADERA CUANDO SE RECHAZA


LA HIPOTESIS NULA

 Siempre es una negación de la hipótesis nula.

4.1 QUE SUGIERE EL DIAGRAMA DE DISPERSION?

4.1 Como se denomina la región de rechazo?

REGION CRITICA POR DEFINICION

4.1 CUAL DE LAS SIGUIENTES AFIRMACIONES ES CORRECTA?

TANTO LAS PRUEBAS DE HIPOTESIS COMO LA ESTIMACION POR INTERVALOS SE DERIVAN DE


LOS CONCEPTOS QUE MUESTRA ,VINVULACION ENTRE LA PRUEBA DE HIPOTEIS Y LA
ESTIMACION POR INTERVALO

5.1 un coeficiente de correlacion a tiende a 0 indica

QUE LA CORRELACION ES MODERADA

5.1 SI LA RELACION ENTRE DOS VARIABLES ES POSITIVA ,LA PENDIENTE SERA

POSITIVA ,SI LA RELACION ENTRE DOS VARIABLES ES NEGATIVA ,LA PENDIENTE SERA POSITIVA

5.1 Indicar cual de las siguientes afirm es correcta

LA HIPOTESIS ALTERNATIVA ES UNA PRUEBA DE INDEPENDENCIA INCLUYE LAS VARIABLES


CONSIDERADAS NO SON INDEPENDIENTES

5.1 CUAL ES LA HIPOTESIS ALTERNATIVA EN UNA PRUEBA DE INDEPENDENCIA:

LAS VARIABLES CONSIDERADAS NO SON INDEPENDIENTES


5.1 El supuesto de homocedastacidad en la regresión implica:

que la variable dependiente posee igual dispersión respecto de su media para los diferentes
valores de la variable independiente.

5.1 Según el supuesto de independencia de error ¿Cuáles no están relacionados?

EL TERMINO DE ERROR CON LOS VALORES DE LA VARIABLE INDEPENDIENTE.

5.1 EL ESTADISTICO DE PRUEBA EN UNTEST DE BONDAD DE AJUSTE PUEDE ASUMIR VALORES

NO NEGATIVOS.

5.1 SE PUEDE AFIRMAR QUE

LA ZONA DE RECHAZO EN LA PRUEBA ANOVA SE UBICA: EN LOS VALORES MAS ELEVADOS DE


LA VARIABLE DE PRUEBA.

(5.1) El objetivo del análisis de correlación es:

5.1 Que sugiere el siguiente diagrama de dispersión? (hay un gráfico de dispersión)

(5.1) En la prueba de independencia, ¿Cuántos grados de libertad tiene el estadístico de


prueba?: (c-1) (r-1)

(5.1) Si la relación entre dos variables es negativa, la pendiente será: negativa, decreciente (en
duda)

(5.1) Según el supuesto de independencia de error en la regresión, ¿Cuáles de los siguientes


NO deben estar relacionados?:

-Si una prueba de hipótesis, con todo lo demás constante, se decide disminuir la probabilidad
de cometer un Error tipo 1 ¿Qué se espera que ocurra? Aumenta la probabilidad del error de
tipo2
¿Qué distribución tiene el estadístico de prueba sobre el valor de la media poblacional, con
varianza poblacional conocida? Normal

El diagrama de dispersión permite visualizar de manera sencilla la posible existencia de una...:


relación entre las variables de interés.
La idea básica del ANOVA: es el hecho de que las varianzas pueden ser divididas, es decir,
separadas.
(5.1) ¿Dónde se ubica la zona de rechazo en una prueba de bondad de ajuste?:

 En los valores más elevados de la variable de prueba.


 En los valores más reducidos de la variable de prueba.
 En los valores intermedios de la variable de prueba.
 En los valores más elevados y los más reducidos de la variable de prueba.
 No puede determinarse de manera general.

(5.1) ¿Qué distribución sigue el estadístico de una prueba de independencia?

 Chi cuadrado

5.2.3 SI EN UNA PRUEBA CHI-CUADRADO LA DIFERENCIA ENTRE LAS FRECUENCIAS


OBSERVADAS Y LAS ESPERADAS ES MUY PEQUEÑA ,PODRIA INFERIR QUE:

ES PROBABLEMENTE NO HAY RELACION ENTRE LAS VARIABLES INVOLUCRADAS.

5.2.3 EL ANALISIS DE LA INTENSIDAD DE LA RELACION ENTRE DOS VARIABLES METRICAS PUEDE


HACERSE CON UN COEFICIENTE

COEFICIENTE DE ASOCIACION :MEDIDAS DE FUERZA DE LA RELACION A PARTIR DE LA PRUEBA


DE INDEPENDENCIA Y EN CASO DE DETECTAR (RECHAZANDO LA HIPOTESIS NULA DE LA
PRUEBA DE INDEPENDENCIA) QUE EXISTE RELACION ESTABLECER VARIABLES.

6.1 SI ganamos $ 6 cuando de un dado cae en 1 o 2 y perdemos $ 3 cuando cae 3.4.5 o 6 la


varianza es

18 , ESTE VALOR SURGE DE APLICAR LA FORMULA DE LA VARIANZA DE UNA DISTRIB DE


PROBABILIDADES DE UNA VARIABLE ALEATORIA

6.2 EL DIRECTOR DE UN AEROPUERTO INDICA QUE EN PROMEDIO SE PRODUCEN EN ESE


AEROPUERTO EL ATERRIZAJE DE TRES VUELOS INTERNACIONALES POR DIA, SE SOLICITA
INDIQUE LA PROBABILIDAD DE QUE EN UN DIA DETERMINADO SE TENGA EXACTAMENTE EL
AMBITO DE TRES VUELOS INTERNACIONALES

ES 0.224 ,LA SITUACION PLANTEADA RESPONDE AL MODELO DE POISSON

6.3 SEA Y una variable aleatoria binomial calcule P(Y=12) cuando n=20 y P=0.7

0.1144 seria la combinatoria de 20 elementos tomados de 12 por 0.70 elevados a la doceava


potencia por 0.3 elevado a la octava potencia)

6.4 LA DISTRIBUCION DE POISSON SE PUEDE UTILIZAR PARA APROXIMAR LA DISTRIBUCION


BINOMIAL

CUANDO EL TAMAÑO DE LA MUESTRA ES DE AL MENOS 20 Y LA PROBABILIDAD DE ÉXITO


COMO MAXIMO 0.05

6.5.1 indique cual de las sig afirmaciones es falsa


EL DESVIO ESTANDAR ES IGUAL A LA MEDIA.

6.5.2 DE UN TOTAL DE SEIS EMPLEADOS ,TRES HAN ESTADO CON LA EMPRESA DURANTE
CINCO O MAS AÑOS, SI SE ELIGEN CUATRO EMPLEADOS AL AZAR DE ESE GRUPO LA
PROBABILIDAD DE QUE EXACTAMENTE DOS DE ELLOS TENGAN UNA ANTIGÜEDAD DE POR LO
MENOS CINCO AÑOS ES :

0.60 POR QUE LA PROB SE OBTIENE APLICANDO EL MODELO HIPERGEOMETRICO

6.5.2 de unacomision de economía conformada por tres integrantes del partido mayoritario
,dos pertenecientes a la primera minoría y uno perteneciente a la segunda minoría ,a los
efectos de confeccionar un resumen de todo lo actuado por la comisión es necesario designar
a tres de ellos , si la elección se afecta de manera aleatoria indique ud. La probabilidad de que
en la subcomisión designada se tenga exactamente a 2 miembros del partido mayoritario

0.45 POR QUE SE OBTIENE APLICANDO EL MODELO HIPERGEOMETRICO(3C2*3C1)=/6C3=0.45

7 ENTRE LAS PROPIEDADES MATEMATICAS DE LA MEDIA ARITMETICA PARA UNA DISTIBUCION


NORMAL PODEMOS MENCIONAR LAS SIGUIENTES:

IMPARCIALIDAD, EFICIENCIA Y CONISTENCIA POR QUE TAL COMO SE INDICA EN ESTADISTICA


BASICA DE BERENSON.

7.2 INDICAR CUAL DE LAS SIG. AFIRMACIONES ES CORRECTA

CON LAS MEDIAS DE TODAS LAS MUESTRAS SE PUEDE GENERAR UNA NUEVA DISTRIBUCION LA
QUE DENOMINAREMOS DISTRIBUCION DE MEDIAS MUESTREALES.(DISTRIBUCION DE MEDIAS
MUESTRALES)

7.3.1 SI SE TIENE UNA POBLACION CON MEDIA M=60 Y UN DESVIO ESTANDAR, SIGMA= 10,
ENTONCES EL ERROR ESTANDAR DE LA MEDIA PARA MUESTRAS DE TAMAÑO 49 ES

1.43 , HAY QUE APLICAR LA EXPRESION MATEMATICA DEL ERRROR ESTANDAR

= SIGMA/RAIZ(n)= 10/RAIZ(49)

7.3.1 EL DPTO. DE RRHH. DE UNA PLANTA INDUSTRIAL CON 2500 OPERARIOS INFORMA QUE
LA EDAD PROMEDIO DE SUS EMPLEADOS ES DE 36 AÑOS CON UN DESVIO ESTANDAR DE 3
AÑOS ,SI SE TOMA UNA MUESTRA DE 50 EMPLEADOS AZAROSAMENTE ,INDIQUE LA
PROBABILIDAD DE QUE LA EDAD PROMEDIO DE ESA MUESTRA SEA INFERIOR A LOS 35
AÑOS

0.5

7.4.1 PARA DETERMINAR EL TAMAÑO DE LA MUESTRA DEBEN CONOCERSE TRES FACTORES :

EL NIVEL DE CONFIANZA DESEADO, QUE DETERMINA EL VALOR DE Z, QUE ES EL VALOR


CRITICO DE LA DISTRIBUCION NORMAL, EL ERROR DE MUESTREO PERMITIDO,Y LA
DESVIACION ESTANDAR

7.5 LA MEDIA DE LA MUESTRA PUEDE CONSIDERARSE


UNA ESTIMACION PUNTUAL DE LA MEDIA POBLACIONAL

7.5 LOS METODOS PARA REALIZAR ESTIMACIONES SON

ESTIMACION PUNTUAL Y ESTIMACION POR INTERVALOS

7.5 EN UNA ESTIMACION POR INTERVALO CON EL 95% DE CONFUANZA PARA LA MEDIA
POBLACIONAL ,EL LIMITE SUPERIOR DE ESTIMACION RESULTO SER DE 120 PARA UNA
MUESTRA DE TAMAÑO 36 CON DESVIACION ESTANDAR POBLACIONAL IGUAL A 4 ,LUEGO LA
ESTIMACION PUNTUAL DE LA MEDIA POBLACIONAL VALE

118.69 O SEA Ls=M+e y M = Ls-eM =120-1.306= 118.69

7.6 un a estimación se dice que es de intervalo cuando

AL PARAMETRO SE LE ASIGNA UN VALOR DENTRO DE UN INTERVALO DE NUMEROS REALES.

7.7 EL GERENTE DE CONTROL DE CALIDAD DE UNA FABRICA DE LAMPARAS ELECTRICAS


DESEA ESTIMAR LA DURACION PROMEDIO DE UN EMBARQUE DE LAMPARAS FOCOS. SE
SELECCIONA UNA MUESTRA ALEATORIA DE 64 FOCOS ,LOS RESULTADOS INDICAN UNA
DURACION PROMEDIO DE LA MUESTRA DE 540 HORAS CON UNA DESVIACION ESTANDAR DE
120 HS. ,ESTABLESCA UNA ESTIMACION PROMEDIO CON INTERVALO DE CONFIANZA DE 95 %
DE LA DURACION PROMEDIO REAL DE LOS FOCOS DE ESTE EMBARQUE:

(510.60; 569.40)

7.7 DE un total de 1700 telefonos celulares se toma una muestra de 49 obteniendo se una
media de $ 624 y una desviación de $ 102 ,el intervalo de confianza del 98% para estimar el
precio promedio de todos los celulares es

(594.44;652.56)

7.7 un fabricante de esquís de nieve desea estimar el numero promedio de viajes que
realizan los esquiadores ávidos. Una muestra de 1100 esquiadores de un promedio de 15.3
viajes por temporada, con una desviación estándar de 5.1 viajes, el intervalo de confianza
del 99% para estimar la media poblacional es

(14.90;15;70)
METODOLOGIA DE ANALISIS DE DATOS CUANTITATIVOS / PREGUNTERO SEGUNDO PARCIAL

1. (4.1) El concepto “la sensibilidad que esta tiene para detectar situaciones en las cuales corresponde rechazar la hipótesis nula por
ser esta falsa” hace referencia a:

La potencia de la prueba.

2. (4.1) Si en una prueba de hipótesis el error tipo II es .035, quiere decir qué:

Hay una probabilidad de .035 de aceptar la hipótesis nula si esta es falsa.

3. (4.1) La probabilidad asociada al coeficiente de confianza está dada por:

1–α

4. (4.1) ¿Cómo se denomina la región de rechazo?

Región critica

5. (4.1) En una prueba de hipótesis la hipótesis alternativa H1 es aquella que:

Plantea la conclusión a la que se llegaría si hubiera suficiente evidencia para rechazar la H0.

6. (4.1) ¿Cuándo se dice que las muestras son independientes?

Si la aparición o selección de un individuo en una muestra no tiene ninguna relación con la aparición o selección de algún individuo o elemento en la
otra muestra.

7. (4.1) Los o el valor critico, según se trate de una prueba bilateral o unilateral del estadístico van a determinar:

Las zonas de rechazo y no rechazo de la hipótesis alternativa en la distribución muestral del estadístico de prueba.

8. (4.1) ¿Qué es el valor P?

Es la probabilidad de obtener un estadístico igual o menor que el valor muestral siendo la hipótesis nula cierta.

9. (4.2) Si en una prueba de hipótesis el error de tipo I es .0025, quiere decir que:

Hay una probabilidad de .0025 de rechazar la hipótesis nula se está es verdadera.

10. (4.2) Si en una prueba de hipótesis el error de tipo II es .005, quiere decir que:

Hay una probabilidad de .005 de aceptar la hipótesis nula si esta es falsa.

11. (4.2) La probabilidad de cometer un error de tipo II está dado por él:

Potencia de una prueba.

12. (4.2) El coeficiente que mide la probabilidad de no rechazar mi hipótesis nula siendo verdadera se denomina:

Nivel de confianza.

13. (4.3.1) Si aumento mi nivel de significación de 0.01 a 0.05, ¿Qué sucederá?

La probabilidad de cometer un error de tipo I.

14. (4.3.2) Suponga que en un pueblo de la provincia de Córdoba se implementa un programa para disminuir el índice de desnutrición
infantil (DI). A fin de evaluar los efectos del programa se desarrolla una prueba de hipótesis para evaluar si al DI disminuyo, ¿Cuál
es la Ho asociada a esta prueba?

Ho: DI=X

15. (5.1) Para decidir si dos variables son independientes o no, debe utilizarse:

Una prueba X cuadrado.


16. (5.1) En la prueba de bondad de ajuste, ¿Cuántos grados de libertad tiene el estadístico de prueba?

K–1

17. (5.1) ¿Dónde se ubica la zona de rechazo en una prueba ANOVA?

En los valores más elevados de la variable de prueba.

18. (5.1) Las pruebas de independencia corresponden a variables…

Categóricas.

19. (5.1) ¿Qué indica el estadístico muestral, en una prueba de independencia, muy elevado?

Que no debe rechazarse la hipótesis nula.

20. (5.1) Indicar cuál de las siguientes afirmaciones es correcta:

La Hipótesis alternativa en una prueba de independencia incluye: Las variables consideradas no son independientes.

21. (5.1) En la prueba de independencia, ¿Cuántos grados de libertad tiene el estadístico de prueba?

N–1

22. (5.2.3) Si quisiera saber si existe relación entre el nivel de educación de los padres con respecto al nivel de educación de los hijos
debería:

Proponer un modelo de regresión lineal.

23. Dada la siguiente tabla

Medio preferido
Área de residencia Grafico Televisivo Radial Total
Urbana 30 120 20 170
Sub urbana 50 120 30 200
Rural 100 80 40 220
Total 180 320 90 590
Para determinar la intensidad de la asociación entre las variables se debe:

Observar las frecuencias que se presentan en la tabla

24. Dada la siguiente tabla:

Preferencia política
Nivel educativo Partido 1 Partido 2 Partido 3 Partido 4 Total
Primario 10 30 0 20 60
Secundario 15 40 10 5 70
incompleto
Secundario 10 50 40 5 105
completo
Terciario 15 10 50 5 80
Universitario 0 20 10 5 35
Total 50 150 110 40 350
Si quisiera saber si existe relación entre las variables debería:

Calcular los porcentajes sobre el total de casos.

25. De acuerdo a la siguiente tabla:

Obrero Administrativos Gerentes Total


Satisfecho 215 40 16 271
No satisfecho 100 25 4 129
Total 315 65 20 400
Si quisiera saber si existe relación entre el grado de satisfacción de los empleados y la posición que ocupan en la empresa debería utilizar:

Una prueba chi-cuadrada.

26. De acuerdo a la siguiente tabla:

Obrero Administrativos Gerentes Total


Satisfecho 215 40 16 271
No satisfecho 100 25 4 129
Total 315 65 20 400
Si quisiera medir la intensidad de asociación entre las dos variables debería utilizar:

El coeficiente V de Cramer.
PREGUNTERO DE METODOLOGIA DE ANALISIS DE DATOS CUANTITATIVOS MODULOS 1 Y 2

(1.1) La media de la siguiente distribución es: 1-1-2-2-2-2-6-4 : 2.5 (1+1+2+2+2+2+6+4)/8=2.5

SE DEFINE COMO MEDIA ARITMETICA O PROMEDIO DE UNA DISTRIBUCION

(1.1) En la siguiente distribución: 2-2-4-5-6-7-8-8-8-9

(1.1) Cuando se puede cuantificar la medida de la distancia entre dos elementos en la


característica considerada, se trabaja con: escalas de intervalo

(1.1) ¿Cuál es el porcentaje de trabajadores en una ciudad si el total de habitantes es de 23.179 y


las personas que trabajan son 18.980?

1.1Cual de las sig afirmaciones es correcta?

ES HABITUAL EXPRESAR LAS PROPORCIONES EN TERMINOS PORCENTUALES ,PARA FACILITAR SU


LECTURA E INTERPRETACION.

(1.1) ¿Cómo se denomina al número de veces que se repite la categoría?: Frecuencia

(1.1) Las categorías exhaustivas: deben ser mutuamente excluyentes, lo cual implica que las
categorías no deben superponerse entre sí, es decir, que ningún caso figure o corresponda a más
de una categoría.

((1.1) ¿Cuál es el porcentaje de desempleados en una ciudad si el total de habitantes es de 23.179


y el de las personas que trabajan son 18.980?

(1.1) La escala nominal surge de la operación básica en ciencias: La clasificación

(1.1) En la siguiente distribución 2-4-5-6-7-8-9 , la moda es: no hay moda (verificar)

(1.1) La mediana de la siguiente distribución es 0-0-1-1-1-2-3-3: 1

1.1en la sig distribución 2-2-4-5-6-7-8-8-8-9 la frecuencia relativa de 8 es

0.30 frecuencia relativa.

(1.1) Las categorías que surgen de clasificar: Poseen nombres arbitrarios y tales nombres no
implican ningún tipo de relaciones entre sí.

(1.1) ¿Cuál es una medida de dispersión?: rango-varianza-desviación estándar-coeficiente de


variación

(1.1) Cuando luego de la clasificación surgen categorías en orden o jerarquía entre... Escala
Ordinal

1.1 L a desviación estándar se define


LA RAIZ CUADRADA DE LA VARIANZA DE DICHA DISTRIBUCION

1.1 la variable tiempo en que demoran los operarios en terminar una pieza es de tipo:
CONTINUA

1.1 UNA MUESTRA ESTARA CONSTITUIDA POR:

POR UN SUBCONJUNTO DE LA POBLACION.

1.1 "Medir" en el contexto de las Cs. Sociales que significa? excede de la cuantificación de alguna
característica física de las ciencias naturales.-

1.1 QUE ES UNA RAZON ?

EL COCIENTE DE UN NUMERO CON RESPECTO DE OTRO.EN ESTE CASO SE COMPARAN DOS


CATEGORIAS ENTRE SI.

1.2 Cual de las sig variables no posee un nivel de medición normal?

PAIS DE NACIMIENTO

1.2PARA EL CONCEPTO FORTALEZA DE LAS RELACIONES BILATERALES ,MUY FUERTES ES

UNA CATEGORIA

1.3EL RECORRIDO DE UNA VARIABLE

EL RECORRIDO O RANGO INDICA LA DIFERENCIA ENTRE EL MAXIMO VALOR Y EL MINIMO VALOR


DE UNA DISTRIBUCION ,POR ELLO SU INTERPRETACION REQUIERE QUE PUEDA INTERPRETAR
ENTRE LOS DIFERENTES VALORES ,DE VARIABLES POR LO TANTO METRICAS.

1.3 SI LA MEDIANA DE LA VARIABLE EDAD, PARA UNA MUESTRA DE 500 CASOS ES DE 27 AÑOS ,
ENTONCES PUEDE AFIRMARSE QUE

LA MEDIANA INDICA EL VALOR QUE SUPERA A LO SUMO A LA MITAD DE LA SERIE ORDENADA DE


DATOS , O ES SUPERADA A LO SUMO POR LA MITAD DE LOS DATOS DE LA SERIE ORDENADA.
1.4 EN las cs sociales en eL proceso de medir se consideran particularidades de cuatro escalas
entre ellas:

ORDINAL , MEDIR EN EL CONTEXTO DE LAS CS. SOCIALES EXCEDE LA CUANTIFICACION DE


LAGUNA CARACT FISICA PROPIA DE LAS CS. SOCIALES

1.3LA MEDIANA DE LA SIG DISTRIBUCION ES 2-2-2-2-6-4-1-1-1

ES 2 , SE DEFINE COMO MEDIANA DE UNA DISTRIBUCION AL VALOR QUE OCUPA EL PUNTO


MEDIO DE LA DISTRIBUCION.

1.3SI EL MODO DE LA VARIABLE ESTADO CIVIL ES CASADO

EL MODO O MODA INDICA CUAL ES LA CATEGORIA DE RTAS QUE TIENE MAYOR FRECUENCIA.

Señale el correcto. Simplemente se multiplican las proporciones por 100.

Para determinar un intervalo de confianza de la media poblacional, marque lo que es necesario:


determinar primero la media poblacional.-

Como se llama cada elemento de una muestra? Observaciones

Señale la definición correcta. RTA: una razones el cociente de un número respecto a otro.-

1.1 Calcule la frecuencia acumulada de 7 según:2 2 4 5 6 7 8 8 8 9 : es el lugar que ocupa el 7 ósea


la posición #6

1.1La escala nominal, a qué pertenece? Cs de la Clasificación-

Cuál es la primera observación a realizar en el análisis de un conjunto de datos? la categoría y su


importancia relativa

3.1 En la distribución normal, la probabilidad de que la variable asuma un valor puntual es:

0 CERO

3.1Según el TEOREMA DEL LIMITE CENTRAL, las distribuciones de las medias muestrales... será
normal IGUAL A LA MEDIA DE LA POBLACION.

3.1 Indicar cual de las siguientes afirmaciones es correcta

EERRORES MUESTREALES SE PRODUCEN CUANDO LA MUESTRA OBTENIDA NO REPRESENTA


CORRECTAMENTE A LA POBLACION.LOS ERRORES NO MUESTREALES EN GRAL. SE COMENTEN EN
LA CONFECCION DE LAS PREGUNTAS O LA CONFECCION DE FORMULARIO NO CLARO Y QUE
PERMITEN RTAS. SESGADAS,NO PRECISAS O QUE PUEDEN OBLIGAR ENCUSTADOR A NO
RESPONDER CON EXACTITUD.ERRORES MUESTREALES SE PRODUCEN CUANDO LA MUESTRA
OBTENIDA NO REPRESENTA CORRECTAMENTE A LA POBLACION.
(3.1) Para determinar un intervalo de confianza para la estimación de la media poblacional, será
necesario entre otras cuestiones: determinar primero la media poblacional (verificar)

3.1) La distribución normal es de amplia difusión debido a una serie de razones, entre ellas se
puede mencionar: Se aproximan la mayoría de los fenómenos de la naturaleza (físicos, químicos
y biológicos) - Es la base de la inferencia estadística paramétrica - Otras distribuciones, bajo
ciertas circunstancias, se pueden aproximar a la normal - Es la referencia para definir otras
distribuciones con gran número de aplicaciones prácticas como la Chi cuadrada, t de Student y F
de Fisher.

3.1.1 Que indica el teorema central del limite?

CUANDO EL TAMAÑO ES SUFICIENTEMENTE GRANDE LA DISTRIBUCION DE LA VARIABLE


ALEATORIA MEDIA MUESTRAL PUEDE APROXIMARSE A LA DISTRIBUCION NORMAL.

3.1.1 SEUN EL TEOREMA CENTRAL DEL LIMITE ,LA DISTRIBUCION DE LAS MEDIAS MUESTRALES
SERA NORMAL CON

LA MEDIA NORMAL IGUAL A LA MEDIA DE LA POBLACION.

3.1.1 CUALES SON LAS PROPIEDADES DE LA MEDIA MUESTRAL?

INSESGMENTO,EFICIENCIA Y CONSISTENCIA.

3.1 AL CALCULAR LA FUNCION DE DENSIDAD NORMAL MEDIANTE LA INTEGRACION

YA QUE NO EXISTE UNA SOLUCION EXACTA PARA ESTA INTEGRAL ,SOLO ES POSIBLE OBTENER
ESA AREA POR METODOS DE APROXIMACION

3.2.1 Con el objetivo de estimar el porcentaje diario de ausentismo de una empresa se extrajo una
muestra y se obtuvo con un nivel de confianza del 95% el sig. (0.20.0.30)que se espera que
suceda si aumentamos el tamaño de la muestra =

SI AUMENTA LA MUESTRAS SE ESPERA QUE SE HAGA MAS PRECISA LA ESTIMACION ,POR QUE
REPRESENTA MEJOR LA POBLACION

3.2.1 Con el objetivo de estimar el porcentaje diario de ausentismo de una empresa se extrajo una
muestra y se obtuvo con un nivel de confianza del 95% EL siguiente intervalo de 0.20 .0.30cual es
el valor del estimador puntual

0.25

3.2.1 Considere el enunciado Se estima el monto promedio por empresa de exportaciones de un


determinado producto,tomando una muestra de 300 firmas que los producen yexportan.Usando
una confianza del 95% se obtiene el intervalo 7.500.000;8.500.000 ,el estimador puntual es
MEDIA

3.2.2 Para comparar las tasas de desocupación entre varones y mujeres ,se tomaron dos muestras
independientes y se obtuvo EL INTERVALO (0.037;0.140) esto implica que con una confianza del
95%

LAS PROPORCIONES DIFIEREN SIGNIFICATIVAMENTE.

1-Considere la sig tabla

Tipo pref de lectura

Novelas 50 50 0.13 0.13

Biografias 70 120 0.18 0.31

Actualidad 90 120 0.24 .0.55

Deportes 130 340 0.34 0.89

Otros 40 380 0.11 1.00

RTA CORRECTA ES EN LA TABLA LA PRIMERA COLUMNA MUESTRA LA FRECUENCIA ABSOLUTA


SIMPLE ,LA SEGUNDA COLUMNA LA FRECUENCIA ABSOLUTA ACUMULADA ,LA TERCERA MUESTRA
LA FRECUENCIA RELATIVA SIMPLE Y LA CUARTA LA FRECUENCIA RELATIVA

2- LA SIG TABLA S EUSA PARA COMPARAR LA PROPORCION DE VALORES EN DOS GRUPOS


INDEPENDIENTES TOMADOS DE UNA MISMA POBLACION

PRUEBAS DE MUESTRAS INDEPENDIENTES

Prueba de levene para prueba T para la igualdad de medias

la igualdad de varianzas

F Sig t gl sig dif de medias error tipo interv


genero bilateral confi.

2.462 117 - 914 6734 361 -1.12E-02 1.22E-02 -3.52E-02

-9146532.150 361 -1.112E-02 1.22E-02 -3.52E-02

El intervalo de confianza que resulta indica que con una confianza del 95%

RTA. EL INTERVALO CORRESPONDE A UN INTERVALO DE DIFERENCIAS DE PROPORCIONES, AL


INCLUIR AL VALOR 0,SIGNIFICA QUE CON UN 95% DE CONFIANZA ,LA DIFERENCIA PUEDE SER
NULA.

3-CONSIDERA LA SIG TABLA

Ingreso del grupo familiar

Menos de 400 150 150 0.08 0.08

400 -800 300 450 0.15 0.23

800-1500 450 900 0.23 0.46

1500-3000 500 1400 0.26 0.72

3000-5000 350 1750 0.18 0.90

+ de 5000 200 1975 0.10 1.00

Respecto de las frecuencias relativas simples se puede afirmar que

RTA. EN LA TABLA LA PRIMERA COLUMNA MUESTRA LA FRECUENCIA ABSOLUTA SIMPLE, LA


SEGUNDA LA FRECUENCIA ABSOLUTA ACUMULADA ,LA TERCERA MUESTRA LA FRECUENCIA
SIMPLE Y LA CUARTA LA FRECUENCIA RELATIVA ACUMULADA
MODULOS 3 Y 4

4.1 Un valor de R2 que tiende a 1 indica

QUE LA RELACION LINEAL TIENDE A SER EXACTA

4.1 Que distribución tiene el estadístico de prueba en el caso de una prueba sobre el valor de la
media poblacional con varianza poblacional coincida?

NORMAL

4.1 En una prueba de hipótesis referida a la varianza cuantos grados de libertad tiene el
estadístico?

NO PUEDE DETERMINARSE CON LA INFORM. DISPONIBLE

4.1 Indicar cual es la afirmación correcta

EL COEFICIENTE DE CONFIANZA 1-a INDICA LA PROBABILIDAD DE RECHAZAR LA H-0 CUANDO ESTA


ES FALSA-

4.1 La hipótesis nula

CONSISTE EN DEFINIR DE MANERA CORRECTA CUAL VA A SER LA HIPOTESIS QUE QUEREMOS


SOMETER A CONTRASTE O PRUEBA .

(4.1) En todos los casos y ejercicios de pruebas de hipótesis se deben desarrollas una serie de
pasos. El segundo de ellos es: seleccionar el estadístico de prueba que sea apropiado.

(4.1) El error tipo II está implicado en:

EL NO RECHAZO DE LA HIPOTESIS NULA CUANDO ESTA ES FALSA.RIESGOS CONSIDERADOS EN LA


PRUEBA DE HIPOTESIS

4.1 Si se desea disminuir la probabilidad de cometer un error de tipo II debería

AUMENTAR EL NIVEL DE SIGNIFICACION

(4.1) ¿Cuándo se comete el error tipo I? cuando la hipótesis nula es cierta, pero se la rechaza.

(4.1) En la hipótesis nula siempre aparece:

(4.1) Cuando las dos muestras se han construido de manera que la inclusión de un individuo en
una de las muestras condiciona la selección de otro en la otra muestra considerado:
(4.1) En todos los casos y ejercicios de prueba de hipótesis se debe desarrollar una serie de pasos,
el primero de ellos es: Planteamiento de hipótesis definir la hipótesis nula y la hipótesis
alternativa.

4.1 En todos los casos y ejercicios de prueba de hipótesis se debe desarrollar entre otros los
siguientes pasos

TODAS LAS OPCIONES SON CORRECTAS,.

4.1 En todos los casos y ejercicios de prueba de hipótesis se debe desarrollar una serie de pasos,
el segundop de ellos es

ESTABLECER LA HIPOTESIS ALTERNATIVA

(4.1) Si en una prueba de hipótesis, con todo lo demás constante, se decide disminuir la
probabilidad de cometer un error tipo I, ¿Qué se espera que ocurra?: aumenta la probabilidad del
error tipo II. Cuándo disminuye la probabilidad del error tipo uno aumenta la probabilidad del
error tipo 2.

(4.1) La duración promedio de los televisores de cierta marca es de 7 años, según la garantía del
fabricante. Para una muestra aleatoria de 35 televisores al azar de esa marca de una tienda
minorista, la duración promedio medida fue de 6,2 años con una desviación estándar de 2 años.
Con una significación de 0,05, si se desea corroborar si la duración de los televisores recibidos por
la tienda es idéntica a la declarada por la marca, ¿Qué hipótesis nula se plantea?:

el riesgo B (beta) es: la probabilidad de cometer un error tipo II

4.1) La duración promedio de los televisores de cierta marca es de 7 años, según la garantía del
fabricante. Para una muestra aleatoria de 35 televisores al azar de esa marca de una tienda
minorista, la duración promedio medida fue de 6,2 años con una desviación estándar de 2 años.
Con una significación de 0,05, si se desea corroborar si la duración de los televisores recibidos por
la tienda es idéntica a la declarada por la marca, ¿Qué TIPO DE PRUEBA SE DESARROLLA

UNA PRUEBA DE HIPOTESIS BILATERAL SOBRE LA MEDIA POBLACIONAL

(4.1) ¿Cuál es el propósito principal de una prueba de hipótesis?: El propósito de la prueba de


hipótesis no es cuestionar el valor calculado del estadístico (muestral), sino hacer

Un juicio con respecto a la diferencia entre estadístico de muestra y un valor planteado del
parámetro. (Extraído de la web)
(4.1) ¿Qué se pregunta habitualmente, cuando se obtiene medidas de resumen de muestras
correspondientes a dos poblaciones?:
(4.1) La potencia tiene una probabilidad: (rechazar una hipótesis nula)

4.1 EL CONCEPTO LA SENSIBILIDAD QUE ESTA TIENE PARA DETECTAR SITUACIONES EN LAS
CUALES CORRESPONDE RECHAZAR LA HIPOTESIS NULA POR SER ESTA FALSA HACE REFERENCIA
A

LA POTENCIA DE LA PRUEBA.

4.1 la potencia de la prueba es

LA SENSIBILIDAD QUE ESTA TIENE PARA DETECTAR SITUACIONES EN LAS CUALES CORRESPONDE
RECHAZAR LA 1-SENSIBILIDAD QUE ESTA TIENE PARA DETECTAR SITUACIONES EN LAS CUALES
CORRESPONDE RECHAZAR LA HIPOTESIS NULA POR SER ESTA FALSA.

4.1 LOS PASOS CORRESPONDIENTES A UNA PRUEBA DE HIPOTESIS UTILIZANDO EL VALOR P SE


SINTETIZAN ENTRE OTROS EN…

TODAS LAS OPCIONES SON CORRECTAS.

(4.1) La hipótesis alternativa: HIPOTESIS QUE SE CONCLUYE VERDADERA CUANDO SE RECHAZA LA


HIPOTESIS NULA

• Siempre es una negación de la hipótesis nula.

4.1 QUE SUGIERE EL DIAGRAMA DE DISPERSION?

4.1 Como se denomina la región de rechazo?

REGION CRITICA POR DEFINICION

4.1 CUAL DE LAS SIGUIENTES AFIRMACIONES ES CORRECTA?

TANTO LAS PRUEBAS DE HIPOTESIS COMO LA ESTIMACION POR INTERVALOS SE DERIVAN DE LOS
CONCEPTOS QUE MUESTRA ,VINVULACION ENTRE LA PRUEBA DE HIPOTEIS Y LA ESTIMACION POR
INTERVALO

5.1 un coeficiente de correlacion a tiende a 0 indica

QUE LA CORRELACION ES MODERADA

5.1 SI LA RELACION ENTRE DOS VARIABLES ES POSITIVA ,LA PENDIENTE SERA

POSITIVA ,SI LA RELACION ENTRE DOS VARIABLES ES NEGATIVA ,LA PENDIENTE SERA POSITIVA
5.1 Indicar cual de las siguientes afirm es correcta

LA HIPOTESIS ALTERNATIVA ES UNA PRUEBA DE INDEPENDENCIA INCLUYE LAS VARIABLES


CONSIDERADAS NO SON INDEPENDIENTES

5.1 CUAL ES LA HIPOTESIS ALTERNATIVA EN UNA PRUEBA DE INDEPENDENCIA:

LAS VARIABLES CONSIDERADAS NO SON INDEPENDIENTES

5.1 El supuesto de homocedastacidad en la regresión implica:

que la variable dependiente posee igual dispersión respecto de su media para los diferentes
valores de la variable independiente.

5.1 Según el supuesto de independencia de error ¿Cuáles no están relacionados?

EL TERMINO DE ERROR CON LOS VALORES DE LA VARIABLE INDEPENDIENTE.

5.1 EL ESTADISTICO DE PRUEBA EN UNTEST DE BONDAD DE AJUSTE PUEDE ASUMIR VALORES

NO NEGATIVOS.

5.1 SE PUEDE AFIRMAR QUE

LA ZONA DE RECHAZO EN LA PRUEBA ANOVA SE UBICA: EN LOS VALORES MAS ELEVADOS DE LA


VARIABLE DE PRUEBA.

(5.1) El objetivo del análisis de correlación es:

5.1 Que sugiere el siguiente diagrama de dispersión? (hay un gráfico de dispersión)

(5.1) En la prueba de independencia, ¿Cuántos grados de libertad tiene el estadístico de prueba?:


(c-1) (r-1)

(5.1) Si la relación entre dos variables es negativa, la pendiente será: negativa, decreciente (en
duda)

(5.1) Según el supuesto de independencia de error en la regresión, ¿Cuáles de los siguientes NO


deben estar relacionados?:

-Si una prueba de hipótesis, con todo lo demás constante, se decide disminuir la probabilidad de
cometer un Error tipo 1 ¿Qué se espera que ocurra? Aumenta la probabilidad del error de tipo2
¿Qué distribución tiene el estadístico de prueba sobre el valor de la media poblacional, con
varianza poblacional conocida? Normal

El diagrama de dispersión permite visualizar de manera sencilla la posible existencia de una...:


relación entre las variables de interés.
La idea básica del ANOVA: es el hecho de que las varianzas pueden ser divididas, es decir,
separadas.
(5.1) ¿Dónde se ubica la zona de rechazo en una prueba de bondad de ajuste?:

• En los valores más elevados de la variable de prueba.


• En los valores más reducidos de la variable de prueba.
• En los valores intermedios de la variable de prueba.
• En los valores más elevados y los más reducidos de la variable de prueba.
• No puede determinarse de manera general.

(5.1) ¿Qué distribución sigue el estadístico de una prueba de independencia?

• Chi cuadrado

5.2.3 SI EN UNA PRUEBA CHI-CUADRADO LA DIFERENCIA ENTRE LAS FRECUENCIAS OBSERVADAS Y


LAS ESPERADAS ES MUY PEQUEÑA ,PODRIA INFERIR QUE:

ES PROBABLEMENTE NO HAY RELACION ENTRE LAS VARIABLES INVOLUCRADAS.

5.2.3 EL ANALISIS DE LA INTENSIDAD DE LA RELACION ENTRE DOS VARIABLES METRICAS PUEDE


HACERSE CON UN COEFICIENTE

COEFICIENTE DE ASOCIACION :MEDIDAS DE FUERZA DE LA RELACION A PARTIR DE LA PRUEBA DE


INDEPENDENCIA Y EN CASO DE DETECTAR (RECHAZANDO LA HIPOTESIS NULA DE LA PRUEBA DE
INDEPENDENCIA) QUE EXISTE RELACION ESTABLECER VARIABLES.

6.1 SI ganamos $ 6 cuando de un dado cae en 1 o 2 y perdemos $ 3 cuando cae 3.4.5 o 6 la


varianza es

18 , ESTE VALOR SURGE DE APLICAR LA FORMULA DE LA VARIANZA DE UNA DISTRIB DE


PROBABILIDADES DE UNA VARIABLE ALEATORIA
6.2 EL DIRECTOR DE UN AEROPUERTO INDICA QUE EN PROMEDIO SE PRODUCEN EN ESE
AEROPUERTO EL ATERRIZAJE DE TRES VUELOS INTERNACIONALES POR DIA, SE SOLICITA INDIQUE
LA PROBABILIDAD DE QUE EN UN DIA DETERMINADO SE TENGA EXACTAMENTE EL AMBITO DE
TRES VUELOS INTERNACIONALES

ES 0.224 ,LA SITUACION PLANTEADA RESPONDE AL MODELO DE POISSON

6.3 SEA Y una variable aleatoria binomial calcule P(Y=12) cuando n=20 y P=0.7

0.1144 seria la combinatoria de 20 elementos tomados de 12 por 0.70 elevados a la doceava


potencia por 0.3 elevado a la octava potencia)

6.4 LA DISTRIBUCION DE POISSON SE PUEDE UTILIZAR PARA APROXIMAR LA DISTRIBUCION


BINOMIAL

CUANDO EL TAMAÑO DE LA MUESTRA ES DE AL MENOS 20 Y LA PROBABILIDAD DE ÉXITO COMO


MAXIMO 0.05

6.5.1 indique cual de las sig afirmaciones es falsa

EL DESVIO ESTANDAR ES IGUAL A LA MEDIA.

6.5.2 DE UN TOTAL DE SEIS EMPLEADOS ,TRES HAN ESTADO CON LA EMPRESA DURANTE CINCO O
MAS AÑOS, SI SE ELIGEN CUATRO EMPLEADOS AL AZAR DE ESE GRUPO LA PROBABILIDAD DE QUE
EXACTAMENTE DOS DE ELLOS TENGAN UNA ANTIGÜEDAD DE POR LO MENOS CINCO AÑOS ES :

0.60 POR QUE LA PROB SE OBTIENE APLICANDO EL MODELO HIPERGEOMETRICO

6.5.2 de unacomision de economía conformada por tres integrantes del partido mayoritario ,dos
pertenecientes a la primera minoría y uno perteneciente a la segunda minoría ,a los efectos de
confeccionar un resumen de todo lo actuado por la comisión es necesario designar a tres de ellos ,
si la elección se afecta de manera aleatoria indique ud. La probabilidad de que en la subcomisión
designada se tenga exactamente a 2 miembros del partido mayoritario

0.45 POR QUE SE OBTIENE APLICANDO EL MODELO HIPERGEOMETRICO(3C2*3C1)=/6C3=0.45

7 ENTRE LAS PROPIEDADES MATEMATICAS DE LA MEDIA ARITMETICA PARA UNA DISTIBUCION


NORMAL PODEMOS MENCIONAR LAS SIGUIENTES:

IMPARCIALIDAD, EFICIENCIA Y CONISTENCIA POR QUE TAL COMO SE INDICA EN ESTADISTICA


BASICA DE BERENSON.

7.2 INDICAR CUAL DE LAS SIG. AFIRMACIONES ES CORRECTA

CON LAS MEDIAS DE TODAS LAS MUESTRAS SE PUEDE GENERAR UNA NUEVA DISTRIBUCION LA
QUE DENOMINAREMOS DISTRIBUCION DE MEDIAS MUESTREALES.(DISTRIBUCION DE MEDIAS
MUESTRALES)
7.3.1 SI SE TIENE UNA POBLACION CON MEDIA M=60 Y UN DESVIO ESTANDAR, SIGMA= 10,
ENTONCES EL ERROR ESTANDAR DE LA MEDIA PARA MUESTRAS DE TAMAÑO 49 ES

1.43 , HAY QUE APLICAR LA EXPRESION MATEMATICA DEL ERRROR ESTANDAR

= SIGMA/RAIZ(n)= 10/RAIZ(49)

7.3.1 EL DPTO. DE RRHH. DE UNA PLANTA INDUSTRIAL CON 2500 OPERARIOS INFORMA QUE LA
EDAD PROMEDIO DE SUS EMPLEADOS ES DE 36 AÑOS CON UN DESVIO ESTANDAR DE 3 AÑOS ,SI
SE TOMA UNA MUESTRA DE 50 EMPLEADOS AZAROSAMENTE ,INDIQUE LA PROBABILIDAD DE
QUE LA EDAD PROMEDIO DE ESA MUESTRA SEA INFERIOR A LOS 35 AÑOS

0.5

7.4.1 PARA DETERMINAR EL TAMAÑO DE LA MUESTRA DEBEN CONOCERSE TRES FACTORES :

EL NIVEL DE CONFIANZA DESEADO, QUE DETERMINA EL VALOR DE Z, QUE ES EL VALOR CRITICO


DE LA DISTRIBUCION NORMAL, EL ERROR DE MUESTREO PERMITIDO,Y LA DESVIACION
ESTANDAR

7.5 LA MEDIA DE LA MUESTRA PUEDE CONSIDERARSE

UNA ESTIMACION PUNTUAL DE LA MEDIA POBLACIONAL

7.5 LOS METODOS PARA REALIZAR ESTIMACIONES SON

ESTIMACION PUNTUAL Y ESTIMACION POR INTERVALOS

7.5 EN UNA ESTIMACION POR INTERVALO CON EL 95% DE CONFUANZA PARA LA MEDIA
POBLACIONAL ,EL LIMITE SUPERIOR DE ESTIMACION RESULTO SER DE 120 PARA UNA MUESTRA
DE TAMAÑO 36 CON DESVIACION ESTANDAR POBLACIONAL IGUAL A 4 ,LUEGO LA ESTIMACION
PUNTUAL DE LA MEDIA POBLACIONAL VALE

118.69 O SEA Ls=M+e y M = Ls-eM =120-1.306= 118.69

7.6 un a estimación se dice que es de intervalo cuando

AL PARAMETRO SE LE ASIGNA UN VALOR DENTRO DE UN INTERVALO DE NUMEROS REALES.

7.7 EL GERENTE DE CONTROL DE CALIDAD DE UNA FABRICA DE LAMPARAS ELECTRICAS DESEA


ESTIMAR LA DURACION PROMEDIO DE UN EMBARQUE DE LAMPARAS FOCOS. SE SELECCIONA
UNA MUESTRA ALEATORIA DE 64 FOCOS ,LOS RESULTADOS INDICAN UNA DURACION
PROMEDIO DE LA MUESTRA DE 540 HORAS CON UNA DESVIACION ESTANDAR DE 120 HS.
,ESTABLESCA UNA ESTIMACION PROMEDIO CON INTERVALO DE CONFIANZA DE 95 % DE LA
DURACION PROMEDIO REAL DE LOS FOCOS DE ESTE EMBARQUE:
(510.60; 569.40)

7.7 DE un total de 1700 telefonos celulares se toma una muestra de 49 obteniendo se una media
de $ 624 y una desviación de $ 102 ,el intervalo de confianza del 98% para estimar el precio
promedio de todos los celulares es

(594.44;652.56)

7.7 un fabricante de esquís de nieve desea estimar el numero promedio de viajes que realizan
los esquiadores ávidos. Una muestra de 1100 esquiadores de un promedio de 15.3 viajes por
temporada, con una desviación estándar de 5.1 viajes, el intervalo de confianza del 99% para
estimar la media poblacional es

(14.90;15;70)
5.1.1 un equipo de investigación del ministerio de Educacion selecciona a los estudiantes menos
destacados de una universidad de Cordoba para aplicarles un determinado test de inteligencia
,posteriormente llevan a cabo un tratamiento que promueve habilidades cognitivas y por ultimo
vuelven a aplicarles el test de inteligencia ,este es un tipo de diseño

ES CUASI-EXPERIMENTAL
6
7 CASO un grupo de investigadors del departamento de investigaciones sociales y políticas de la
univ. Siglo 21 campus rio cuarto se hallan investigando sobre la ciudadanía social económica, y
política desde la perspectiva de la ciudadanía ,utilizan los pocentajes y características de las
personas sin participación y con participación de los partidos políticos llos porcentajes

7.2.1 El modo es una medida de


METODOLOGÍA DE ANÁLISIS DE DATOS CUANTITATIVOS 2015
1ER PARCIAL
1. "Medir" en el contexto de las Cs. Sociales que significa? excede de la cuantificación de alguna
característica física de las ciencias naturales.-
2. Según el TEOREMA DEL LIMITE CENTRAL, las distribuciones de las medias muestrales... será
normal con las desviaciones estándar menor a la población.-
3. Señale el correcto. Simplemente se multiplican las proporciones por 100.
4. Para determinar un intervalo de confianza de la media poblacional, marque lo que es necesario:
determinar primero la media poblacional.-
5. Como se llama cada elemento de una muestra? Observaciones
6. Señale la definición correcta. RTA: una razones el cociente de un número respecto a otro.-
7. Calcule la frecuencia acumulada de 7 según:2 2 4 5 6 7 8 8 8 9 : es el lugar que ocupa el 7 ósea
la posición #6
8. La escala nominal, a qué pertenece? Cs de la Clasificación-
9. Cuál es la primera observación a realizar en el análisis de un conjunto de datos? la categoría y
su importancia relativa
10. (3.1) Para determinar un intervalo de confianza para la estimación de la media poblacional, será
necesario entre otras cuestiones: determinar primero la media poblacional (verificar)
11. (1.1) La media de la siguiente distribución es: 1-1-2-2-2-2-6-4 : 20
12. (1.1) En la siguiente distribución: 2-2-4-5-6-7-8-8-8-9
13. (1.1) Cuando se puede cuantificar la medida de la distancia entre dos elementos en la
característica considerada, se trabaja con: escalas de intervalo
14. (1.1) ¿Cuál es el porcentaje de trabajadores en una ciudad si el total de habitantes es de 23.179
y las personas que trabajan son 18.980?
15. (1.1) ¿Cómo se denomina al número de veces que se repite la categoría?: Frecuencia
16. (1.1) Las categorías exhaustivas: deben ser mutuamente excluyentes, lo cual implica que las
categorías no deben superponerse entre sí, es decir, que ningún caso figure o corresponda a
más de una categoría.
17. (3.1) La distribución normal es de amplia difusión debido a una serie de razones, entre ellas se
puede mencionar: Se aproximan la mayoría de los fenómenos de la naturaleza (físicos,
químicos y biológicos) - Es la base de la inferencia estadística paramétrica - Otras
distribuciones, bajo ciertas circunstancias, se pueden aproximar a la normal - Es la referencia
para definir otras distribuciones con gran número de aplicaciones prácticas como la Chi
cuadrada, t de Student y F de Fisher.
18. (1.1) ¿Cuál es el porcentaje de desempleados en una ciudad si el total de habitantes es de 23.179
y el de las personas que trabajan son 18.980?
19. (1.1) La escala nominal surge de la operación básica en ciencias: La clasificación
20. (1.1) En la siguiente distribución 2-4-5-6-7-8-9 , la moda es: no hay moda (verificar)
21. (1.1) La mediana de la siguiente distribución es 0-0-1-1-1-2-3-3: 1
22. (1.1) Las categorías que surgen de clasificar: Poseen nombres arbitrarios y tales nombres no
implican ningún tipo de relaciones entre sí.
23. (1.1) ¿Cuál es una medida de dispersión?: rango-varianza-desviación estándar-coeficiente de
variación
24. (1.1) Cuando luego de la clasificación surgen categorías en orden o jerarquía entre... Escala
Ordinal

2DO PARCIAL
1- (5.1) ¿Qué es la relación lineal?:

2- (4.1) En todos los casos y ejercicios de pruebas de hipótesis se deben desarrollas una serie de
pasos. El segundo de ellos es: seleccionar el estadístico de prueba que sea apropiado.

3- (4.1) El error tipo II está implicado en:

4- (4.1) ¿Cuándo se comete el error tipo I? cuando la hipótesis nula es cierta, pero se la rechaza.

5- (5.1) Si la relación entre dos variables es positiva, la ordenada al origen será:

6- (4.1) Si en una prueba de hipótesis, con todo lo demás constante, se decide disminuir la
probabilidad de cometer un error tipo I, ¿Qué se espera que ocurra?: aumenta la probabilidad del
error tipo II. Cuándo disminuye la probabilidad del error tipo uno aumenta la probabilidad del
error tipo 2.

7- (4.1) En la hipótesis nula siempre aparece:

8- (4.1) Cuando las dos muestras se han construido de manera que la inclusión de un individuo en
una de las muestras condiciona la selección de otro en la otra muestra considerado:

9- (4.1) En todos los casos y ejercicios de prueba de hipótesis se debe desarrollar una serie de pasos,
el primero de ellos es: Planteamiento de hipótesis definir la hipótesis nula y la hipótesis alternativa.

10- (5.1) El objetivo del análisis de correlación es:

11- (4.1) La duración promedio de los televisores de cierta marca es de 7 años, según la garantía del
fabricante. Para una muestra aleatoria de 35 televisores al azar de esa marca de una tienda
minorista, la duración promedio medida fue de 6,2 años con una desviación estándar de 2 años. Con
una significación de 0,05, si se desea corroborar si la duración de los televisores recibidos por la
tienda es idéntica a la declarada por la marca, ¿Qué hipótesis nula se plantea?:

12- el riesgo B (beta) es: la probabilidad de cometer un error tipo II

13- (5.1) El estadístico de prueba en un test de bondad de ajuste puede asumir valores…:

14- (4.1) ¿Cuál es el propósito principal de una prueba de hipótesis?: El propósito de la prueba de
hipótesis no es cuestionar el valor calculado del estadístico (muestral), sino hacer
Un juicio con respecto a la diferencia entre estadístico de muestra y un valor planteado del
parámetro. (Extraído de la web)

15- Que sugiere el siguiente diagrama de dispersión? (hay un gráfico de dispersión)

16- (5.1) En la prueba de independencia, ¿Cuántos grados de libertad tiene el estadístico de


prueba?: (c-1) (r-1)
17- (4.1) ¿Qué se pregunta habitualmente, cuando se obtiene medidas de resumen de muestras
correspondientes a dos poblaciones?:

18- (4.1) La potencia tiene una probabilidad: (rechazar una hipótesis nula)

19- (5.1) Si la relación entre dos variables es negativa, la pendiente será: negativa, decreciente (en
duda)

20- (5.1) Según el supuesto de independencia de error en la regresión, ¿Cuáles de los siguientes NO
deben estar relacionados?:

21 -Si una prueba de hipótesis, con todo lo demás constante, se decide disminuir la probabilidad de
cometer un Error tipo 1 ¿Qué se espera que ocurra? Aumenta la probabilidad del error de tipo2
22- ¿Qué distribución tiene el estadístico de prueba sobre el valor de la media poblacional, con
varianza poblacional conocida? Normal
23- Definición de Independencia de errores:
24- Definición de Homocedasticidad:
25- El diagrama de dispersión permite visualizar de manera sencilla la posible existencia de una...:
relación entre las variables de interés.
26- La idea básica del ANOVA: es el hecho de que las varianzas pueden ser divididas, es decir,
separadas.
27-(5.1) ¿Dónde se ubica la zona de rechazo en una prueba de bondad de ajuste?:

• En los valores más elevados de la variable de prueba.


• En los valores más reducidos de la variable de prueba.
• En los valores intermedios de la variable de prueba.
• En los valores más elevados y los más reducidos de la variable de prueba.
• No puede determinarse de manera general.

28-(4.1) La hipótesis alternativa:

• Ninguna de las opciones es correcta.


• Suele negar la hipótesis nula.
• Siempre incluye un signo “-“.
• Siempre es una negación de la hipótesis nula.
• Es independiente de la hipótesis nula que se haya establecido.

29-(5.1) ¿Qué distribución sigue el estadístico de una prueba de independencia?

• No puede determinarse de una manera general.


• Normal.
• F
• Chi cuadrado
• T
2 - La siguiente salida se usa para estimar la proporción de varones en una determinada
población:

3 – La hipótesis alternativa de la prueba afirma que:

4 – A fin de comparar la tasa de desocupación entre ambos sexos, se tomaron dos muestras
independientes de una gran población …….

Los grados de libertad de la prueba son 576 porque:


5 - La siguiente tabla se usa para estimar el promedio de edad de una población a partir de
datos de una encuesta:

6 – La siguiente salida corresponde a la encuesta permanente de hogares segundo trimestre


2006. La variable P47T indica el ingreso total individual, expresado en pesos
7 – Estadísticas del grupo …..

Los grados de libertad son 10826 porque:

8 – Estadísticas del grupo: …… Los signos de los límites del intervalo de confianza

indican que:
9 – Considere la siguiente tabla: ------ Respecto a las frecuencias relativas simples, se puede
afirmar que …

10 – Considere la siguiente tabla: ------ Respecto a las frecuencias relativas acumuladas, se


puede afirmar que ….
11 – La siguiente salida corresponde a la encuesta permanente de hogares …….

El intervalo de confianza indica que, con una certeza del 95 %

12 – Se puede afirmar que la distribución normal utiliza: Variables Continuas

13 – Indicar cual de las siguientes afirmaciones es correcta: Con las medias de todas las
muestras podemos generar una nueva distribución …..
14 – Se puede afirmar que:

En la distribución normal, la probabilidad que la variable asuma un valor puntual es 0

15 – Si en una prueba de hipótesis el error tipo II es ,005, quiere decir que:

16 – Si en una prueba obtenemos un R cuadrado de 0.8. Esto quiere decir que

17 – A fin de comparar las tasas de desocupación entre ambos sexos -------


El Segundo valor de probabilidad …. Indica que hay una probabilidad de

18 - ……. Los grados de libertad son :

19 – Según el supuesto de independencia de error en la regresión, ¿cuáles de los siguientes no


deben estar relacionados?

20 – Cuándo se dice que las muestras son independientes?


21 – La siguiente salida corresponde a una prueba realizada sobre la variable que se indica,
solo para personas …..

La hipótesis alternativa de la prueba afirma que:

22 – La siguiente tabla se usa para estimar el promedio de edad de una población a partir de
…..

El intervalo de confianza indica que, con una confianza del 95%

Das könnte Ihnen auch gefallen