Correlacion y Regresion. Contraste de Hipotesis

República Bolivariana de Venezuela
Ministerio del Poder Popular para la Educación Universitaria

Universidad Nacional Experimental Simón Rodríguez
Araure – Estado – portuguesa
Participante:
Profesor:
Arianny Escalona
Stiweer Alvarado
C.I.: 24.587.886
Materia: Estadística II
Sección: B
Araure, 03 de diciembre de 2018

Introducción
Cuando, simultáneamente, contemplamos dos variables continuas, aunque por
extensión se pueden emplear para variables discretas cuantitativas, surgen
preguntas y problemas específicos. Esencialmente, se emplearán estadísticos
descriptivos y técnicas de estimación para contestar esas preguntas, y técnicas de
contraste de hipótesis específicos para resolver dichos problemas. La mayoría de
estos métodos están encuadrados en las técnicas regresión y correlación En forma
más especifica el análisis de correlación y regresión comprende el análisis de los
datos muéstrales para saber qué es y cómo se relacionan entre si dos o más
variables en una población. El análisis de correlación produce un número que
resume el grado de la fuerza de relación entre dos variables; y el análisis de
regresión da lugar a una ecuación matemática que describe dicha relación.
Dentro del estudio de la inferencia estadística, se describe cómo se puede tomar
una muestra aleatoria y a partir de esta muestra estimar el valor de un parámetro
poblacional en la cual se puede emplear el método de muestreo y el teorema del
valor central lo que permite explicar cómo a partir de una muestra se puede inferir
algo acerca de una población, lo cual nos lleva a definir y elaborar
una distribución de muestreo de medias muéstrales que nos permite explicar el
teorema del límite central y utilizar este teorema para encontrar las probabilidades
de obtener las distintas medias maestrales de una población.
Distribuciones Binominales
Se denominan distribuciones bidimensionales a las tablas estadísticas
bidimensionales formadas por todas las frecuencias absolutas de todos los posibles
valores de la variable estadística bidimensional (X, Y). Las tablas estadísticas
bidimensionales pueden ser:
a) Simples.
b) De doble entrada.
a) Las tablas estadísticas bidimensionales simples adoptan la siguiente forma:
Variable X Variable Y Frecuencia absoluta
x1 y1 f1
x2 y2 f2
… … …
Xi Yi fi
… … …
Xn Ym Fn
∑ 𝑓𝑖 = 𝑁
𝐼
N=
Ejemplo: A cada uno de los trabajadores de una empresa se les talla y pesa. Se
trata de dos variables cuantitativas.
X (tallas en m) 1,70 1,70 1,69 1,68

Y (peso en kg) 67 75 70 66
En este caso no aparecen las frecuencias absolutas porque habría un recluta con
cada peso y talla, se podría añadir la fila correspondiente (o columna) con cada
frecuencia absoluta igual a uno.
b) Las tablas estadísticas bidimensionales de doble entrada adoptan la siguiente
forma:
X F. absoluta de
Y x1 x2 ··· xi ··· xn
la variable Y
y1 f1 1 f2 1 ··· fi1 ··· fn 1 f• 1
y2 f12 f2 2 ··· fi2 ··· fn 2 f• 2
⁞ ⁞ ⁞ ⁞ ⁞ ⁞ ⁞ ⁞
yj f1 j f2 j ··· fij ··· fn j f• j
⁞ ⁞ ⁞ ⁞ ⁞ ⁞ ⁞ ⁞
ym f1 m f2 m ··· fi m ··· fn m f• m
F. absoluta de
f1 • f2 • ··· fi • ··· fn • N
la variable X
é
Denotamos por f ij a la frecuencia absoluta correspondiente al par (xi , yj) y por N

al número total de individuos.
Ejemplo: Los datos obtenidos al estudiar las variables X = “número de goles
marcados” e Y = “número de goles recibidos”, en 40 partidos jugados por el equipo
campeón de la liga de fútbol sala, son:
(5, 4), (4, 2), (6, 3), (4, 4), (3, 2), (6, 4), (3, 1), (4, 2), (4, 2), (6, 4), (4, 2), (5, 3), (3,
1), (2, 2), (4, 3), (3, 1), (4, 2), (5, 3), (5, 3), (4, 2), (3, 3), (1, 1), (4, 2), (5, 3), (3, 2),
(5, 3), (6, 4), (4, 2), (5, 3), (2, 1), (3, 2), (6, 4), (5, 3), (4, 2), (4, 2), (3, 3), (3, 1), (2,
2), (6, 4), (5, 3)
Elaboramos la tabla de doble entrada siguiendo estos pasos:
− Construimos una tabla con tantas columnas como valores tome X y con tantas
filas como valores tome Y en la distribución. Si observamos los datos, X toma los
valores 1, 2, 3, 4, 5 y 6, e Y toma los valores 1, 2, 3 y 4. En este caso, la tabla
constará de 6 columnas y 4 filas.
− Hallamos la frecuencia absoluta de cada par de valores de la variable (X, Y).
Para ello contamos el número de veces que se repite ese par de valores en la
distribución y lo anotamos en la casilla correspondiente. Así, por ejemplo, observa
que el par (5, 4) aparece una sola vez; el (4, 2) aparece diez veces; y el (6, 1),
ninguna.
X 1 2 3 4 5 6 Total
Y
1 1 1 4 0 0 0 6
2 0 2 3 10 0 0 15
3 0 0 2 1 8 1 12
4 0 0 0 1 1 5 7
Total 1 3 9 12 9 6 40
Fíjate en que:
• La suma de las frecuencias absolutas de una columna es la frecuencia absoluta
del valor de X correspondiente a esa columna.
• La suma de las frecuencias absolutas de una fila es la frecuencia absoluta del
valor de Y correspondiente a esa fila.
COVARIANZA
En este sentido el indicador bivariante más importante es la covarianza:
Dadas dos variables estadísticas x e y definiremos la covarianza Sxy como:
en el caso de disponer de la distribución agregada por frecuencias en una tabla de

correlación.
en el caso de disponer de la distribución sin agregar por frecuencias (en un listado

matricial de datos donde cada registro es una observación y nº de registros= N)
Propiedades:
1. La covarianza es el momento central de orden 1,1 de la distribución
bidimensional.
2. Es invariante ante los cambios de origen en cualquiera de las dos variables.
3. Sin embargo depende de los cambios de unidad, Si se cambia de unidad de
medida en ambas variables la covarianza se modifica proporcionalmente a ambos
cambios:
u= a+bx v = c + dy Suv = b.d.Sxy
4. La expresión de cálculo de la covarianza es

donde a11 es el llamado momento (ordinario) mixto y su expresión es:
si las observaciones están agregadas por frecuencias, o bien:
si las observaciones no están agregadas por frecuencias

5. Si dos variables son independientes su covarianza es cero (el resultado recíproco
no es necesariamente cierto).
6. La covarianza nos mide la covariación conjunta de dos variables: Si es positiva
nos dará la información de que a valores altos de una de las variables hay una
mayor tendencia a encontrar valores altos de la otra variable y a valores bajos de
una de las variables, correspondientemente valores bajos. En cambio, si la
covarianza es negativa, la covariación de ambas variables será en sentido inverso:
a valores altos le corresponderán bajos, y a valores bajos, altos. Si la covarianza es
cero no hay una covariación clara en ninguno de los dos sentidos. Sin embargo, el
hecho de que la covarianza dependa de las medidas de las variables no permite
establecer comparaciones entre unos casos y otros.
CORRELACIÓN
La correlación es la forma numérica en la que la estadística ha podido evaluar la

relación de dos o más variables, es decir, mide la dependencia de una variable con
respecto de otra variable independiente.
Para poder entender esta relación tendremos que analizarlo en forma gráfica:
Si tenemos los datos que se presentan en la tabla y consideramos que la edad
determina el peso de las personas entonces podremos observar la siguiente gráfica:
Edad peso
15 60
30 75
18 67
42 80
Donde los puntos representan
28 cada
60 uno de los pares ordenados y la línea podría
ser una recta que represente la tendencia de los datos, que en otras palabras podría
decirse que se observa19que a mayor65
edad mayor peso.
31 92
La correlación se puede explicar con la pendiente de esa recta estimada y de esta

forma nos podemos dar cuenta que también existe el caso en el que al crecer la
variable independiente decrezca la variable dependiente. En aquellas rectas
estimadas cuya pendiente sea cero entonces podremos decir que no existe
correlación.
demanda
150
1698 47
100 2045 15
50 1348 100
1268 120
0
1000 1500 2000
Así en estadística podremos calcular la correlación para datos no agrupados con
la siguiente formula.
n n n
n  xi y i   xi *  y i
r i 1 i 1 i 1
 n 2  n  2
 n 2  n  
2
n xi    xi   n y i    y i  
 i 1  i 1    i 1  i 1  
En donde:
R = coeficiente de correlación
N = número de pares ordenados
X = variable independiente
Y = variable independiente
Ejemplo:
Edad (x) Peso (y) X2 Y2 X* Y
15 60 225 3600 900
30 75 900 5625 2250
18 67 324 4489 1206
42 80 1764 6400 3360
28 60 784 3600 1680
19 65 361 4225 1235

Supóngase que deseamos obtener la correlación de los datos de la tabla anterior:
31 92 961 8464 2852
Ahora podemos observar que:
183 499 5319 36403 13483
n n n
n x y  x * y
i 1 i i i 1 i i 1 i 7 * 13483  (183 * 499)
  
r   0.65638606
 n 2 n 2 7 * 5319  (183)2 7 * 36403  ( 499)2
n  x 2    x   n  y 2    y  
n n
 i 1 i  i 1 i    i 1 i  i 1 i  
  
Se debe aclarar que el coeficiente de correlación sólo puede variar de la siguiente

manera: 1  r  1 y que para entenderlo mejor se debe obtener el coeficiente de
determinación que se obtiene con “ r “ cuadrada, ya que este representa el
porcentaje que se explica “ y ” mediante los datos de “ x ”.
En nuestro ejemplo decimos que la correlación es casi perfecta, ya que, está muy
cerca de 1 y que el porcentaje de datos que explican a “ y “ es (0.65638606)2=
0.430842 o sea el 43.08 %
En el caso de que fueran datos agrupados tendremos lo siguiente:
Primero tendremos que pensar que se genera una matriz, ya que, ahora estamos
juntando dos tablas de distribución de frecuencias y por ello nuestros cálculos serán
más laboriosos, por lo que les recomiendo el uso de una hoja de cálculo o al menos
una calculadora con regresión para datos agrupados.
De cualquier forma, aquí también estamos evaluando numéricamente si existe
relación entre dos variables y lo haremos con la siguiente ecuación.
k l l k
n   f xi y i   fx xi *  fy y i En donde podemos
j 1 i 1 i 1 i 1
r  encontrar k como el
 l  l f x   n 
2
k
 k
 
2
número de clases para la
 n  f x 2
  x i   f y 2
  y i 
f y
 i 1    i 1  i 1  
x i y i
 i 1 variable "y" y l para el
número de clases de "x".
También podemos observar que hay varios tipos de "f" es decir, la que se encuentra
sola (sin subíndice) que nos habla de las frecuencias celdares (cada una de las
frecuencias que se encuentran en la intersección entre una columna y un renglón)
y las "f" con subíndices que representan las frecuencias de cada una de las
variables.
Marcas de clase de "x"
1.445 1.545 1.645 1.745 1.845 1.945 S fy S fx y S fx y^2
44.5 3 1 4 178 7921
marcas 54.5 5 9 5 19 1035.5 56434.75
de clase 64.5 1 2 4 1 1 9 580.5 37442.25
de "Y" 74.5 5 1 1 7 521.5 38851.75
84.5 2 2 1 5 422.5 35701.25
94.5 1 3 4 378 35721
S fx 0 9 12 17 7 3 48 3116 212072
S fx x 0 13.90 19.74 29.665 12.915 5.835 82.06
5
S fx 0 21.48 32.472 51.765 23.82817 11.349075 140.89
x^2 3225 3 425 5 82
S Sf x y 5380.77
Correlación 0.695
=
Para entender el uso de esta fórmula usaremos un ejemplo:

Los resultados que se presentan en la siguiente tabla representan los pesos y las
estaturas de 48 alumnos entrevistados el "día Anáhuac"
La sustitución de la fórmula es la siguiente:
k l l k
n   f x i y i   f x x i *  fy y i
j 1 i 1 i 1 i 1 48 * 5380.77 - (82.06 * 3116)
r    0.695
 l  l   k
2
k  
2
((48 * 140.8982) - 82.06 2 ) * (( 48 * 212072) - 31162 )
n  f x x i    f x x i    n  f y y i    f y y i  
2 2
 i 1  i 1   i 1  i 1  
Al interpretar nuestro resultado podemos concluir que, si existe relación entre el

peso y la estatura, es decir, que a mayor estatura mayor peso.
En muchas ocasiones el resultado de la correlación es negativo y lo que debemos

pensar es que la relación de las variables involucradas en el cálculo es inverso es
demanda
decir que en la medida que crece la variable independiente la variable dependiente
decrece:
150
1698 47
100 2045 15
50 1348 100
1268 120
0
1000 1500 2000
Coeficiente de correlación de Pearson
coeficiente de correlación de Pearson es la principal medida de asociación lineal

entre dos variables cuantitativas y se define como:
Este coeficiente, cuyo valor no depende de las unidades de medida de las variables,
está acotado entre -1 y +1; su signo indica la dirección, positiva o negativa, de la
asociación lineal y su valor absoluto la intensidad de la misma. En caso de
asociación lineal perfecta toma el valor |1| ; si no hay asociación lineal toma el valor
0, lo cual no implica que no pueda haber asociación de otro tipo.
La prueba de significación del coeficiente de correlación de Pearson puede

plantearse:
 Bilateral (a doble cola) si se contrasta la hipótesis nula de ausencia de

asociación lineal sin especificar de antemano en la hipótesis alternativa la
dirección o sentido de la asociación, en caso de que ésta exista.
 Unilateral (a una sola cola) si se contrasta la hipótesis nula especificando de

antemano en la hipótesis alternativa la
dirección de la asociación. Si se desea un contraste unilateral es necesario
activar la opción correspondiente.
Recta de Regresión
La recta de regresión es la que mejor se ajusta a la nube de puntos.
La recta de regresión pasa por el punto llamado centro de

gravedad.
Recta de regresión de Y sobre X

La recta de regresión de Y sobre X se utiliza para estimar los valores de
la Y a partir de los de la X.
La pendiente de la recta es el cociente entre la covarianza y la varianza

de la variable X.
Recta de regresión de X sobre Y
La recta de regresión de X sobre Y se utiliza para estimar los valores de

la X a partir de los de la Y.
La pendiente de la recta es el cociente entre la covarianza y la varianza

de la variable Y.
Si la correlación es nula, r = 0, las rectas de regresión son

perpendiculares entre sí, y sus ecuaciones son:
y=
x=
Ejemplos
 Las notas de 12 alumnos de una clase en Matemáticas y Física son las

siguientes:
Matemáticas Física
2 1
3 3
4 2
4 4
5 4
6 4
6 6
7 4
7 6
8 7
10 9
10 10
 Hallar las rectas de regresión y representarlas.

xi yi xi ·yi xi² yi²
2 1 2 4 1
3 3 9 9 9
4 2 8 16 4
4 4 16 16 16
5 4 20 25 16
6 4 24 36 16
6 6 36 36 36
7 4 28 49 16
7 6 42 49 36
8 7 56 64 49
10 9 90 100 81
10 10 100 100 100
72 60 431 504 380

1º Hallamos las medias ariméticas.
2º Calculamos la covarianza.
3º Calculamos las varianzas.
4ºRecta de regresión de Y sobre X.
4ºRecta de regresión de X sobre Y.

CONTRASTE DE HIPOTESIS
Se parte de una variable aleatoria poblacional cuya función de probabilidad
o de densidad f(x,) depende de un parámetro desconocido , que toma
valores en un cierto conjunto , llamado espacio paramétrico, con al menos
dos valores distintos.
Se formula una hipótesis sobre el parámetro. Por ejemplo:  = 0 y con la

ayuda de una muestra aleatoria simple obtenemos
un estimador puntual θ̂ (X1, X2, …,Xn) que se utiliza para inferir si la
hipótesis formulada se acepta o no, con un cierto nivel de confianza.
Tipos de hipótesis
Como nos vamos a referir a contrastes paramétricos, las hipótesis que se
van a formular son de tipo paramétrico, es decir, afirmaciones verdaderas o
falsas sobre el valor del parámetro  desconocido.
a) hipótesis simples e hipótesis compuestas.
Una hipótesis es simple cuando se refiere a un único valor del parámetro,

es decir, a un único punto del espacio paramétrico. Por ejemplo, afirmar
que  = 5.
Una hipótesis es compuesta cuando se refiere a un subconjunto más

amplio del espacio paramétrico u no a un único punto. Por ejemplo, afirmar
que  > 5
(En el caso de dos parámetros, una hipótesis simple puede ser µ = 30 y σ
=5 porque se refiere a un único punto del espacio paramétrico
bidimensional µ x σ)
b) Hipótesis nula e hipótesis alternativa.
La hipótesis nula es la hipótesis inicial que se acepta provisionalmente

como cierta y es sometida a comprobación experimental, se designa H0.
La hipótesis alternativa se designa H1 es la hipótesis complementaria de la

nula.
Como consecuencia de la comprobación experimental, la hipótesis nula

seguirá siendo aceptada como verdadera o se rechazará, si hay razón
suficiente, en cuyo caso se aceptara la hipótesis complementaria
Expresión general de un contraste de hipótesis.
Un contraste de hipótesis se plantea de la siguiente forma
H 0 :  0  
H1 :   1     0
Que nos indica que provisionalmente admitimos que  pertenece a 0. Si
después del estudio resulta que no es cierto, se acepta la hipótesis alternativa.
Formas básicas de un contraste paramétrico.
Las formas de un contraste de hipótesis depende de las especificaciones

apropiadas, pero se pueden resumir en cuatro formas básicas.
H 0 :   1
1.
H1 :    2 Hipótesis simple frente a alternativa simple.
H 0 :  0
2. H1 :    0 Hipótesis simple frente a alternativa bilateral
H 0 :  0 H 0 :  0
ó
3. H1 :    0 H1 :    0 Contrastes unilaterales.
H 0 : 1     2
4. H 1 :   1 ó    2 Contraste bilateral.
Región crítica y región de aceptación.

Ante un contraste de hipótesis hay que tomar una de las dos decisiones:
a) Se acepta la hipótesis nula y se rechaza la alternativa
b) Se acepta la hipótesis alternativa y se rechaza la hipótesis nula.
Para decidir qué decisión tomar, se toma una muestra aleatoria simple y se
elige un determinado estimador puntual θ̂ (X1, X2, …,Xn) y en función de los
posibles valores que tome, se tomará una u otra decisión.
Se denomina región crítica a la constituida por el conjunto de muestras para

las que se rechaza la hipótesis nula
C  ( x1 , x2 ,..., xn / se rechaza H 0 
Se denomina región de aceptación la constituida por el conjunto de

muestras para las que se acepta la hipótesis nula.
C  ( x1 , x2 ,..., xn / se acepta H 0 
Se denominan valores críticos de la muestra aquellos que separan la región

crítica de la región de aceptación.
Cuando estamos ante un contraste bilateral (hipótesis alternativa bilateral)

la región crítica también es bilateral y existen dos valores críticos.
Cuando el contraste es unilateral, la región crítica también lo es y

únicamente existe un valor crítico.
H 0 :   0 H 0 :   0
H1 :    0 H1 :    0
Una vez determinada la región crítica se elige una M.A.S. Si esa muestra
pertenece a la región crítica, rechazamos H0 y aceptamos H1; si la muestra
está en la región de aceptación, se acepta H0 y se rechaza H1.
Error de tipo I y error de tipo II.

En un contraste de hipótesis, igual que en cualquier problema de decisión,
hay varias alternativas y, por tanto, existe la posibilidad de equivocarse. Las
posibles alternativas y estados se resumen en el siguiente cuadro.
Estados de la naturaleza
Decisión H0 H0 falsa
verdadera
Aceptar No hay Error de
H0 error tipo II
Nivel de 
confianza
(1-)
Rechazar Error de No hay
H0 tipo I error
 Potencia (1-
)
Error de tipo I es el cometido al rechazar H0 cuando es cierta.

Error de tipo II es el cometido al aceptar H0 cuando es falsa.
Riesgo de error de tipo I para un parámetro ()
Es la probabilidad de cometer un error de tipo I, es decir:

 ( )  P Re chazar H 0 H es cierta   P ( X1 , X 2 ,..., X n )  C    
 0   0
Habrá tantos errores de tipo I como valores posibles de 0. Se denomina
talla del error de tipo I, o tamaño del error de tipo I, a la mayor de estas
probabilidades, que se designa por , también denominado nivel de
significación del contraste, o tamaño de la región crítica.
Riesgo de error de tipo II para un parámetro ()
Es la probabilidad de cometer un error de tipo II, es decir:

 ( )  P Aceptar H 0 H es falsa   P ( X1 , X 2 ,..., X n )  A   
 0   1
Igual que en el caso anterior, habrá tantos errores de tipo II como valores
posibles de 1. Análogamente, se denomina talla del error de tipo II, o
tamaño del error de tipo II, a la mayor de estas probabilidades, que se
designa por .
Interesa que  y  sean los más pequeños posibles. Si ambos son cero se
dice que es un contraste ideal y carece de interés. Cuando H0 es simple se
verifica que  = () y no siempre se verifica que  +  = 1
Un ejemplo muy común para fijar las ideas es comparar un contraste de

hipótesis con un juicio en un Tribunal de Justicia. H0 es suponer que el
acusado es inocente hasta que no se demuestre lo contrario. Por tanto, H 1
es que el acusado es culpable.
El error de tipo I con probabilidad  es decidir que el acusado es culpable,
cuando en realidad es inocente. Se quiere que esta probabilidad sea muy
pequeña.
El error de tipo II con probabilidad  es decidir que el acusado es inocente
cuando en realidad es culpable. También, se procura que esta probabilidad
sea muy pequeña.
La potencia del contraste es decidir que el acusado es culpable cuando en
realidad es culpable o que es inocente cuando en realidad es inocente.
Las probabilidades  y  son contradictorias, si una aumenta, la otra

disminuye y ante la imposibilidad de hacer mínimo el error de tipo I y el de
tipo II simultáneamente, se opta por fijar un nivel de  y obtener la región
crítica que haga mínimo  ( o máxima la potencia 1 - ).
En la práctica, se fija, en primer lugar, el valor de  y para que  sea

mínimo, buscamos el mejor estimador posible del parámetro. Así, si
estamos ante una población normal de media desconocida y desviación
H 0 :   0
típica  y se quiere realizar el contraste: H1 :   1 si se utiliza como
estimador de la media poblacional la media muestral, la región crítica y la
de aceptación vendrán determinadas en función de algún criterio que se
adopte sobre si la media muestral es inferior o superior a un determinado
valor. Una interpretación se puede ver en el siguiente gráfico.
Vamos a calcular estos valores con un ejemplo numérico.
Ejemplo:
El número de artículos producidos a la semana por una cierta factoría se

distribuye de forma normal con media desconocida y desviación típica 3. Se
desea contrastar la hipótesis de que la media es 15, frente a la hipótesis
alternativa de que es 16. Para ello se establece el siguiente criterio: Se
toma una muestra de tamaño 16 semanas y si el número medio de piezas
fabricadas es superior a 15,5 se decide que la media es 16 y si no se
decide que es 15. Hallar las probabilidades de error de tipo I y de tipo II.
¿Cuál debería ser el tamaño de la muestra para que la probabilidad de
equivocarnos en uno y otro tipo de error es inferior a 0.05? y si queremos
que el error de tipo I sea menor que 0,05 y mantenemos el tamaño de la
muestra ¿cuál debería de ser el punto crítico?
Solución:
a)
 
 Re chazar H 0   X  15,5   X  15 15,5  15 
  P H 0 es cierta 
 P
  15   P 3  
   3 
 16 16 
=
= P(Z > 0,66) = 0,2546
 
 Aceptar H 0   X  15,5   X  16 15,5  16 
  P H 0 es falsa 
 P
  16   P 3  
   3 
 16 16 
= P(Z < -0,66) = 0,2546
b) Como  y  son iguales, lo calculamos únicamente para .

 
   
  P X  15,5   15   P
X 15 15,5 15
   0,05
   3 3 
 n n 
15,5  15
  1,645
3
n luego n tiene que ser mayor o igual a 98.
 
 X  x0   X  15 x0  15 
  P   15   P 3    0,05
  3 
c) Análogamente:  16 16 
x  15
 0  1,645
3
16 con lo que, despejando, el valor de x0 ha de ser 16,23.
Fases a realizar en un contraste de hipótesis.
Las fases para realizar un contraste de hipótesis son las siguientes:
Paso 1.- Planteamiento de las hipótesis nula y alternativa en términos

estadísticos. (Recordar que, por motivos de cohesión teórica, el signo igual
ha de estar siempre en la hipótesis nula).
ˆ
Paso 2.- Determinar un estadístico de prueba apropiado h( ) que se
utilizará para aceptar o rechazar la hipótesis nula, ha de cumplir:
a) Su función de probabilidad ha de ser conocida cuando H0 se supone
cierta.
b) Debe de contener el parámetro que se quiere contrastar.
c) Los restantes términos que intervienen han de ser conocidos o se
pueden estimar a partir de la muestra.
Paso 3.- Fijar el nivel de significación .
Paso 4.- Determinar la región crítica del estadístico de prueba.
Paso 5.- Seleccionar aleatoriamente la muestra y calcular el valor del

estadístico de prueba o experimental.
Paso 6.- Decidir e interpretar si el valor del estadístico experimentado está

o no en la región crítica y rechazar o aceptar la hipótesis nula.
Prueba de una hipótesis: se realiza mediante un procedimiento sistemático
de cinco pasos:
Siguiendo este procedimiento sistemático, al llegar al paso cinco se puede o

no rechazar la hipótesis, pero debemos de tener cuidado con esta
determinación ya que en la consideración de estadística no proporciona
evidencia de que algo sea verdadero. Esta prueba aporta una clase de
prueba más allá de una duda razonable. Analizaremos cada paso en detalle
Objetivo de la prueba de hipótesis.
El propósito de la prueba de hipótesis no es cuestionar el valor calculado del

estadístico (muestral), sino hacer
un juicio con respecto a la diferencia entre estadístico de muestra y un valor
planteado del parámetro.
3.- Procedimiento sistemático para una prueba de hipótesis de una

muestra
Paso 1: Plantear la hipótesis nula Ho y la hipótesis alternativa H1.

Cualquier investigación estadística implica la existencia de hipótesis o
afirmaciones acerca de las poblaciones que se estudian.
La hipótesis nula (Ho) se refiere siempre a un valor especificado del

parámetro de población, no a una estadística de muestra. La letra H significa
hipótesis y el subíndice cero no hay diferencia. Por lo general hay un "no" en
la hipótesis nula que indica que "no hay cambio" Podemos rechazar o aceptar
Ho.
La hipótesis nula es una afirmación que no se rechaza a menos que los datos
maestrales proporcionen evidencia convincente de que es falsa. El
planteamiento de la hipótesis nula siempre contiene un signo de igualdad con
respecto al valor especificado del parámetro.
La hipótesis alternativa (H1) es cualquier hipótesis que difiera de la hipótesis

nula. Es una afirmación que se acepta si los datos maestrales proporcionan
evidencia suficiente de que la hipótesis nula es falsa. Se le conoce también
como la hipótesis de investigación. El planteamiento de la hipótesis
alternativa nunca contiene un signo de igualdad con respecto al valor
especificado del parámetro.
Paso 2: Seleccionar el nivel de significancia.
Nivel de significancia: Probabilidad de rechazar la hipótesis nula cuando es

verdadera. Se le denota mediante la letra griega α, también es denominada
como nivel de riesgo, este término es más adecuado ya que se corre el riesgo
de rechazar la hipótesis nula, cuando en realidad es verdadera. Este nivel
está bajo el control de la persona que realiza la prueba.
Si suponemos que la hipótesis planteada es verdadera, entonces, el nivel de
significación indicará la probabilidad de no aceptarla, es decir, estén fuera
de área de aceptación. El nivel de confianza (1-α), indica la probabilidad de
aceptar la hipótesis planteada, cuando es verdadera en la población.
La distribución de muestreo de la estadística de prueba se divide en dos
regiones, una región de rechazo (conocida como región crítica) y una región
de no rechazo (aceptación). Si la estadística de prueba cae dentro de la
región de aceptación, no se puede rechazar la hipótesis nula.
La región de rechazo puede considerarse como el conjunto de valores de la
estadística de prueba que no tienen posibilidad de presentarse si la hipótesis
nula es verdadera. Por otro lado, estos valores no son tan improbables de
presentarse si la hipótesis nula es falsa. El valor crítico separa la región de
no rechazo de la de rechazo.
son pruebas matemáticas que se aplican a las estadísticas para determinar
su grado de certeza y su significado.
Los métodos estadísticos interferenciales no paramétricos:

Son procedimientos matemáticos para testar la hipótesis estadística que, al
contrario de la estadística paramétrica, no hacen ninguna asunción sobre las
distribuciones de frecuencia de las variables que son determinadas.
El nivel de medición puede ser nominal u ordinal.
La muestra no tiene que ser aleatoria.
La distribución de la frecuencia no tiene que ser normal.
Se puede usar con muestras más pequeñas.
Los métodos estadísticos deductivos paramétricos:

Son los procedimientos matemáticos para testar la hipótesis estadística que
asumen que las distribuciones de las variables determinadas tienen ciertas
características.
El nivel de medición debe ser racional o intervalar.
La muestra debe ser aleatoria.
La distribución de la frecuencia debe ser normal.
La variación de resultados entre cada frecuencia debe ser similar.
Variable de respuesta
Cualita Cualit
tiva ativa
nomina nomin
l al Cualit
Factor (dos (> 2 ativa
Cuanti
de categor categ ordin
tativa
estudio ías) orías) al
Cualitati
vo (dos
grupos)
Z de
compar
ación
de
proporci
ones.
t de
Chi al
Studen
cuadrad
t-
o.
Fisher.
Prueba U de
Prueba
exacta Chi al Mann-
de
Independ de cuadra Whitn
Welch.
ientes Fisher. do. ey.
Prueb
a de
los
signos
.
Prueb
Prueba a de
t de
de los
Studen
McNem rango
t-Fisher
ar. s
para
Prueba signad
datos
exacta Q de os de
aparea
Aparead de Cochr Wilcox
dos.
os Fisher. an. on.
Cualitati
vo (más
de dos
grupos)
Prueb
Análisi
a de
s de la
Chi al Chi al Krusk
varianc
Independ cuadrad cuadra al-
ia.
ientes o. do. Wallis.
Análisi
s de la
varianc
Prueb
ia de
Q de Q de a de
dos
Aparead Cochra Cochr Fried
vías.
os n. an. man.
Correl
ación
Correla
de
ción de
Spear
Pearso
man.
n.
Análisi Tau
Regres
t de s de la de
ión
Cuantita Student varian Kenda
lineal.
tivo -Fisher. cia. ll.
Cuando las pruebas estadísticas aplicables a las variables cuantitativas no

cumplen las asunciones necesarias para su aplicación, deben utilizarse las
pruebas correspondientes como si las variables de respuesta fuera una
variable ordinal (pruebas no paramétricas).
PRUEBA DE KOLMOGOROV-SMIRNOV
Prueba de significación estadística no paramétrica para contrastar la
hipótesis nula cuando los parámetros de localización de ambos grupos son
iguales.
Este contraste, que es válido únicamente para variables continuas, compara
la función de distribución (probabilidad acumulada) teórica con la observada,
y calcula un valor de discrepancia, representado habitualmente como D, que
corresponde a la discrepancia máxima en valor absoluto entre la distribución
observada y la distribución teórica, proporcionando asimismo un valor de
probabilidad P, que corresponde, si estamos verificando un ajuste a la
distribución normal, a la probabilidad de obtener una distribución que
discrepe tanto como la observada si verdaderamente se hubiera obtenido
una muestra aleatoria, de tamaño n, de una distribución normal.
Si esa probabilidad es grande no habrá por tanto razones estadísticas para
suponer que nuestros datos no proceden de una distribución, mientras que,
si es muy pequeña, no será aceptable suponer ese modelo probabilístico
para los datos.
PRUEBA DE F
Prueba estadística que sirve para comparar varianzas.
El estadístico F experimental es el estadístico de contraste en el ANOVA y
otras pruebas de comparación de varianzas.
TEST DE CHI AL CUADRADO

La prueba de Ji-cuadrado es cualquier prueba estadística de la hipótesis en
cuál el test estadístico de la distribución del Ji-cuadrado si la hipótesis nula
es verdad.
Determina si existe asociación entre variables cualitativas.
Si el p-valor asociado al estadístico de contraste es menor se rechazará la
hipótesis nula.
Se utiliza para analizar tablas de contingencia y comparación de
proporciones en datos independientes
PRUEBA EXACTA DE FISHER (p.- 5%)

Permite valorar el efecto del azar.
Es una prueba estadística de significación usada en el análisis de los
tamaños pequeños categóricos de muestra de datos.
La necesidad de la prueba de Fischer se presenta cuando tenemos datos
que se dividan en dos categorías de dos maneras separadas.
Prueba de significación estadística utilizada para comparar proporciones en
tablas de contingencia.
Es preferible a la prueba de x2 cuando el tamaño de la muestra es reducido
(de menos de 30 efectivos).
Es la prueba estadística de elección cuando la prueba de Chi cuadrado no
puede ser empleada por tamaño muestral insuficiente.
PRUEBA DE MCNEMAR.
Prueba estadística que sirve para comparar proporciones en datos pareados.
Prueba de significación estadística para probar la hipótesis nula de
inexistencia de cambios en la proporción de sujetos que experimentan un
acontecimiento, cuando cada individuo es evaluado dos veces (en
condiciones diferentes) y los datos están emparejados.
PRUEBA BINOMIAL
En estadística, la prueba binomial es una prueba exacta de la significación
estadística de desviaciones de una distribución teóricamente prevista de
observaciones en dos categorías.
El uso más común de la prueba binomial es en el caso donde la hipótesis
nula es que dos categorías son igualmente probables ocurrir.
TEST DE CORRELACIÓN DE PEARSON

Se utiliza para estudiar la asociación entre un factor de estudio y una variable
de respuesta cuantitativa, mide el grado de asociación entre dos variables
tomando valores entre -1 y 1.
 Valores próximos a 1 indicarán fuerte asociación lineal positiva.
 Valores próximos a -1 indicarán fuerte asociación lineal negativa.
 Valores próximos a 0 indicarán no asociación lineal, lo que no significa que
no pueda existir otro tipo de asociación.
Prueba en una hipótesis nula que las frecuencias relativas de la ocurrencia
de acontecimientos observados siguen una distribución de frecuencia
especificada.
Los acontecimientos deben ser mutuamente exclusivos.
Es una prueba de la calidad de ajuste que establece sí o no una distribución
de frecuencia observada diferencia de una distribución teórica.
COEFICIENTE DE KAPPA
El Kappa es un índice ómnibus de aceptación en los estudios inter-
observadores, indica el grado de interrelación inter-observador.
Permite cuantificar el nivel del acuerdo inter-observador para disminuir la
subjetividad del método utilizado (test de movilidad) y si el grado de acuerdo
se debe al azar (a la suerte).
El porcentaje de acuerdo acompañado del índice de Kappa se utiliza para las
variables cualitativas.
Se habla del coeficiente de Kappa de Cohen para dos terapeutas y de Fleiss
para más de dos terapeutas.
Este coeficiente está comprendido entre 0 y 1. 0, corresponde a una
correlación que es idéntica a la encontrada por casualidad y 1 una correlación
perfecta entre los exámenes.
Los valores negativos indican habitualmente que existe un desacuerdo en la
manera de realizar el método entre los terapeutas.
Se calcula como la proporción de acuerdo, aparte del que ya sería de esperar
por azar, que ha sido observado entre dos repeticiones del mismo
instrumento (por ejemplo, un juicio realizado por dos observadores por
separado).
El coeficiente máximo de concordancia es de 1.00.
Un valor de 0.00 indica ninguna concordancia.
 entre 0.00 y 0.20: ligera.

 entre 0.21 y 0.40: pasable
 entre 0.41 y 0.60: moderada
 entre 0.61 y 0.80: importante
 entre 0.81 y 1.00: perfecta.
Un coeficiente de 0.4 puede considerarse como el límite de fiabilidad

aceptable de una prueba
El kappa es “un corrector de la medida de acuerdo”.
Como test de estadística, el kappa puede verificar que el acuerdo exceda los
niveles de suerte
bloque
Todos los bloque
C5-6
bloques C2-C4
K =
0.460
SE =
K = 0.756
0.091
K = 0.675 SE =
Z =
SE = 0.041 0.045
5.039
Valor del Kappa Z = 17.067 Z = 16.823
91%
Especificidad 98% 98%
55%
Sensibilidad 74% 78%
K = coeficiente de Kappa, SE = error estándar, Z =Test de especificidad de
la estadística.
COEFICIENTE DE CORRELACIÓN INTRACLASE (ICC)

El coeficiente de correlación intraclase (ICC) para las variables cuantitativas.
Utiliza el modelo 2 de Landis y Koch para la fiabilidad inter-examinador, y el
modelo 3 para la fiabilidad intra-examinadores (Landis RJ et Koch GG, 1977).
Este índice está también comprendido entre 0 y 1.
– El valor 1 corresponde a una reproductividad perfecta entre las mediciones.
– El valor 0 indicaría que existe la misma variancia entre las mediciones
tomadas sobre un único paciente que las mediciones tomadas entre
diferentes pacientes.
KAPPA
TESTS ICC
0.26
Altura crestas ilíacas 52
0.54
Altura EIPS 75
0.62
TFD 82
0.26
TFS 63
0.18
Gillet 60
0.81
Elev. activa pierna extendida 93
0.61
Joint play 75
0.73
Thigh thrust 81
0.17
Separación 58
0.51
Gaenslen 80
0.65
Patrick 80
0.38
Sacral thrust 68
0.83
Sensibilidad ligamento SI. 91
0.59
Compresión 85
TEST DE CORRELACIÓN DE SPEARMAN

Es una medición no paramétrica de correlación, asume una función
monotónica arbitraria para describir la relación entre dos variables, sin hacer
ningunas asunciones sobre la distribución de frecuencia de las variables.
A la diferencia del coeficiente del test de Pearson, no requiere la asunción
que la relación entre las variables es linear, ni que las variables sean medidas
en escalas del intervalo; puede ser utilizado para variables medidas en nivel
ordinal.
Se utiliza si no se cumplen las condiciones de aplicación del test de Pearson.
Es una variante del test de correlación de Pearson se aplica cuando cada
valor en sí no es tan importante como su situación respecto a los restantes.
Sus valores se interpretan exactamente igual que los del coeficiente de
correlación de Pearson.
La correlación de Spearman mide el grado de asociación entre dos variables
cuantitativas que siguen una tendencia siempre creciente o siempre
decreciente.
Es más general que el Coeficiente de correlación de Pearson, la correlación
de Spearman, en cambio se puede calcular para relaciones exponenciales o
logarítmicas entre las variables.
TEST DE WILCOXON
Contrasta la hipótesis nula de que la muestra procede de una población en
la que la magnitud de las diferencias positivas y negativas entre los valores
de las variables es la misma.
Prueba estadística no paramétrica para la comparación de dos muestras (dos
tratamientos).
Las distribuciones de datos no necesitan seguir la distribución normal.
Es por tanto una prueba menos restrictiva que la prueba t-Student.
PRUEBA DE SHAPIRO-WILKS.
Aunque esta prueba es menos conocida es la que se recomienda para
contrastar el ajuste de nuestros datos a una distribución normal, sobre todo
cuando la muestra es pequeña (n<30).
Mide el ajuste de la muestra a una recta, al dibujarla en papel probabilístico
normal.
PRUEBA “t” DE STUDENT-FISHER

Si se comparan dos grupos respecto a una variable cuantitativa.
En caso contrario, se utiliza una prueba no paramétrica equivalente, como la
U de Mann-Whitney.
Se utiliza para la comparación de dos medias de poblaciones independientes
y normales.
Prueba de significación estadística paramétrica para contrastar la hipótesis
nula respecto a la diferencia entre dos medias.
Cuando las dos medias han sido calculadas a partir de dos muestras
completamente independientes de observaciones (situación poco probable
en la práctica, por lo menos desde un punto de vista teórico), la prueba se
describe como no emparejada.
Cuando las dos medias han sido extraídas de observaciones consecutivas
en los mismos sujetos en dos situaciones diferentes, se comparan los valores
de cada individuo, y se aplica una prueba emparejada.
La prueba “t” de Student es un tipo de estadística deductiva.
Se utiliza para determinar si hay una diferencia significativa entre las medias
de dos grupos.
Con toda la estadística deductiva, asumimos que las variables dependientes
tienen una distribución normal.
Especificamos el nivel de la probabilidad (nivel de la alfa, nivel de la
significación, p) que estamos dispuestos a aceptar antes de que cerco datos
(p < .05 es un valor común que se utiliza).
Notas sobre la prueba t de Student:
 Cuando la diferencia entre dos promedios de la población se está

investigando, se utiliza una prueba t. Es decir que se utiliza cuando
deseamos comparar dos medias (las cuentas se deben medir en una escala
de intervalo o de cociente).
 Utilizaríamos una prueba t si deseamos comparar el logro de la lectura de
hombres y de mujeres.
 Con una prueba t, tenemos una variable independiente y una dependiente.
 La variable independiente (género en este caso) puede solamente tener dos
niveles (varón y hembra).
 Si la independiente tuviera más de dos niveles, después utilizaríamos un
análisis de la variación unidireccional (ANOVA).
 La prueba estadística para t de Student es el valor t. Conceptualmente, la t-
valor representa el número de unidades estándares que están separando las
medias de los dos grupos.
 Con una t-prueba, el investigador desea indicar con un cierto grado de
confianza que la diferencia obtenida entre los medios de los grupos de la
muestra sea demasiado grande ser un acontecimiento chance.
 Si nuestra t-prueba produce una t-valor que da lugar a una probabilidad de
.01, decimos que la probabilidad de conseguir la diferencia que encontramos
sería por casualidad 1 en 100 veces.
Cinco factores contribuyen para indicar si la diferencia entre dos medias de

los grupos se puede considerar significativa:
Cuanto mayor es la diferencia entre las dos medias, mayor es la probabilidad
que una diferencia estadística significativa existe.
1. La cantidad de traslapo que existe entre los grupos (es una función de la
variación dentro de los grupos). Cuantas más pequeñas son las variaciones
que existen entre los dos grupos, mayor es la probabilidad que una diferencia
estadística significativa existe.
2. El tamaño de la muestra es extremadamente importante en la determinación
de la significación de la diferencia entre las medias. Aumentando el tamaño
de la muestra, las medias tienden a ser más estables y más representativas.
3. Un nivel más grande de la alfa requiere menos diferencia entre las medias (p
< .05).
4. Se debe utilizar una hipótesis (con dos colas) no directivas.
Asunciones subyacentes la prueba de t:
1. Las muestras se han dibujado aleatoriamente a partir de sus poblaciones

respectivas.
2. La población se debe distribuir normalmente.
3. Unimodal (un modo).
4. Simétrico (las mitades izquierdas y derechas son imágenes espejo), el mismo
número de gente arriba o abajo de la media.
5. Acampanado (altura máxima (moda) en el medio).
6. Media, moda, y mediana se localizan en el centro.
7. Asintótico (cuanto más lejos se aleja la curva de la media, más cercana será
el eje de X; pero la curva nunca debe tocar el eje de X).
8. El número de personas en las poblaciones debe tener la misma varianza (s2
= s2). Si no es el caso se utiliza otro cálculo para el error estándar.
Existen 2 tipos de prueba t de Student
 Test t para diferencia par ( grupos dependientes, test t correlacionado) : df=

n (número de pares) -1
Esto se refiere a la diferencia entre las cuentas medias de una sola muestra
de individuos que se determina antes del tratamiento y después del
tratamiento. Puede también comparar las cuentas medias de muestras de
individuos que se aparean de cierta manera (por ejemplo los hermanos,
madres, hijas, las personas que se emparejan en términos de las
características particulares).
 Test t para muestras independientes
Esto se refiere a la diferencia entre los promedios de dos poblaciones.
Básicamente, el procedimiento compara los promedios de dos muestras que
fueron seleccionadas independientemente una de la otra.
Un ejemplo sería comparar cuentas matemáticas de un grupo experimental
con un grupo de control.
¿Cómo decido qué tipo de t-prueba a utilizar?
Error tipo I:
 Rechaza una hipótesis nula que sea realmente verdad. La probabilidad de
hacer un error tipo I depende del nivel alfa que se Eligio.
 Si se fijó la probabilidad alfa en p < 05, entonces existe un 5% de
posibilidades de hacer un error de tipo I.
 Se puede reducir la posibilidad de hacer un error tipo I fijando un nivel alfa
más pequeño (p < .01). El problema haciendo esto es que se aumenta la
posibilidad de un error tipo II.
Error tipo II:

 Falla en rechazar una hipótesis nula que sea falsa.
 La idea básica para calcular una prueba de Student es encontrar la diferencia
entre las medias de los dos grupos y dividirla por el error estándar (de la
diferencia), es decir la desviación de estándar de la distribución de las
diferencias.
 Un intervalo de confianza para una prueba t con dos colas es calculado
multiplicando los valores críticos por el error de estándar y agregando y
restando eso de la diferencia de las dos medias.
 El efecto tamaño se utiliza para calcular la diferencia práctica. Si existen
varios miles de pacientes, es muy fácil encontrar una diferencia
estadísticamente significativa.
 Saber si esa diferencia es práctica o significativa es otra pregunta.
 Con los estudios implicando diferencias de grupo, el tamaño del efecto es la
diferencia de las dos medias dividido por la desviación estándar del grupo
control (o la desviación estándar media de ambos grupos si no hay grupo de
control).
 Generalmente, el tamaño del efecto es solamente importante si existe una
significación estadística.
 Un efecto tamaño de 2 se considera pequeño, 5 se considera medio, y 8 se
considera grande.
TEST DE MANN-WHITNEY
La prueba de Mann-Whitney U es una de las pruebas de significación más

conocidas.
Es apropiada cuando dos muestras independientes de observaciones se
miden en un nivel ordinal, es decir que podemos decir cuál es la mayor de
estas dos observaciones.
Determina si el grado de coincidencia entre dos distribuciones observadas es
inferior a la esperada por suerte en la hipótesis nula que las dos muestras
vienen de una misma población.
Prueba de significación estadística no paramétrica para probar la hipótesis
nula de que el parámetro de localización (generalmente la mediana) es el
mismo cuando se comparan dos grupos independientes, cualquiera que sea
el tipo de distribución de la variable (distribución normal o de otro tipo).
Se usa cuando se quiere comparar dos poblaciones usando muestras
independientes, es decir; es una prueba alterna a la prueba de t para
comparar dos medias usando muestras independientes.
La hipótesis nula es que las medianas de las dos poblaciones son iguales y
la hipótesis alterna puede ser que la mediana de la población 1 sea mayor
(menor ó distinta) de la mediana de la población 2.
Prueba de Mann-Whitney para muestras independientes:
 Si tenemos dos series de valores de una variable continúa obtenidas en dos

muestras independientes: X1, X2,…, Xn, Y1, Y2,…, Ym, procederemos a
ordenar conjuntamente todos los valores en sentido creciente, asignándoles
su rango, corrigiendo con el rango medio los empates.
 Calculamos luego la suma de rangos para las observaciones de la primera
muestra Sx, y la suma de rangos de la segunda muestra Sy.
 Si los valores de la población de la que se extrajo la muestra aleatoria de X
se localizan por debajo de los valores de Y, entonces la muestra de X tendrá
probablemente rangos más bajos, lo que se reflejará en un valor menor de
Sx del teóricamente probable.
 Si la menor de las sumas de rangos es excesivamente baja, muy improbable
en el caso de que fuera cierta la hipótesis nula, ésta será rechazada.
PRUEBA DE KRUSKAL-WALLIS
Prueba de significación estadística no paramétrica para contrastar la
hipótesis nula cuando los parámetros de localización de dos o más grupos
son iguales.
La prueba de Kruskal-Wallis, es una alternativa a la prueba F del análisis de

varianza para diseños de clasificación simple. En este caso se comparan
varios grupos, pero usando la mediana de cada uno de ellos, en lugar de las
medias.
La prueba de Kruskal-Wallis, es una alternativa a la prueba F del análisis de

varianza para diseños de clasificación simple.
En este caso se comparan varios grupos, pero usando la mediana de cada
uno de ellos, en lugar de las medias.
 Ho: La mediana de las k poblaciones consideradas son iguales y,
 Ha: Al menos una de las poblaciones tiene mediana distinta a las otras.
Donde, n es el total de datos.
Este contraste, que es válido únicamente para variables continuas, compara

la función de distribución (probabilidad acumulada) teórica con la observada,
y calcula un valor de discrepancia, representado habitualmente como D, que
corresponde a la discrepancia máxima en valor absoluto entre la distribución
observada y la distribución teórica, proporcionando asimismo un valor de
probabilidad P, que corresponde, si estamos verificando un ajuste a la
distribución normal, a la probabilidad de obtener una distribución que
discrepe tanto como la observada si verdaderamente se hubiera obtenido
una muestra aleatoria, de tamaño n, de una distribución normal.
Si esa probabilidad es grande no habrá por tanto razones estadísticas para
suponer que nuestros datos no proceden de una distribución, mientras que,
si es muy pequeña, no será aceptable suponer ese modelo probabilístico
para los datos.
PRUEBAS NO-PARAMÉTRICAS
El análisis de la variación asume que las distribuciones subyacentes están

distribuidas normalmente y que las variaciones de las distribuciones que son
comparadas son similares.
El coeficiente de correlación de Pearson asume normalidad.
Mientras que las técnicas paramétricas son robustas (es decir, conservan a
menudo un poder considerable para detectar diferencias o semejanzas
incluso cuando se violan estas asunciones), algunas distribuciones violan
tanto que una alternativa no paramétrica es más deseable para detectar una
diferencia o una semejanza.
Pruebas no paramétricas para muestras relacionadas
Conclusión
El análisis de regresión y correlación lineal constituyen métodos que se

emplean para conocer las relaciones y significación entre series de datos. Lo
anterior, es de suma importancia para la industria ya que es aquí en donde
se presentan variables de respuesta e independientes las cuales interactúan
para originar las características de un proceso en particular y, por ende;
analizar, predecir valores de la variable dependiente y examinar el grado de
fuerza con que se relacionan dichas variables.
Al hacer una contrastación de hipótesis podemos decir que:
 Las hipótesis no se plantean después de observar un dato.
 Se rechaza la hipótesis nula (Ho), se acepta la hipótesis alterna (H1) a un

nivel de significancia de α = 0.05. La prueba resultó ser significativa.
 La evidencia estadística no permite aceptar la aceptar la hipótesis nula.

Referencias Bibliográficas
http://www5.uva.es/estadmed/inferen/contrastes/contrastes.htm
https://www.ugr.es/~erivera/PaginaDocencia/Posgrado/Documentos/Cleme
nteCuadernoInferencial.pdf
http://www.iespugaramon.com/ies-puga-
ramon/resources/bidimensional_correlacion_regresion1461859284124.pdf
https://www.uv.es/ceaces/base/descriptiva/covarianza.htm
https://www.scientific-european-federation-osteopaths.org/los-tests-
estadisticos/

Correlacion y Regresion. Contraste de Hipotesis

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Correlacion y Regresion. Contraste de Hipotesis

Hochgeladen von

Copyright:

Verfügbare Formate

República Bolivariana de Venezuela

Ministerio del Poder Popular para la Educación Universitaria

Araure, 03 de diciembre de 2018

a) Las tablas estadísticas bidimensionales simples adoptan la siguiente forma:

Variable X Variable Y Frecuencia absoluta

X (tallas en m) 1,70 1,70 1,69 1,68

y1 f1 1 f2 1 ··· fi1 ··· fn 1 f• 1

y2 f12 f2 2 ··· fi2 ··· fn 2 f• 2

yj f1 j f2 j ··· fij ··· fn j f• j

Denotamos por f ij a la frecuencia absoluta correspondiente al par (xi , yj) y por N

en el caso de disponer de la distribución agregada por frecuencias en una tabla de

en el caso de disponer de la distribución sin agregar por frecuencias (en un listado

4. La expresión de cálculo de la covarianza es

si las observaciones están agregadas por frecuencias, o bien:

si las observaciones no están agregadas por frecuencias

La correlación es la forma numérica en la que la estadística ha podido evaluar la

La correlación se puede explicar con la pendiente de esa recta estimada y de esta

Edad (x) Peso (y) X2 Y2 X* Y

15 60 225 3600 900

30 75 900 5625 2250

18 67 324 4489 1206

42 80 1764 6400 3360

28 60 784 3600 1680

19 65 361 4225 1235

Se debe aclarar que el coeficiente de correlación sólo puede variar de la siguiente

En el caso de que fueran datos agrupados tendremos lo siguiente:

Para entender el uso de esta fórmula usaremos un ejemplo:

Al interpretar nuestro resultado podemos concluir que, si existe relación entre el

En muchas ocasiones el resultado de la correlación es negativo y lo que debemos

coeficiente de correlación de Pearson es la principal medida de asociación lineal

La prueba de significación del coeficiente de correlación de Pearson puede

 Bilateral (a doble cola) si se contrasta la hipótesis nula de ausencia de

 Unilateral (a una sola cola) si se contrasta la hipótesis nula especificando de

La recta de regresión es la que mejor se ajusta a la nube de puntos.

La recta de regresión pasa por el punto llamado centro de

Recta de regresión de Y sobre X

La pendiente de la recta es el cociente entre la covarianza y la varianza

Recta de regresión de X sobre Y

La recta de regresión de X sobre Y se utiliza para estimar los valores de

La pendiente de la recta es el cociente entre la covarianza y la varianza

Si la correlación es nula, r = 0, las rectas de regresión son

 Las notas de 12 alumnos de una clase en Matemáticas y Física son las

 Hallar las rectas de regresión y representarlas.

10 10 100 100 100

72 60 431 504 380

3º Calculamos las varianzas.

4ºRecta de regresión de Y sobre X.

4ºRecta de regresión de X sobre Y.

Se formula una hipótesis sobre el parámetro. Por ejemplo:  = 0 y con la

a) hipótesis simples e hipótesis compuestas.

Una hipótesis es simple cuando se refiere a un único valor del parámetro,

Una hipótesis es compuesta cuando se refiere a un subconjunto más

b) Hipótesis nula e hipótesis alternativa.

La hipótesis nula es la hipótesis inicial que se acepta provisionalmente

La hipótesis alternativa se designa H1 es la hipótesis complementaria de la

Como consecuencia de la comprobación experimental, la hipótesis nula

Formas básicas de un contraste paramétrico.

Las formas de un contraste de hipótesis depende de las especificaciones

Región crítica y región de aceptación.

Se denomina región crítica a la constituida por el conjunto de muestras para

Se denomina región de aceptación la constituida por el conjunto de

Se denominan valores críticos de la muestra aquellos que separan la región

Cuando estamos ante un contraste bilateral (hipótesis alternativa bilateral)