Sie sind auf Seite 1von 65

ESTADISTICA BASICA

Mtra. Verónica Belén Rodríguez Hevia


veronica_rohevia@hotmail.com
Veronica.rodriguez@uvmnet.edu

Julio de 2011
Definición de Estadística
“Es el conjunto de técnicas que se emplean para la recolección,
organización, análisis e interpretación de datos.” (Kazmier, 1998:1).

“El tema de la estadística moderna abarca la recolección, presentación


y caracterización de información para ayudar tanto en el análisis de
datos como en el proceso de toma de decisiones.” (Berenson y Levine,
1996:2)

“Método de toma de decisiones frente a la incertidumbre.” (Chou,


1977:1)

“Método científico de operar con los datos y de interpretarlos.”


(Portus, 1994:3)

“Métodos y procedimientos para recoger, clasificar, resumir, hallar


regularidades y analizar los datos, siempre y cuando la variabilidad e
incertidumbre sea una causa intrínseca de los mismos.” (Montiel y
otros, 1996:2)

“El análisis estadístico se usa para manipular , resumir e investigar


datos con el fin de obtener información útil en la toma de decisiones.”
(Hanke y Reitsch, 1997:3)
Para qué sirve la estadística?
 La Ciencia se ocupa en general de fenómenos observables

 La Ciencia se desarrolla observando hechos, formulando leyes


que los explican y realizando experimentos para validar o
rechazar dichas leyes

 La Estadística se utiliza como tecnología al servicio de las


ciencias donde la variabilidad y la incertidumbre forman parte
de su naturaleza
Ámbito de la Estadística:
Casi todas las áreas del saber requieren del pensamiento estadístico. Las disciplinas
de estudio que dependen ampliamente del análisis estadístico, incluyen -pero no se
limitan a-, marketing, finanzas economía e investigación de operaciones. Los
principios de contabilidad y gerencia financiera también se basan en principios
estadísticos.

Contabilidad:
•Para seleccionar muestras con propósitos de auditoría.
•Para comprender los derroteros de costos en contabilidad de costos.

Finanzas:
•Para estar al tanto de las medidas financieras en el transcurso del tiempo.
•Para desarrollar formas de pronosticar valores de estas medidas en momentos futuros.

Administración:
•Para describir las características de los empleados dentro de una organización.
•Para mejorar la calidad de los productos fabricados o de los servicios procurados por la organización.

Mercadeo:
•Para determinar la proporción de clientes que prefieren un producto en vez de otro y la razón de esto.
•Para sacar conclusiones respecto a la estrategia de publicidad que sería más útil para el incremento de ventas de
un producto.
Definición
 La Estadística es la Ciencia de la

 Sistematización, recogida, ordenación y


presentación de los datos referentes a un
fenómeno que presenta variabilidad o
incertidumbre para su estudio metódico, con objeto
de

 deducir las leyes que rigen esos fenómenos,

 y poder de esa forma hacer previsiones sobre los


mismos, tomar decisiones u obtener
conclusiones.
TIPOS DE ESTADÍSTICA

ESTADISTICA DESCRIPTIVA : Puede definirse como


aquellos métodos que incluyen la recolección,
presentación y caracterización de un conjunto de
datos con el fin de describir apropiadamente las
diversas características de ese conjunto de datos.

 ESTADÍSTICA INFERENCIAL : Pueden definirse


como aquellos métodos que hacen posible la
estimación de una característica de una
población o la toma de una decisión referente a
una población, basándose solo en los resultados
de la muestra.
PENSAMIENTO ESTADÍSTICO

 “CONJUNTO DE PROCESOS DEL PENSAMIENTO QUE SE


ORIENTAN A LA FORMA DE ENTENDER, ADMINISTRAR Y
REDUCIR LA VARIACIÓN” (Berenson y Levine, 2001:4)

“CONJUNTO DE PRINCIPIOS Y VALORES QUE PERMITEN


IDENTIFICAR LOS PROCESOS, CARACTERIZARLOS,
CUANTIFICARLOS, CONTROLAR Y REDUCIR SU
VARIACIÓN PARA IMPLANTAR ACCIONES DE MEJORA”.
(Snee, 1993)
Pensamiento Estadístico
Mundo “real”

Pruebas de hipótesis
Problema Inferencia Estimaciones

Factor 1 Factor 2 Factor p

Tablas y gráficos de frecuencias

Indicadores de centralidad
(Moda, Mediana, Media)
Descripción
de los datos Indicadores de dispersión
(Recorrido, Varianza, Desv. Típica)

Coeficientes de correlación

Diseño de muestreo
La inferencia estadística es el proceso que consiste en
inferir una conclusión acerca de alguna medida de
población (parámetro), con base a algún estadístico
obtenido de una muestra aleatoria, con un cierto nivel de
confianza. Las pruebas de hipótesis ayudan a este
proceso.
Población



Muestra
x
s
DEFINICIONES BÁSICAS
 UNIVERSO: Es un conjunto integrado por todos los
elementos, seres u objetos que contienen las
características u observaciones que se requieren en una
investigación dada.
 POBLACIÓN: Es el conjunto integrado por todas las
mediciones u observaciones del universo de interés en la
investigación. Por lo tanto pueden definirse varias
poblaciones en un solo universo, tantas como
características a medir.
 MUESTRA: Es una parte (sub-conjunto) de la población,
obtenida con el propósito de investigar propiedades que
posee la población. Es decir, se pretende que dicho sub-
conjunto, represente a la población a la cual se extrajo.
II.- ESTADÍSTICA INFERENCIAL
A) Procedimiento General de la Prueba Estadística de Hipótesis:

Paso 1: Plantear las Hipótesis.

Hipótesis Nula (Ho): Negación de lo declarado en la Pueden ser:


hipótesis de investigación. A) Paramétricas
Hipótesis Alternativa (H 1 ) : Sentencia que se desea B) No-paramétricas
probar con el estudio.

Paso 2: Establecer el nivel de significación ().

: máxima probabilidad de rechazar la Hipótesis Nula siendo verdadera. Su valor


está en proporción inversa con la importancia que tiene para el investigador
aceptar como cierta una hipótesis que es falsa. Por lo tanto, es una decisión del
investigador de acuerdo con el riesgo máximo que acepta correr y, por
supuesto, en función de los recursos con los que cuenta. Los posibles escena-
rios se muestran a continuación:
Tabla 2: Escenarios de la prueba de hipótesis

Situación actual o "real" en la población


Decisión de la prueba Ho cierta Ho falsa
No rechazar Ho Decisión correcta (1-) Error tipo II ()
Rechazar Ho Error tipo I () Decisión correcta (1-)

Paso 3: Determinar el tamaño de la muestra (n).


a) Grado de homogeneidad
de las variables claves.
Factores que determinan el tamaño de n: b) Nivel de significación ().
c) Error máximo admisible (e)
d) Costo o presupuesto
Paso 4: Establecer la Regla de Decisión (RD).

diferente (*)
R.D. (modelo): Si E.P. es mayor o (+) que Valor tabla, se Rechaza Ho.
menor (#)

Donde: E.P. es el valor del Estadístico de la Prueba específica que


corresponde.
(*) Prueba de dos extremos o dos colas..
(+) Prueba de una cola (superior).
(#) Prueba de una cola (inferior).
Paso 5: Recopilar los datos.
Paso 6: Calcular el Estadístico de la Prueba.
Paso 7: Tomar la decisión estadística.
Hay o no hay evidencias, con una confianza del (1-)%, a favor de la Hipótesis
de Investigación. Usando SPSS, se reduce a: Si sig. <  , se rechaza la Ho.
ANALISIS ESTADÌSTICO

 “Ciencia que recoge, ordena y analiza los


datos de una muestra extraída de una
determinada poblacion, para hacer
inferencias de esa poblacion valiéndose del
cálculo de probabilidades” (Amon, 1979)

Nos permite:
• Tomar decisiones
• Solucionar problemas
PARA QUE SIRVE EL ANÁLISIS ESTADÍSTICO
Formales (Matemáticas, Física, Medicina)
Deducción lógica.
Ciencias
Empíricas (psicología, sociología, Economía,)
Generalización inductiva
 En las ciencias empíricas el objetivo fundamental es el de encontrar relaciones
de tipo general (leyes), capaces de explicar eventos reales cuando se dan las
circunstancias apropiadas. (Se descubren y verifican observando el mundo real).
 La generalización inductiva, intenta ir desde lo que considera que es verdad para
un número reducido de observaciones hasta la afirmación de que eso mismo es
verdad para el total de observaciones posibles de la misma clase.
 La generalización inductiva. En las ciencias empíricas las fuentes de variación
existentes son numerosas y difícil de identificar, medir y controlar, por ello
necesita una metodología especial que las valide: “El análisis estadístico”

 En situaciones aleatorias en que la misma causa puede producir cualquiera de


un conjunto de resultados posibles (Respuesta al tratamiento de un paciente) es
necesario recurrir al análisis estadístico para extraer conclusiones fiables.
(Reducción de la incertidumbre).
ANÁLISIS ESTADÍSTICO

 TIPOS DE VARIABLES

VARIABLE : Característica que puede tomar diferentes


valores dentro de un conjunto de datos.
Propiedad que puede variar y cuya variación es
susceptible a medirse u observarse. Sampieri. (2003:143)
EJEMPLOS: Sexo, atractivo físico, la religión, la
agresividad verbal, presión arterial, nivel socio económico.

Las variables adquieren valor para la investigación


científica cuando llegan a relacionarse con otras (formar
parte de una hipótesis o una teoría).
CLASIFICACIÓN DE LAS VARIABLES

NOMINAL

CUALITATIVA

ORDINAL

VARIABLE

DISCRETA

CUANTITATIVA

CONTINUA
Tipos de variables
 Cualitativas
Si sus valores (modalidades) no se pueden asociar naturalmente a
un número (no se pueden hacer operaciones algebraicas con
ellos)

 Nominales: Si sus valores no se pueden ordenar


 Sexo, Grupo Sanguíneo, Religión, Nacionalidad, Fumar (Sí/No)

 Ordinales: Si sus valores se pueden ordenar


 Mejoría a un tratamiento, Grado de satisfacción, Intensidad del dolor

 Cuantitativas o Numéricas
Si sus valores son numéricos (tiene sentido hacer operaciones
algebraicas con ellos)

 Discretas: Si toma valores enteros


 Número de hijos, Número de cigarrillos, Num. de “cumpleaños”

 Continuas: Si entre dos valores, son posibles infinitos valores


intermedios.
 Altura, Presión intraocular, Dosis de medicamento administrado,
NIVEL DE MEDICIÓN
Nombra las observaciones en  Sexo
categorías mutuamente excluyente.
NOMINAL  Raza
Nombres o clasificaciones que se
utilizan para datos en categorías  Diagnósticos
distintas y separadas.
Son las que clasifican las  Nivel Socioeconómico
observaciones en categorías Bajo, medio y alto.
con un orden significativo.  Actitud
ORDINAL Hay orden y jerarquía En desacuerdo, Indeciso,
De acuerdo
Solo toman valores enteros. Edad
0 Es Medidas en una escala Temperatura
INTERVALO numérica en la cual el valor de
cero es arbitrario pero la
deferencia entre valores es
importante.
arbitrario.
Pueden tomar valores Peso
RAZON decimales dentro de un Distancias Km., pie
intervalo
0 Es absoluto
EL PAPEL DE LOS PAQUETES DE
COMPUTACIÓN EN ESTADÍSTICA

SAS STATISTIC

MINITAD
EXCEL

SPSS (STATISTICAL
PACKAGE FOR THE
SOCIAL SCIENCE
10.0 en Español
Tipo de Investigación

 Descriptiva: Procura definir las cualidades de un


evento.
 Comparativa: Persigue establecer similitudes o
diferencias la presencia de una variable entre
dos o mas grupos.
 Correlacional: Busca encontrar relaciones entre
variables
 Explicativa: Establece la naturaleza de la relación
de causalidad entre una o diversas variables
independientes con una o unas variable
dependiente
TIPO DE VARIABLE
TIPO DE PALABRAS
ORDINAL Y INTERVALO Y
INVESTIGACIÓN CLAVES NOMINAL RAZÓN

MODA
MEDIA, MEDIANA,
CLASIFICAR, DISTRIBUCIONES DE VARIANZA.
CATEGORIZAR FRECUENCIA
DESCRIPTIVA EQUIPARAR GRÁFICOS, HISTOGRAMAS,
DESVIACIÓN TÍPICA
CURTOSIS
IGUALAR, CONTRASTAR PASTELES
ASIMETRÍA

2G WILCOSON t de student
COMPARAR, GRUPOS
DIFERENCIAR,
COMPARACIÓN EQUIPARAR, IGUALAR, >2G KRUSKAL ANOVA
CONTRASTAR GRUPOS WALLIS PRUEBA DE MEDIAS
FRIEDMAN (TUKEY, LSD)

RELACIONAR, ASOCIAR
CHI CUADRADO, CORRELACIÓN DE
RELACIÓN VINCULAR
RANGOS DE SPEARMAN PEARSON
(UNIÓN NEXO)

CONSECUENCIA ANÁLISIS MULTIVARIADO


CORRELACIONES CANÓNIGAS REGRESIÓN SIMPLE
CAUSA
CAUSA - EFECTO EFECTO
FACTORES COMUNES REGRESIÓN
ANÁLISI CLUSTER MÚLTIPLE
INCIDENCIA ANÁLISIS DISCRIMINANTES
RELACIÓN ENTRE ESTADÍSTICA E INVESTIGACIÓN
PROCESO DE OPERACIONES ESTADÍSTICAS CORRESPONDIENTES
INVESTIGACIÓN
1.- Formulación del Determinar si se requerirán o no procedimientos cuantitativos.
PROBLEMA
2.- Definición de VARIABLES Definir: Indicadores, función, nivel de medición y escala para cada
variable.
3.- Formulación de HIPOTES Formular: Hipótesis nulas, hipótesis alternativas y nivel de
significación.
4.- Elección del DISEÑO decidir si estudiar toda la población o sólo una muestra
extraída de ella.
5.- Selección de los Determinar para cada instrumento: validez, confiabilidad.
INSTRUMENTOS
6.- Selección de la MUESTRA Determinar: el universo, la unidad muestral, el método de muestreo
y el tamaño de la muestra.
7.- Selección de la Técnica Determinar si la técnica será: univariable, bivariable o multivariable;
de ANALISIS descriptiva o inferencial; paramétrica o no paramétrica; para una,
para dos o para más muestras.
8.- Observación

9.- PROCESAMIENTO de Realizar las siguientes operaciones: codificación, tabulación,


Datos programación, computación e interpretación de los datos.
10.- Elaboración del Elaborar tablas y gráficos
INFORME
ESTADÍSTICA DESCRIPTIVA

MEDIDAS DE LOCALIZACIÓN
MEDIDAS DE DISPERSIÓN
MEDIDAS DE FORMA
MEDIDAS DE POSICIÓN
DISTRIBUCIÓN DE FRECUENCIAS
MEDIDAS DE TENDENCIA CENTRAL
Medidas de localización
Media Aritmética
Se obtiene sumando todos los valores de una
población o muestra y dividiendo entre el número de
valores sumados.
x
 x i

  x i

N
Los valores extremos influyen sobre la media, y en
algunos casos puede distorsionarla tanto que llega a
ser indeseable como medida de tendencia central.
Medidas de localización
La Moda

 La moda de un conjunto de valores es aquel que ocurre


con mayor frecuencia
 Si todos los valores son diferentes, no hay moda.
 Un conjunto de valores puede tener mas de una moda

Ejemplo:
¿Cual es la moda en los siguientes datos?
12 14 09 04 12 33 23 17 33 31 12 24 09 18
16 09 25 07 15
Medidas de localización
La Mediana

 La mediana de un conjunto finito de valores es aquel


valor que divide al conjunto de números ordenados
en dos partes iguales.
 Ninguna observación extrema en un conjunto de
datos afecta a la mediana, en consecuencia, siempre
que una observación extrema esté presente, es
adecuado usar la mediana en lugar de la media para
describir un conjunto de datos.
n+1 (Par)
Me =
2
Tendencia central
son medidas que buscan posiciones (valores) con respecto a los cuales
los datos muestran tendencia a agruparse.

 Media: Es la media aritmética (promedio) de los valores de una


variable. Suma de los valores dividido por el tamaño muestral.
 Media de 2,2,3,7 es (2+2+3+7)/4=3,5
 Conveniente cuando los datos se concentran simétricamente con
respecto a ese valor. Muy sensible a valores extremos.
 Centro de gravedad de los datos

 Mediana: Es un valor que divide a las observaciones en dos grupos


con el mismo número de individuos. Si el número de datos es par, se
elige la media de los dos datos centrales.
 Mediana de 1,2,4,5,6,6,8 es 5
 Mediana de 1,2,4,5,6,6,8,9 es (5+6)/2=5,5
 Es conveniente cuando los datos son asimétricos. No es sensible
a valores extremos.
 Mediana de 1,2,4,5,6,6,800 es 5. ¡La media es 117,7!

 Moda: Es el/los valor/es donde la distribución de frecuencia alcanza


un máximo.
Un objeto pequeño se pesó con un mismo instrumento,
separadamente por nueve estudiantes en una clase de ciencias. Los
pesos obtenidos por cada estudiante (en gramos) se muestran a
continuación:

6.2 6.0 6.0 15.3 6.1 6.3 6.2 6.15 6.2

Los estudiantes quieren determinar con la mayor precisión posible el


peso real del objeto. ¿Cuál de los siguientes métodos les
recomendarías usar?

 ___ a) Usar el número más común, que es 6.2

 ___ b) Usar 6.15, puesto que es el peso más preciso

 ___ c) Sumar los 9 números y dividir la suma por 9

 ___ d) Desechar el valor 15.3; sumar los otros 8 números y dividir por
8.
 Una profesora quiere cambiar la disposición de los asientos en su clase, con la
esperanza de que ello incremente el número de preguntas que hacen sus
alumnos. Primero, decide ver cuántas preguntas hicieron los estudiantes con la
colocación actual de los asientos. Un registro del número de preguntas hechas
por sus 8 estudiantes durante una clase se muestra a continuación:

 La profesora quiere resumir estos datos, calculando el número típico de


preguntas hechas ese día.
¿Cuál de los siguientes métodos le recomendarías que usara?
___ a) Usar el número más común, que es el 2.
___ b) Sumar los 8 números y dividir por 8.
___ c) Descartar el 22, sumar los otros 7 números y dividir por 7.
___ d) Descartar el 0, sumar los otros 7 números y dividir por 7.
Cuarenta estudiantes universitarios participaron en un estudio sobre el
efecto del sueño sobre las puntuaciones en los exámenes. Veinte
estudiantes estuvieron voluntariamente despiertos toda la noche anterior
al examen (grupo que no durmió), los otros 20 estudiantes (grupo de
control) se acostaron a las 11 de la noche anterior al examen. Las
puntuaciones del examen se muestran en los gráficos siguientes. Cada
punto representa la puntuación de un estudiante particular.
Examina los dos gráficos con cuidado. Luego escoge entre las 6 posibles conclusiones
que se listan a continuación aquella con la que estés más de acuerdo.

 ___ a) El grupo que no durmió lo hizo mejor porque ninguno de estos


estudiantes puntuó por debajo de 40 y la máxima puntuación fue obtenida por
un estudiante de ese grupo

 ___ b) El grupo que no durmió lo hizo mejor porque su promedio parece ser un
poco más alto que el promedio del grupo que durmió.

 ___ c) No hay diferencia entre los dos grupos, porque hay un solapamiento
considerable en las puntuaciones de los dos grupos.

 ___ d) No hay diferencia entre los dos grupos, porque la diferencia entre sus
promedios es pequeña, comparada con la variación de sus puntuaciones.

 ___ e) El grupo que no durmió lo hizo mejor porque hubo en ese grupo más
estudiantes que puntuaron 80 o por encima.

 ___ f) El grupo de control lo hizo mejor, porque su promedio parece ser un poco
mayor que el promedio del grupo no durmió.
Calificaciones de 40 estudiantes en la
unidad curricular estadística I

15 20 20 19 18 17 11 16 10 15
12 14 13 15 14 16 14 19 13 17
16 13 16 12 13 14 12 18 17 15
10 16 11 16 12 17 19 15 13 14
Medidas de Dispersión

 La dispersión de un conjunto de observaciones


se refiere a la variabilidad que presentan estas.

 Una medida de dispersión conlleva información


respecto a la cantidad total de variabilidad
presente en el conjunto de datos
MEDIDAS DE DISPERSIÓN
Varianza
 La varianza es una medida de la dispersión que emplea todos los
valores de los datos. Se basa en la diferencia entre cada valor y la
media.
 La diferencia entre cada valor del dato Xi y el promedio ( x para
una muestra y µ para una población) se llama desviación respecto
al promedio.
 Para calcular la varianza, las desviaciones respecto al promedio se
elevan al cuadrado. Podemos decir que: la desviación estándar y la
varianza evalúan la manera en que fluctúan los valores respecto a la
media
 Para una muestra la desviación se expresa como: (Xi – x); para una
población: (Xi - µ)
MEDIDAS DE DISPERSIÓN
Varianza
 Para una muestra que contiene n observaciones X1, X2,
X3…….Xn la varianza de la muestra (representada por S2)
puede escribirse:

( X1 – X )2 + ( X2 – X )2 + ….........…. ( Xi – X )2
S2 = n-1

La varianza de la muestra, es
la suma de los cuadrados de
las diferencias con relación a la
VARIANZA ∑ ( Xi – X )2 media aritmética divida entre el
MUESTRAL S2 = n-1 tamaño de la muestra menos 1

∑ ( Xi –  )2
VARIANZA
POBLACIONAL
σ 2=
N
Unidades de la varianza son al
cuadrado.
MEDIDAS DE DISPERSIÓN
Desviación estándar
 Indica como se agrupa o distribuye un conjunto de datos
alrededor de la media.
 La desviación estándar también se define como la raíz cuadrada
positiva de la varianza.

 Desviación estándar muestra s = s2

Desviación estándar población


σ σ2

=
0.05 Dispersión en distribuciones ‘normales’

0.05
0.04

0.04
0.03

0.03
0.02

0.02
0.01

0.01
x s x 2s
68.5 % 95 %
0.00

0.00
150 160 170 180 190 150 160 170 180 190

 Centrado en la media y a una desv. típica de distancia hay


aproximadamente el 68% de las observaciones.

 A dos desviaciones típicas tenemos el 95% (aprox.)


MEDIDAS DE DISPERSIÓN
Coeficiente de variación
 El CV es una medida relativa de la variación. Siempre se expresa como
porcentaje, no en términos de las unidades de los datos específicos.

 El CV mide la dispersión en los datos con relación a la media

CV =
( ) X
S
100 %

S = Desviación estándar de un conjunto de datos numéricos


X = Media aritmética

Si la media es 80 y la desviación típica 20 entonces CV = 20/80=0,25 = 25%


Es una cantidad adimensional. Interesante para comparar la variabilidad de
diferentes variables.
o Si el peso tiene CV =30% y la altura tiene CV =10%, los individuos
o presentan más dispersión en peso que en altura.
o No debe usarse cuando la variable presenta valores negativos o donde el valor
o 0 sea una cantidad fijada arbitrariamente
Por ejemplo 0ºC ≠ 0ºF
MEDIDAS DE DISPERSIÓN
Localización Relativa
valor Z

 Valor Z: Medida del número de desviaciones estándar que un valor se


aleja de la media

Xi - X
Zi =
S
Zi = valor z del elemento
X = media de la muestra
S = Desviación estándar de la muestra
MEDIDAS DE FORMA

 Se refiere a la manera como se distribuyen los datos. La


distribución de los datos es simétrica o no lo es. Si no es
simétrica recibe el nombre de distribución asimétrica o sesgada.

 Para describir la forma, solamente se deben comparar la media


y la mediana.

media > mediana: Sesgo positivo o a la derecha


media = mediana: simetría o sesgo cero
media < medina: sesgo negativo o a la izquierda

Sesgo (+) Sesgo (-)


Calificaciones de 40 estudiantes en la
unidad curricular Estadística I

15 20 20 19 18 17 11 16 10 15
12 14 13 15 14 16 14 19 13 17
16 13 16 12 13 14 12 18 17 15
10 16 11 16 12 17 19 15 13 14
MEDIDAS DE POSICIÓN
NO CENTRALES

 INFORMAN ACERCA DE LA POSICIÓN QUE OCUPA UN DATO


DENTRO DE UNA SERIE ORDENADA EN FORMA CRECIENTE.

 PERCENTILES
Dividen el conjunto de datos en 100 partes iguales. El percentil
90 es un valor tal que el 90% de todos los valores son menores
y el 10 son mayores que el.
 CUARTILES
Dividen el conjunto de datos en cuatro partes iguales. Se
necesitan solamente tres cuartiles para dividir los datos en
cuatro partes
 DECILES
Dividen el conjunto de datos en diez partes iguales. Nueve
deciles dividen las observaciones en diez partes iguales.
Resumen sobre estadísticos
 Posición
 Dividen un conjunto ordenado de datos en grupos con la misma
cantidad de individuos entre ellos.
 Cuantiles, percentiles, deciles,...
 Tendencia central
 Indican valores con respecto a los que los datos parecen agruparse.
 Media, mediana y moda
 Dispersión
 Indican la mayor o menor concentración de los datos con respecto a
las medidas de centralización.
 Desviación típica, coeficiente de variación, rango, varianza
 Forma
 Asimetría
 Apuntamiento o curtosis
DISTRIBUCIÓN DE FRECUENCIAS
tablas y gráficos para datos numéricos
 Es una tabla de resumen en la cual los datos se colocan en agrupamiento o
categorías establecidas en forma conveniente de clases ordenadas
numéricamente

Exponen la información recogida en la muestra, de forma que no se pierda


nada de información (o poca).

Frecuencias absolutas: Contabilizan el número de individuos de cada


modalidad

Frecuencias relativas (porcentajes): Idem, pero dividido por el total

Frecuencias acumuladas: Sólo tienen sentido para variables ordinales y


numéricas
DISTRIBUCIÓN DE FRECUENCIAS
tablas y gráficos para datos numéricos

 Selección del número de clases


una gran cantidad de observaciones requiere un mayor número
de clases. Sin embargo una distribución de frecuencias debe
tener como mínimo 5 clases, pero no mas de 15

 Obtención de intervalos de clase

 Es conveniente que cada intervalo tenga la misma medida (o


anchura).
Rango
ancho de Clase = número de clases deseado

 RANGO = valor máximo de los datos – valor mínimo de los


datos
DISTRIBUCIÓN DE FRECUENCIAS RELATIVAS Y
FRECUENCIAS PORCENTUALES

 FRECUENCIA RELATIVA
Se obtiene de dividir las frecuencias de cada clase entre el número
total de observaciones.
Frecuencia Frecuencia de clase
=
relativa de clase n

 La distribución de frecuencias porcentuales, se obtiene al


multiplicar cada frecuencia relativa por 100
 EJERCICIO
Convertir las notas de los estudiantes en datos agrupados.
1.- Determinar el Ancho de clase
2. Transformar - Recodificar - En variables diferentes

3. Pasar la variable al cuadro: Var. Numérica Var. De resultado:

4. Asignarle nuevo nombre a la variable, con su correspondiente


etiqueta y pulsar: Cambiar:

5. Valores antiguos y nuevos

6. Colocar los 6. Colocar los 6. Colocar los anchos de


anchos de clase: anchos de clase: clase:
Rango Rango Rango
Del menor hasta hasta -------- hasta el mayor

Range Range Range


Lowest through through ---------- highest through
7. Una vez colocado el ancho de clase, en valor nuevo asignarle en el cuadro
de diálogo:
del menor hasta, el número 1.
hasta el valor 2
hasta el mayor el número 3

8. Continuar - Aceptar - Observar la nueva variable creada en la “vista de


variable” y en la “vista de datos”

9. Vista de variables - Valores - colocar los valores del ancho de clase y


asignarle los valores 1, 2, 3.

10. Analizar - Est. Descrip. – frecuencias - gráficos - Histogramas – con curva


normal – continuar – aceptar.

11. Interprete los resultados


DISTRIBUCIÓN DE FRECUENCIAS
tablas y gráficos para datos numéricos

DIAGRAMA DE BARRAS
100
variables cuantitativas discretas y 90
variables cualitativas. 80

Frecuencias absolutas
70
Se construye en un plano cartesiano,
60
colocando en el eje de las ordenadas
50
(y), las frecuencias ordinarias absolutas 40
(n), y situando en el eje de las abscisas 30
(X) los valores que toma la variable. 20

Cuando la variable es continua, lo 10


0
recomendable no es un gráfico de
20 40 60 80
barras sino un histograma.
Valores de la variable
o Puntos medios
DISTRIBUCIÓN DE FRECUENCIAS
tablas y gráficos para datos numéricos

 HISTOGRAMAS
(variables continuas)
 Se utiliza para describir datos numéricos que están agrupados en
distribuciones de frecuencia, de frecuencia relativa o de porcentaje.
 Un histograma es una gráfica de barras verticales que se construye
en los límites de cada clase
GRÁFICO 1
DISTRIBUCIÓN SEGÚN LA EDAD
En el eje horizontal 10

aparecen los puntos 8

medios de cada 6

intervalo de clase 4

(marcas de clase) 2 Desv. típ. = 16,54


Media = 42,0
0 N = 20,00
20,0 30,0 40,0 50,0 60,0 70,0 80,0 90,0

EDAD
DISTRIBUCIÓN DE FRECUENCIAS
tablas y gráficos para datos numéricos

 Cuando se comparan dos o mas conjuntos de datos, resulta imposible


la construcción de histogramas en la misma gráfica.

 POLÍGONOS DE
FRECUENCIA 100

Frecuencias absolutas
90
 (v. continuas) 80
70
Se construye uniendo 60
50
con segmentos de recta, 40
los puntos medios 30
20
(marcas de clase) – 10
parte superior de cada 0
20 40 60 80
intervalo de clase. Al unir
Puntos medios
las marcas mediante
líneas rectas se obtiene
el polígono de
frecuencia.
ANÁLISIS DESCRIPTIVO
SPSS

 PROCEDIMIENTO: Frecuencias y Descriptivos


Si la variable que se desea describir es:

Distribución de frecuencias
CATEGÓRICA Diagrama de Barras
Diagrama de sectores

Medidas de tendencia central


CUANTITATIVA Medidas de dispersión
Forma de la distribución
FRECUENCIA
Informa sobre valores concreto que adopta una variable y sobre el
número (y porcentaje) de veces que se repite cada uno de esos
valores.

 Ejemplo:
Abrir archivo “datos de empleados” del spss

Analizar > Estadísticos Descriptivos > Frecuencia

Seleccionar variable catlab (Categoría Laboral)

Aceptar
FRECUENCIA
CUANDO UTILIZAR CADA ESTADÍSTICO

PERCENTILES * Al menos con variables ordinales. Carece


de sentido con variables nominales
MEDIDAS DE TENDENCIA * Variables cuantitativas (intervalo o razón)
CENTRAL * Puede calcularse con datos ordinales. La
Mediana es un estadístico típicamente
ordinal.
DISPERSIÓN * Variable cuantitativa (intervalo o razón)
* Puede calcularse con datos ordinales
RANGO * Todo tipo de variables. Excepto
nominales
ASIMETRÍA CURTOSIS * Variables cuantitativas.
FRECUENCIA
 GRAFICOS

Analizar > Estadísticos Descriptivos > Frecuencia

Seleccionar variable Salario ( Salario actual)

Histograma
Gráficos > Con curva normal
DESCRIPTIVOS

A Diferencia de lo que ocurre con el procedimiento “frecuencias”,


quecontiene opciones para describir tanto variables categóricas
como variables cuantitativas continuas, el procedimiento descriptivo
está diseñado únicamente para variable cuantitativas continuas.

Analizar > Estadísticos Descriptivos > Descriptivos

Seleccionar variable Salini ( Salario inicial); Salario (salario actual);


tiempemp (meses desde el contrato)

marcar las opciones de media, todas las dispersión


Opciones > y todas las de distribución (forma)
ANÁLISIS DE VARIABLES CATEGÓRICAS
Procedimiento: Tablas de contingencia
 El sexo, raza, la clase social, el lugar de procedencia, la categoría laboral,
padecer o no de una enfermedad son algunos ejemplos de este tipo de
variables. Son variables sobre las que únicamente es posible obtener una
medida de tipo nominal (u ordinal con pocos valores). SPSS permite
estudiar este tipo de variables y detectar posibles pautas de asociación de
asociación entre ellas.
 El Son tablas de doble entrada, en la que cada una presenta un criterio de
clasificación (una variable categórica)

Analizar > Estad. Descrip. > Tablas de contingencia


EJEMPLO

Abra el archivo de datos “datos de empleados”


Analizar - Est. Desc. - Tablas de contingencia - Fila: sexo; Columna:
Categoría Laboral - Marcar la opción: Mostrar los gráficos de barras agrupadas

300

Tabla de contingencia Sexo * Categoría laboral

Recuento 200
Categoría laboral
Administrativo Seguridad Directivo Total
Sexo Hombre 157 27 74 258
Mujer 206 10 216 100 Categoría laboral
Total 363 27 84 474
Administrativo

Recuento
Seguridad

0 Directivo
Hombre Mujer

Sexo
Estadísticos

 Chi-cuadrado
Establece la relación existente entre dos variables categóricas. Permite
contrastar la hipótesis de que las dos variables categóricas son
independientes.
H0: Las variables son independientes
H1: Las variables son dependientes

EJEMPLO.
Abra el archivo de datos “datos de empleados”
Analizar - Est. Desc. - Tablas de contingencia - Fila: sexo; Columna:
Categoría laboral - Estadísticos - Chi-Cuadrado
Pruebas de chi-cuadrado El valor Chi-Cuadrado toma un valor de
Sig. asintótica 79,277 y tiene asociada un nivel de
Valor gl (bilateral) significación asociado de 0,000 por lo que
Chi-cuadrado de Pearson 79,277a 2 ,000
Razón de verosimilitud
se rechaza la H0 de independencia
95,463 2 ,000
N de casos válidos 474
a. 0 casillas (,0%) tienen una frecuencia esperada inferior a 5.
La frecuencia mínima esperada es 12,30.
Correlación entre variables ordinales:
Spearman
 El coeficiente de correlación de spearman es también una medida de
asociación lineal pero para variables ordinales:
 Se rechaza la hipótesis de independencia cuando el nivel crítico sea
menor que el nivel de significación establecido y se concluirá que
existe relación lineal significativa
Analizar>correlaciones>bivariadas>spearman
Correlaciones

Meses des de
Salario inicial Salario actual el contrato
Rho de Spearman Salario inicial Coeficiente de
1,000 ,826** -,063
correlación
Sig. (bilateral) , ,000 ,168
N 474 474 474
Salario actual Coeficiente de
,826** 1,000 ,105*
correlación
Sig. (bilateral) ,000 , ,023
N 474 474 474
Meses des de el contrato Coeficiente de
-,063 ,105* 1,000
correlación
Sig. (bilateral) ,168 ,023 ,
N 474 474 474
**. La correlación es s ignificativa al nivel 0,01 (bilateral).
*. La correlación es s ignificativa al nivel 0,05 (bilateral).
Coeficiente de correlación entre variables
cuantitativas: Pearson
 Este coeficiente toma valores entre -1 y 1 un valor de 1 indica
relación lineal perfecta positiva un valor de -1 indica relación lineal
perfecta negativa. No implica causalidad.
 Se rechaza la hipótesis de independencia cuando el nivel crítico sea
menor que el nivel de significación establecido y se concluirá que
existe relación lineal significativa
Analizar>correlaciones>bivariadas>pearson
Correlaciones

Meses des de
Salario inicial Salario actual el contrato
Salario inicial Correlación de Pearson 1,000 ,880** -,020
Sig. (bilateral) , ,000 ,668
N 474 474 474
Salario actual Correlación de Pearson ,880** 1,000 ,084
Sig. (bilateral) ,000 , ,067
N 474 474 474
Meses des de el contrato Correlación de Pearson -,020 ,084 1,000
Sig. (bilateral) ,668 ,067 ,
N 474 474 474
**. La correlación es s ignificativa al nivel 0,01 (bilateral).
Análisis de variables de respuestas
múltiples: (procedimientos)
 La expresión respuesta múltiple se utiliza para identificar variables
en las que los sujetos pueden dar más de una respuesta, es decir,
variables en las que un mismo sujeto puede tener distintos valores.
 Al intentar codificar VRM surge un problema: el SPSS solo permite
utilizar variables con un solo código para cada caso:
 Se puede usar dos estrategias diferentes:
a) Crear tantas variables dicotómicas como alternativa de
respuestas tiene la pregunta (dicotomías múltiples)
b) Crear tantas variables categóricas como respuestas distintas
hayan dado los sujetos.
a) Crear tantas variables dicotómicas como
alternativa de respuestas tiene la pregunta
(dicotomías múltiples)

 Ejemplo:
Señale cual de los siguientes transportes ha usado
durante el último mes.
a) Autobús
b) Metro
c) Tren
d) Taxi
datos correspondiente a una muestra de 20 encuestados
Id genero autobus metro tren taxi resp1 resp2 resp3
1 1 1 0 1 0 1 3 0
2 1 1 1 0 0 1 2 0
3 1 1 1 1 0 1 2 3
4 1 1 0 1 0 1 3 0
5 1 0 1 1 0 2 3 0
6 1 0 0 0 1 4 0 0
7 1 1 0 1 0 1 3 0
8 1 0 1 1 0 2 3 0
9 1 0 1 0 1 2 4 0
10 1 1 1 1 0 1 2 3
11 2 1 1 0 0 1 2 0
12 2 0 1 1 0 2 3 0
13 2 0 1 0 0 1 0 0
14 2 1 1 1 0 2 2 3
15 2 0 1 1 0 1 3 0
16 2 1 0 1 0 2 3 0
17 2 0 1 0 1 2 4 0
18 2 0 1 1 0 2 3 0
19 2 1 0 0 1 1 4 0
20 2 0 1 1 1 2 3 4
Analizar>Respuestas Múltiples>Definir Conjunto

Para crear un conjunto se debe comenzar seleccionando las variables


que se desea incluir en el conjunto y trasladar a la lista Variables
del Conjunto

Das könnte Ihnen auch gefallen