Sie sind auf Seite 1von 51

MEDIDAS DE

POSICIÓN

Dr. Wilian Bravo


GETNano-ESPOCH
1.3 Medidas de localización: la media y la
mediana de una muestra
• Las medidas de localización están diseñadas para brindar al analista
algunos valores cuantitativos de la ubicación central o de otro tipo de
los datos en una muestra. Una medida obvia y muy útil es la media de
la muestra. La media es simplemente un promedio numérico.
Datos no agrupados y datos agrupados
DATOS NO AGRUPADOS DATOS AGRUPADOS
• n< 20 datos • n> 20 datos
• Distribución que indica las • Distribución en la que los datos se
frecuencias de los datos sin hacer encuentran tabulados en clases y con
modificación en el tamaño de la frecuencia de cada clase
unidades originales. • Varios valores adyacentes pueden
• Pueden ser solo reagrupados en combinarse para formar un intervalo
clases de clase.
MEDIA ARITMÉTICA
Para datos no agrupados:

Media muestral:

Media poblacional:
MEDIA ARITMÉTICA - Ejemplo
Calcular la media aritmética de los siguientes datos relacionados con las notas
de test en Estadística obtenidas por un cierto alumno:
MEDIA ARITMÉTICA
Para datos agrupados:

Media muestral
Media poblacional:
MEDIA ARITMÉTICA - Ejemplo

Calcular la media aritmética para el


peso de 40 trabajadores, según tabla
adjunta:

El peso promedio de los 40


trabajadores es de 72 kilos
MEDIANA
• La mediana es el valor que se encuentra en el centro de una
secuencia ordenada de datos.
• Su símbolo es Me
MEDIANA
Datos no agrupados
Se deben ordenar los datos de forma creciente o decreciente.
• Para muestras con un número Impar de observaciones, la mediana
es el dato que queda en el centro de dicha ordenación
• Para muestras con número par de observaciones la mediana es el
promedio de los dos datos centrales.
MEDIANA - Ejemplo

Para una muestra con número impar de datos:


𝑀𝑒 = 𝑋𝑛+1
2

Datos: 4, 7, 5, 6, 3, 2, 7 𝑀𝑒 = 𝑋7+1 = 𝑥4 = 5
Datos ordenados: 2, 3, 4, 5, 6, 7, 7 2
2, 3, 4, 5, 6, 6, 7, 7,9,10
MEDIANA - Ejemplo
𝑋𝑛 + 𝑋𝑛+1
2 2
Para una muestra con número par de datos: 𝑀𝑒 =
2

Datos: 12, 15, 14, 16, 11, 10, 10, 13


Datos ordenados: 16, 15, 14, 13, 12, 11, 10, 10

𝑋8 + 𝑋8
2 2
+1 𝑋4 + 𝑋5
𝑀𝑒 = = = (13 + 12)/2 = 12,5
2 2
MEDIANA
Datos agrupados

𝑛
− 𝐹𝑎𝑖−1
𝑀𝑒 = 𝐿𝑖 + 2 ∗a
𝑓𝑖

Li : Límite inferior del intervalo donde se encuentra la mediana


(intervalo mediano), el cual se determina observando en que clase se
encuentra la posición n/2.)
n : Número de observaciones
Fa : Frecuencia acumulada anterior al intervalo mediano
fi: Frecuencia del intervalo mediano
a: Amplitud del intervalo
MODA
La moda es el valor de un conjunto de datos que aparece con mayor
frecuencia. Se le obtiene fácilmente a partir de un arreglo ordenado.
Su símbolo es Mo
MODA
Datos agrupados

𝑑1
𝑀𝑜 = 𝐿𝑖 + ∗a
𝑑1 + 𝑑2

Li : Límite inferior del intervalo donde se encuentra la moda


n : Número de observaciones
d1 : Diferencia entre la frecuencia absoluta modal y premodal
d2 : Diferencia entre la frecuencia absoluta modal y posmodal
A: Amplitud del intervalo
Ejercicio 1.1
Por ejemplo, suponga que el conjunto de datos es el siguiente: 1.7, 2.2,
3.9, 3.11 y 14.7. Calcule la media y la mediana de la muestra.
Es evidente que hay una diferencia conceptual entre la media y la
mediana. Para el lector con ciertas nociones de ingeniería quizá sea de
interés que la media de la muestra es el centroide de los datos en una
muestra.
DEBER
• Ejercicios 1.1-1.6
• Ejercicios 1.7-1.12

Walpole, R. E. (2007). Probabilidad y estadística para ingeniería y


ciencias. Pearson Educación.
Medidas de variabilidad
La variabilidad de procesos y productos es un hecho real en los
sistemas científicos y de ingeniería: el control o la reducción de la
variabilidad de un proceso a menudo es una fuente de mayores
dificultades. Cada vez más ingenieros y administradores de procesos
están aprendiendo que la calidad del producto y, como resultado, las
utilidades que se derivan de los productos manufacturados es, con
mucho, una función de la variabilidad del proceso.
MEDIDAS DE DISPERSIÓN
• a) Rango
• b) Varianza
• c) Desviación Estándar
• d) Coeficiente de Variación
Rango y desviación estándar de la muestra
Rango de la muestra
Xmáx - Xmín.
Control estadístico de calidad.
Desviación estándar de la muestra. Es la medida muestral de dispersión que
se utiliza más a menudo Nuevamente denotemos con x1, x2,..., xn los valores
de la muestra.

Definición 1.3: La varianza de la muestra, denotada con s2, está


dada por
La desviación estándar de la muestra, denotada con s, es la
raíz cuadrada positiva de s2, es decir,

La desviación estándar de la muestra es, una medida de variabilidad. Una


variabilidad grande en un conjunto de datos produce valores relativamente
grandes de 𝑥 − 𝑥ҧ 2 y, por consiguiente, una varianza muestral grande. La
cantidad n - 1 a menudo se denomina grados de libertad asociados con la
varianza estimada. Ejemplo, los grados de libertad representan el número
de piezas de información independientes disponibles para calcular la
variabilidad. Por ejemplo, suponga que deseamos calcular la varianza de la
muestra y la desviación estándar del conjunto de datos (5, 17, 6, 4). El
promedio de la muestra es 𝑥= ҧ 8. Realice el cálculo de la varianza:
Ejercicio 2.1
En un ejemplo, un ingeniero se interesa en probar el “sesgo” en un
medidor de pH. Los datos se recaban con el medidor mediante
la medición del pH de una sustancia neutra (pH = 7.0). Se toma una
muestra de tamaño 10 y se obtienen los siguientes resultados:

7.07 7.00 7.10 6.97 7.00 7.03 7.01 7.01 6.98 7.08.

Calcular la media, varianza y desviación estándar.


Unidades para la desviación estándar y la
varianza Considere los datos del ejemplo
1.2. Los pesos del tallo se miden
en gramos. Como resultado, las
desviaciones estándar de la
muestra están en gramos y las
varianzas se miden en gramos2.
De hecho, las desviaciones
estándar individuales son 0.0728
gramos para el caso sin nitrógeno
y 0.1867 gramos para el grupo
con nitrógeno.
Recorrido o Rango
Indica el número de valores que toma la variable. El rango es la diferencia entre
el valor máximo y el valor mínimo de un conjunto de datos.

𝑅 = 𝑋𝑚𝑎𝑥 − 𝑋𝑚𝑖𝑛

Si los datos están agrupados en una tabla de frecuencias, el recorrido es la


diferencia entre el límite real superior del último intervalo y el límite real inferior
del primer intervalo.

𝑅 = 𝐿𝑚𝑎𝑥 − 𝐿𝑚𝑖𝑛
VARIANZA

La varianza se define como el promedio aritmético de las diferencias entre


cada uno de los valores del conjunto de datos y la media aritmética del
conjunto elevadas al cuadrado.

Su símbolo es 𝑆 2 si estamos trabajando con una muestra y 𝜎2 si estamos


trabajando con una población.
VARIANZA
Datos no agrupados

Varianza muestral Varianza


poblacional:
VARIANZA
Datos no agrupados
VARIANZA
Datos agrupados

Varianza muestral Varianza poblacional:


VARIANZA
Datos agrupados
DESVIACIÓN ESTÁNDAR
Datos no agrupados

D. E. muestral D. E. poblacional:
DESVIACIÓN ESTÁNDAR
DESVIACIÓN ESTÁNDAR
Datos agrupados

D. E. muestral D. E.
poblacional:
DESVIACIÓN ESTÁNDAR
COEFICIENTE DE VARIACIÓN
Es la razón entre la desviación típica y la media
Mide la desviación típica en forma de que tamaño tiene con respecto a la media
𝑆
𝐶𝑉 =
𝑥ҧ
• Frecuente mostrarla en porcentajes
Si la media es 80 y la desviación típica 20 entonces
CV= 20/80 = 0,25 = 25%

• Cantidad adimensional
• Compara variabilidad de diferentes variables
Si el peso tiene CV= 30% y la altura tiene CV=10%, los individuos
presentan más dispersión en peso que en altura
EJERCICIO
Calcular CV para hombres, mujeres y total para los datos de peso de los estudiantes
de 2do semestre de BQF.
S2h = 76,01
S2m = 24,21
S2t =50,11
Xh = 63,92
Xm = 57,94
Xt = 60,93
CVh = raíz 76,1/57,94 =1,14
CVm =0,64
CVt = 0,91
¿Cuál es la medida de variabilidad más
importante?
El rango de la muestra tiene aplicaciones en el área del control
estadístico de la calidad. La varianza de la muestra y la desviación
estándar de la muestrareflejan el mismo concepto en la variabilidad de
la medición, pero la desviación estándar de la muestra mide la
variabilidad en unidades lineales; en tanto que la varianza muestral se
mide en unidades cuadradas. Ambas desempeñan papeles
importantes en el uso de los métodos estadísticos. El contexto de la
inferencia estadística implica la obtención de conclusiones acerca de
las características de poblaciones. Entre tales características son
constantes los denominados parámetros de la población.
Dos parámetros importantes son la media de la población y la varianza
de la población. La varianza de la muestra desempeña un papel
explícito en los métodos estadísticos para obtener inferencias sobre la
varianza de la población. La desviación estándar de la muestra
desempeña un papel importante, junto con la media de la muestra, en
las inferencias que se realizan acerca de la media de la población. En
general, la varianza se considera más en la teoría inferencial, mientras
que la desviación estándar se utiliza más en aplicaciones.
1.6 Modelado estadístico, inspección científica
y diagnósticos gráficos
El análisis podría requerir cierto modelo para los datos; por ejemplo,
que las dos muestras provengan de distribuciones normales o
gaussianas.
Los científicos y los ingenieros están acostumbrados a manejar
conjuntos de datos. Debería ser obvia la importancia de describir o
resumir la naturaleza de los conjuntos de datos. Con frecuencia el
resumen gráfico de un conjunto de datos puede proporcionar
información sobre el sistema del que se obtuvieron los datos.
En esta sección se estudia con detalle el papel del muestreo y de la
traficación de los datos para mejorar la inferencia estadística.
Diagrama de dispersión
Por ejemplo, considere a
un fabricante de textiles
que diseña un
experimento en donde se
producen especímenes de
tela que contienen
diferentes porcentajes de
algodón. Considere los
datos de la tabla 1.3
A veces las gráficas o el análisis exploratorio de los datos pueden
enseñar al analista información que no se obtiene del análisis formal.
Casi cualquier análisis formal requiere suposiciones que se desarrollan
a partir del modelo de datos. Las gráficas pueden resaltar la violación
de suposiciones que de otra forma no se notarían.
Histograma
Al dividir cada frecuencia de clase entre el número total de
observaciones, obtenemos la proporción del conjunto de
observaciones en cada una de las clases. Una tabla que lista
las frecuencias relativas se denomina distribución de frecuencias
relativas. En la tabla 1.7 se presenta la distribución de frecuencias
relativas para los datos de la tabla 1.4, que muestra los puntos medios
de cada intervalo de clase.
Se dice que una distribución es simétrica si se puede doblar a lo largo de
un eje vertical de manera que ambos lados coincidan. Si una distribución
carece de simetría respecto de un eje vertical, se dice que está sesgada.
Gráfica de caja y bigote o gráfica de caja
Encierra el rango intercuartil de los datos en una caja que contiene
la mediana representada. El rango intercuartil tiene como extremos el
percentil 75 (cuartil superior) y el percentil 25 (cuartil inferior). Además
de la caja se prolongan “bigotes”, que indican las observaciones
alejadas en la muestra. Para muestras razonablemente grandes la
presentación indica el centro de localización, la variabilidad y el grado
de asimetría.
Además, una variación denominada gráfica de caja puede ofrecer al
observador información respecto de cuáles observaciones son valores
extremos.
Ejemplo 1.5: Se midió el contenido de nicotina en una muestra
aleatoria de 40 cigarrillos. Los datos se presentan en la tabla 1.8.
Lección 2 número frecuencia
0,9 2
Realizar un 5,0 2
histograma de los 0,5 4
datos siguientes: 1,5 6
3,8 9
2,0 8
1,9 5
1,2 2
3,5 4
0,6 9
1,7 10

Das könnte Ihnen auch gefallen