Sie sind auf Seite 1von 19

ESTADISTICA 1

1.1Conceptos de estadística y su clasificación

1.2 Recopilación de datos.

1.3 Distribución de frecuencia.

1.3.1 Histogramas, polígonos de frecuencia, ojivas.

1.4 Medidas de tendencia central para un conjunto datos y datos agrupados.

1.4.1 Media, media ponderada.

1.4.2 Mediana.

1.4.3 Moda.

1.4.4 Relación entre media, mediana y moda.

1.5 Medidas de dispersión para un conjunto de datos y datos agrupados.

1.5.1 Rango.

1.5.2 Desviación media.

1.5.3 Varianza.

1.5.4 Desviación estándar.

1.6 Coeficiente de variación.

1.7 Coeficiente de asimetría de Pearson


1.1 Conceptos de estadística y su clasificación .
Se puede decir que la "estadística es el estudio de los métodos y procedimientos
para recoger, clasificar, resumir y analizar datos y para hacer inferencias
científicas partiendo de tales datos”.

Esta definición cubre gran parte de la actividad del científico. Es importante


observar que el objeto del que realiza el análisis estadístico son los datos y las
observaciones científicas por sí mismos, más que el material químico que
interviene en el estudio.

Por lo tanto no es posible trazar límites rígidos entre la química, la estadística y la


matemática.

La estadística se puede dividir en 2 categorías, la "estadística descriptiva" y la


"inferencia estadística".

La estadística descriptiva implica la abstracción de varias propiedades de


conjuntos de observaciones, mediante el empleo de métodos gráficos, tabulares ó
numéricos. Entre estas propiedades, están la frecuencia con que se dan varios
valores en la observación, la noción de un valor típico o usual, la cantidad de
variabilidad en un conjunto de datos observados y la medida de relaciones entre 2
ó más variables.

El campo de la estadística descriptiva no tiene que ver con las implicaciones o


conclusiones que se puedan deducir de conjuntos de datos. La estadística
descriptiva sirve como método para organizar datos y poner de manifiesto sus
características esenciales con el propósito de llegar a conclusiones.

La inferencia estadística se basa en las conclusiones a la que se llega por la


ciencia experimental basándose en información incompleta.

Por ejemplo, Mendelal estudiar la manera como diferían entre sí las plantas de
guisantes en altura, color de las semillas, color de las vainas y color de las flores,
tuvo que hacer sus conclusiones necesariamente basándose en un grupo de
plantas relativamente poco numeroso comparado con toda la población de plantas
de guisantes de un tipo particular.

Al hacer un enunciado, como por ejemplo, sobre el color de las flores, las
conclusiones de Mendel dependían de la muestra particular de plantas disponibles
para este estudio.
En la terminología estadística, el procedimiento inductivo implica el hacer
inferencias acerca de una población adecuada ó universo a la luz de lo averiguado
en un subconjunto aparte o muestra.

La inferencia estadística se refiere a los procedimientos mediante los cuales se


pueden hacer tales generalizaciones ó inducciones.

Es importante por todo lo dicho anteriormente, que el proceso de la inferencia


científica, implica el grado más elevado de cooperación entre la estadística y el
estudio experimental.

1.2 Recopilación de datos


Población y muestra Al recoger datos relativos a las características de un grupo de
individuos u objetos, sean alturas y pesos de estudiantes de una universidad o
tuercas defectuosas producidas en una fábrica, suele ser imposible o nada
práctico observar todo el grupo, en especial si es muy grande. En vez de examinar
el grupo entero, llamado población o universo, se examina una pequeña parte del
grupo, llamada muestra. Una población puede ser finita o infinita. Por ejemplo, la
población consistente en todas las tuercas producidas por una fábrica un cierto día
es finita, mientras que la determinada por todos los posibles resultados (caras,
cruces) de sucesivas tiradas de una moneda, es infinita. Si una muestra es
representativa de una población, es posible inferir importantes conclusiones sobre
las poblaciones a partir del análisis de la muestra. La fase de la estadística que
trata con las condiciones bajo las cuales tal diferencia es válida se llama
estadística inductiva o inferencia estadística. Ya que dicha inferencia no es del
todo exacta, el lenguaje de las probabilidades aparecerá al establecer nuestras
conclusiones. La parte de la estadística que sólo se ocupa de describir y analizar
un grupo dado, sin sacar conclusiones sobre un grupo mayor, se llama estadística
descriptiva o deductiva.

1.3 Distribución de frecuencias


Distribución de frecuencias es como se denomina en estadística a la agrupación
de datos en categorías mutuamente excluyentes que indican el número de
observaciones en cada categoría. Esto significa una de las cosas más importantes
de la matemática, su estadística con la agrupación de datos. La distribución de
frecuencias presenta las observaciones clasificadas de modo que se pueda ver el
número existente en cada clase.
Elementos fundamentales para elaborar una distribución de frecuencia:

1) RANGO.

Es una medida de dispersión que se obtiene como la diferencia entre el número


mayor y el número menor de los datos.

R = N_max - N_min

Ejemplo.

Dados los números: 5, 10, 12, 8, 13, 9, 15

R= 15- 5

2) AMPLITUD TOTAL.

Simplemente se obtiene sumándole 1 al rango.

AT = (R+1)

3) LAS CLASES.

Están formadas por dos extremos. El menor se llama límite inferior el mayor se
llama límite superior. Hay distintos tipos de clases.

Ej. Notas (20-26) Edades (20-26.5) Salarios (20-26.99)

4) EL NUMERO DE CLASES.

Se determina a través de la formula de Sturges, la cual es válida cuando el No de


observaciones sea menor o igual a 500. Formula.

Nc= 1 + 3.33log ( N )

Donde:

Nc es el número de clases. N es la cantidad de muestras tomadas.

5) VALOR DEL INTERVALO O AMPLITUD

Se Obtiene por medio de la ecuación de dicta:

Vi = AT / Nc

Donde:

Vi es el valor de intervalo AT es la amplitud total Nc es el número de clase


1.3.1 Histogramas, polígonos de frecuencia, ojivas
HISTOGRAMA

En estadística, un histograma es una representación gráfica de una variable en


forma de barras, donde la superficie de cada barra es proporcional a la frecuencia
de los valores representados. En el eje vertical se representan las frecuencias, y
en el eje horizontal los valores de las variables, normalmente señalando las
marcas de clase, es decir, la mitad del intervalo en el que están agrupados los
datos.

En términos matemáticos, puede ser definida como una función inyectiva (o


mapeo) que acumula (cuenta) las observaciones que pertenecen a cada
subintervalo de una partición. El histograma, como es tradicionalmente entendido,
no es más que la representación gráfica de dicha función.

Se utiliza cuando se estudia una variable continua, como franjas de edades o


altura de la muestra, y, por comodidad, sus valores se agrupan en clases, es decir,
valores continuos. En los casos en los que los datos son cualitativos (no-
numéricos), como sexto grado de acuerdo o nivel de estudios, es preferible un
diagrama de sectores

POLIGONO DE FRECUENCIA

Un polígono de frecuencia es igual que hacer un histograma.. Solo que no creas


barras.. Si no pones puntos en el nivel que se le asigna... no hay fórmula.. Es un
gráfico... pero.. Los intervalos de lo que mides... debes hacer con la marca de
clase.. O sea.. El límite inferior más el límite superior entre 2.. Para cada clase... y
ese es la marca de clase.. De cada clase.. O punto medio... y cada punto del
gráfico lo unes... la frecuencia.. Pues es el número de veces que existe cada
clase... entonces.. Puede haber polígonos de porcentaje... de frecuencia, de
frecuencia relativa.. etc.

OJIVAS:

Cuando se trata de relacionar observaciones en un mismo aspecto para dos


colectivos diferentes no es posible ejecutar comparaciones sobre la base de la
frecuencia, es necesario tener una base estándar, la frecuencia relativa. La ojiva
representa gráficamente la forma en que se acumulan los datos y permiten ver
cuántas observaciones se hallan por arriba o debajo de ciertos valores. Es útil
para obtener una medida de los cuartiles, deciles , percentiles.

MEDIDAS DE TENDENCIA CENTRAL PARA UN CONJUNTO DATOS Y DATOS


AGRUPADOS
MEDIDAS DE TENDENCIA CENTRAL

La estadística busca entre otras cosas, describir las características típicas de


conjuntos de datos y, como hay varias formas de hacerlo, existen y se utilizan
varios tipos de promedios. Se les llama medidas de tendencia central porque
general mente la acumulación más alta de datos se encuentra en los valores
intermedios.

MODA

La moda es el valor que aparece con mayor frecuencia en la serie de datos. Así
por ejemplo, de la serie {14, 15, 17, 17, 21, 21, 21, 33, 36, 40}, la moda es 21.

La moda es una medida muy natural para describir un conjunto de datos; su


concepto se adquiere fácilmente: es la altura más corriente, es la velocidad más
común, etc. Además tiene la ventaja de que no se ve afectada por la presencia de
valores altos o bajos.

La principal limitación esta en el hecho de que requiere un número suficiente de


observaciones para que se manifieste o se defina claramente.

Otros inconvenientes son que puede darse el caso de que una determinada serie
no tenga moda o que tenga varias modas.

Por ejemplo:

L, K, M, O, N (no hay moda)

5, 6, 10, 5, 8, 6, 7, 4 (2 modas)

MEDIANA

La mediana toma en cuenta la posición de los datos y se define como el valor


central de una serie de datos o, más específicamente, como un valor tal que no
más de la mitad de las observaciones son menores que él y no más de la mitad
mayores.

El primer paso es ordenar los datos de acuerdo a su magnitud, luego se determina


el valor central de la serie y esa es la mediana. Si el número de datos es par,
existirán dos valores centrales y entonces la mediana se obtiene sacando el
promedio de ellos.

Por ejemplo:

7, 8, 8, 10, 12, 19, 23 Mes = 10


3, 4, 4, 5, 16, 19, 25, 30 Med = (5+16)/2 = 10.5

Media Aritmética

La media aritmética es el promedio más comúnmente usado, este puede ser


simple o ponderado.

La media aritmética simple está dada por la formula SX/n y que significa: la suma
de todos los valores dividida por el número de datos.

Por ejemplo:

10, 13, 10, 13, 14, 10, 13, 10, 15

Media Aritmética Ponderada

Si los valores que toma x en una serie de datos, no todos tienen la misma
importancia, es válido asignar "pesos" o "ponderaciones" de acuerdo a la
importancia de cada dato.

En la serie del ejemplo anterior aparecen los números; pero cada uno con
diferente frecuencia. Si cada uno de estos datos se multiplica por su respectiva
frecuencia o ponderación y se suman estos productos, se obtendrá la misma suma
que si se hubieran sumado uno por uno.

Sin ponderar Cálculo ponderado

Número x Número x Frecuencia Producto (fx)

10 10 4 40

13 13 3 39

14 14 1 14

15 15 1 15

Suma = 52 9 108
52/4 = 13 108/9 = 12

Media Geométrica

La media geométrica es la raíz enésima del producto de todos los valores de la


serie.

Así por ejemplo la media geométrica de 3,4,9 y 12 seria:

Como este sistema de cálculo resulta muy difícil de emplear, máxime cuando son
números grandes o largas series de datos, en la práctica se recurre a los
logaritmos.

xg = antilog (S log xi)/n

así la xg del ejemplo se calcularía así:

xg = antilog ( log 3 + log 4 + log 9 + log 12 )


4

xg = antilog (0.477 + 0.602 + 0.954 + 1.079 )


4

xg = antilog (3.11)
4

xg = antilog 0.78

xg = 6

Media Armónica

La media armónica se define como el recíproco de la media aritmética de los


recíprocos de los valores.
y reacomodando la fórmula se tiene:

Así la media armónica de 3, 2, 6 sería:

Xa = 3

Cálculo de las medidas de posición en datos agrupados

Cuando los datos están agrupados en distribución de frecuencias las fórmulas


varían un poco.

Clases x f F fx

29.5-34.5 32 1 1 32
34.5-39.5 37 3 4 111

39.5-44.5 42 8 12 336

44.5-49.5 47 9 21 423

49.5-54.5 52 7 28 364

54.5-59.5 57 4 32 228

59.5-64.5 62 3 35 186

64.5-69.5 67 3 38 201

69.5-74.5 72 2 40 144

Total 40 2025

Donde:
x es el punto medio de clase
f es la frecuencia absoluta
F es la frecuencia acumulada
fx es el producto del punto medio por la frecuencia absoluta

Moda (datos agrupados)

Donde:
L = Limite inferior de la clase modal.
d1 = Diferencia entre la frecuencia de la clase modal y la frecuencia de la clase
anterior.
d2 = Diferencia entre la frecuencia de la clase modal y la frecuencia de la clase
posterior.
C = Intervalo de clase.

Por ejemplo:

Primero se localiza la clase modal que es aquella en la que hay la mayor densidad
de frecuencia por unidad de intervalo y luego aplicar la formula.
La clase es: 44.5 - 49.5
Entonces:
Mo = 44.5 + 1 * 5
1+2

= 44.5 + 1.67 = 46.17

Mediana (datos agrupados)

Donde:
n = Número total de observaciones.
L = Limite inferior de la clase que contiene la mediana.
f = Frecuencia de la clase que contiene la mediana.
F = Frecuencia acumulada "menos de" de la clase anterior.
C = Intervalo de clase.

La determinación de la clase que contiene la mediana se hace dividiendo n/2 y


viendo en cual clase quedó este acumulado. En el ejemplo es la clase 44.5 - 49.5
ya que en ésta quedó el 20° dato.

Media aritmética (datos agrupados)

Es la suma de los productos de la frecuencia por el punto medio divididos por la


frecuencia acumulada total.

x = S fx = 2025 = 50.62
n 40
Percentiles (datos agrupados)

Donde:
Pm = Percentil m.
m = Número del percentil deseado.
n = Número total de observaciones.
L = Limite inferior de la clase donde está el percentil.
f = Frecuencia de la clase que contiene el percentil.
F = Frecuencia acumulada de la clase anterior a la que contiene el percentil
C = Intervalo de clase.

Cálculo del P72

Primero se determina la clase donde está el percentil deseado así:

m/100 * n = 72/100 * 40 = 28.8

O sea que el P72 es el 28.8° término de la serie y éste queda en la clase 54.5 -
59.5.

P72 = 54.5 + 28.8 - 28 * 5 = 55.5


4

1.5 Medidas de dispersión para un conjunto de datos y datos agrupados

El conocimiento de la forma de la distribución y del respectivo promedio de una


colección de valores de una variable, puede servir para tener una idea bastante
clara de la conformación, pero no de de la homogeneidad de cada una de los
valores con respecto a la medida de tendencia central aplicada.

En el caso de las variables con valores que pueden definirse en términos de


alguna escala de medida de igual intervalo, puede usarse un tipo de indicador que
permite apreciar el grado de dispersión o variabilidad existente en el grupo de
variantes en estudio.

A estos indicadores les llamamos medidas de dispersión, por cuanto que están
referidos a la variabilidad que exhiben los valores de las observaciones, ya que si
no hubiere variabilidad o dispersión en los datos interés, entonces no habría
necesidad de la gran mayoría de las medidas de la estadística descriptiva.

Las medidas de tendencia central tienen como objetivo el sintetizar los datos en un
valor representativo, las medidas de dispersión nos dicen hasta que punto estas
medidas de tendencia central son representativas como síntesis de la información.
Las medidas de dispersión cuantifican la separación, la dispersión, la variabilidad
de los valores de la distribución respecto al valor central. Distinguimos entre
medidas de dispersión absolutas, que no son comparables entre diferentes
muestras y las relativas que nos permitirán comparar varias muestras.

1.5.1 Rango
Se denomina rango estadístico (R) o recorrido estadístico al intervalo de menor
tamaño que contiene a los datos; es calculable mediante la resta del valor mínimo
al valor máximo; por ello, comparte unidades con los datos. Permite obtener una
idea de la dispersión de los datos.

Por ejemplo, para una serie de datos de carácter cuantitativo como es la estatura
tal y como:

x1 = 185,x2 = 165,x3 = 170,x4 = 182,x5 = 155

es posible ordenar los datos como sigue:

x(1) = 155,x(2) = 165,x(3) = 170,x(4) = 182,x(5) = 185

donde la notación x(i) indica que se trata del elemento i-ésimo de la serie de datos.
De este modo, el rango sería la diferencia entre el valor máximo (k) y el mínimo; o,
lo que es lo mismo:

R = x(k) − x(1)

En nuestro ejemplo, con cinco valores, nos da que R = 185-155 = 30

1.5.2 Desviación media


La desviación media es la media de las diferencias en valor absoluto de los
valores a la media.
Este valor estadístico no es de mucha utilidad en estadística debido a que no es
fácil manipular dicha función al no ser derivable.

Siendo más formales, la desviación media debería llamarse desviación absoluta


respecto a la media, para evitar confusiones con otra medida de dispersión, la
desviación absoluta respecto a la mediana, DM, cuya fórmula es la misma,
sustituyendo la media aritmética por la mediana M. Pero tal precisión no es
relevante, porque la desviación absoluta respecto a la mediana es de uso todavía
menos frecuente.

La desviación absoluta respecto a la media, Dm, la desviación absoluta respecto a


la mediana, DM, y la desviación típica, σ, de un mismo conjunto de valores
verifican la desigualdad:

Siempre ocurre que

donde el Rango es igual a

Rango = valor máximo − valor mínimo

Dm = 0 cuando los datos son exactamente iguales (e iguales a la media aritmética)

justo sólo hay dos valores en los datos, :a,b, y hay exactamente
la mitad de datos igual a :a y :b

1.5.3 Varianza
En teoría de probabilidad, la varianza (σ2) de una variable aleatoria es una medida
de su dispersión definida como la esperanza del cuadrado de la desviación de
dicha variable respecto a su media.

Está medida en unidades distintas de las de la variable. Por ejemplo, si la variable


mide una distancia en metros, la varianza se expresa en metros al cuadrado. La
desviación estándar, la raíz cuadrada de la varianza, es una medida de dispersión
alternativa expresada en las mismas unidades.
Hay que tener en cuenta que la varianza puede verse muy influida por los valores
atípicos y se desaconseja su uso cuando las distribuciones de las variables
aleatorias tienen colas pesadas. En tales casos se recomienda el uso de otras
medidas de dispersión más robustas.

El término varianza fue acuñado por Ronald Fisher en un artículo de 1918 titulado
The Correlation Between Relatives on the Supposition of Mendelian Inheritance.

Varianza o coeficiente de Variación es la variable aleatoria x tiene media μ = E(X)


se define la varianza Var(X) (también representada como o, simplemente σ2) de
X como

Desarrollando la definición anterior, se obtiene la siguiente definición alternativa (y


equivalente):

Si una distribución no tiene esperanza, como ocurre con la de Cauch tampoco


tiene varianza. Existen otras distribuciones que, aun teniendo esperanza, carecen
de varianza. Un ejemplo de ellas es la de Pareto cuando su índice k satisface 1 <
k ≤ 2.

1.5.4 Desviación estándar


La desviación estándar o desviación típica (σ) es una medida de centralización o
dispersión para variables de razón (ratio o cociente) y de intervalo, de gran utilidad
en la estadística descriptiva.

Se define como la raíz cuadrada de la varianza. Junto con este valor, la desviación
típica es una medida (cuadrática) que informa de la media de distancias que
tienen los datos respecto de su media aritmética, expresada en las mismas
unidades que la variable.
Para conocer con detalle un conjunto de datos, no basta con conocer las medidas
de tendencia central, sino que necesitamos conocer también la desviación que
representan los datos en su distribución respecto de la media aritmética de dicha
distribución, con objeto de tener una visión de los mismos más acorde con la
realidad a la hora de describirlos e interpretarlos para la toma de decisiones

1.5.3.- VARIANZA.

La varianza representa la media aritmética de las desviaciones con respecto a la


media que son elevadas al cuadrado.

Si atendemos a la colección completa de datos (la población en su totalidad)


obtenemos la varianza poblacional; y si por el contrario prestamos atención sólo a
una muestra de la población, obtenemos en su lugar la varianza muestral. Las
expresiones de estas medidas son las que aparecen a continuación.

Expresión de la varianza muestral:

Segunda forma de calcular la varianza muestral:

Demostración

Podemos observar que como

(sumamos n veces 1 y luego dividimos por n)

y como
obtenemos

Expresión de la cuasivarianza muestral (estimador insesgado de la varianza


poblacional):

Expresión de la varianza poblacional:

donde μ es el valor medio de {Xi}

Expresión de la desviación estándar poblacional:

El término desviación estándar fue incorporado a la estadística por Karl Pearson


en 1894.

Por la formulación de la varianza podemos pasar a obtener la desviación estándar,


tomando la raíz cuadrada positiva de la varianza. Así, si efectuamos la raíz de la
varianza muestral, obtenemos la desviación típica muestral; y si por el contrario,
efectuamos la raíz sobre la varianza poblacional, obtendremos la desviación típica
poblacional.
Desviaciones estándar en una distribución normal.

Expresión de la desviación estándar muestral:

También puede ser tomada como

con a como y s como además se puede tener una mejor tendencia de


medida al desarrollar las formulas indicadas pero se tiene que tener en cuenta la
media, mediana y moda

1.6 Coeficiente de variación


En estadística el coeficiente de variación (de Pearson), es una medida de
dispersión útil para comparar dispersiones a escalas distintas pues es una medida
invariante ante cambios de escala. Sirve para comparar variables que están a
distintas escalas pero que están correlacionadas estadísticamente y
sustantivamente con un factor en común. Es decir, ambas variables tienen una
relación causal con ese factor. Su fórmula expresa la desviación estándar como
porcentaje de la media aritmética, mostrando una mejor interpretación porcentual
del grado de variabilidad que la desviación típica o estándar. Por otro lado
presenta problemas ya que a diferencia de la desviación típica este coeficiente es
variable ante cambios de origen. Por ello es importante que todos los valores sean
positivos y su media de por tanto un valor positivo. A mayor valor de C.V. mayor
heterogeneidad de los valores de la variable; y a menor C.V., mayor
homogeneidad en los valores de la variable. Suele representarse por medio de las
siglas C.V..

Exigimos que:

Se calcula:

Donde σ es la desviación típica. Se puede dar en tanto por ciento calculando:

Propiedades y aplicaciones

El coeficiente de variación es típicamente menor que uno.

Para su mejor interpretación se lo expresa como porcentaje.

Depende de la desviación típica y en mayor medida de la media aritmética, dado


que cuando ésta es 0 o muy próxima a este valor C.V. pierde significado, ya que
puede dar valores muy grandes, que no necesariamente implican dispersión de
datos.

El coeficiente de variación es común en varios campos de la probabilidad aplicada,


como teoría de renovación y teoría de colas. En estos campos la distribución
exponencial es a menudo más importante que la distribución normal. La
desviación típica de una distribución exponencial es igual a su media, por lo que
su coeficiente de variación es 1. Las distribuciones con un C.V. menor que uno,
como la distribución de Erlang se consideran de "baja varianza", mientras que
aquellas con un C.V. mayor que uno, como la distribución hiperexponencial se
consideran de "alta varianza". Algunas fórmulas en estos campos se expresan
usando el cuadrado del coeficiente de variación, abreviado como S.C.V. (por
sus siglas en inglés).

Das könnte Ihnen auch gefallen