Geoestadistica

´´AÑO DEL BUEN DIALOGO Y LA RECONCILIACION NACIONAL´´
UNIVERSIDAD NACIONAL DEL ALTIPLANO PUNO

ESCUELA PROFESIONAL DE INGENERIA
GEOLOGICA Y METALURGICA
MONOGRAFIA N° 001: (medidas de tendencia central, medidas de variabilidad y regresiones)
PRESENTADO POR: PACOMPIA MAMANI, Maricela Natividad

Estudiante de la escuela profesional ingeniería geológica
AL DOCENTE: Ing. LLERENA PEREDO, Georges Florencio
Docente de geoestadistica
GRUPO: IA
AULA: 108
PUNO-PERU
2018
Dedicatoria:
a nuestros padre por la sencilla razón que ellos son
los que sembraran la semilla de superación y
la confianza en nosotros
Agradecimiento:
Debemos agradecer a nuestros padres ya que

ellos muestran su apoyo económico y moral para
ser buenos ingenieros.
INTRODUCCION:
Las medidas de tendencia central son medidas estadísticas que pretenden resumir en un
solo valor a un conjunto de valores. Representan un centro en torno al cual se encuentra
ubicado el conjunto de los datos. Las medidas de tendencia central más utilizadas son:
media, mediana y moda. Las medidas de dispersión en cambio miden el grado de
dispersión de los valores de la variable. Dicho en otros términos las medidas de
dispersión pretenden evaluar en qué medida los datos difieren entre sí. De esta forma,
ambos tipos de medidas usadas en conjunto permiten describir un conjunto de datos
entregando información acerca de su posición y su dispersión.
En muchas situaciones de la vida real, se presentan problemas en los cuales existe una
relación entre dos o más variables y se hace necesario encontrar la naturaleza de esta
relación.
Éste trabajo ilustra una situación real de la empresa ESTIMAR LTDA donde se tienen
los ingresos y costos obtenidos durante los últimos 18 meses y se analiza la relación
existente entre ellos.
Para esto se hizo uso de la técnica de Regresión y Correlación, la cual resulta una
herramienta muy útil a la hora de analizar el comportamiento de dos o más variables
relacionadas.
Se pretende entonces establecer mediante una regresión la relación entre dichos datos al
igual que calcular algunos pronósticos que puedan dar una idea de cómo será el
comportamiento de los ingresos y costos en los próximos meses.
Media aritmética
representatividad en los análisis estadísticos. Se representa por la letra griega µ cuando
se trata del promedio del universo o población y por Ȳ (léase Y barra) cuando se trata
del promedio de la muestra. Es importante destacar que µ es una cantidad fija mientras
que el promedio de la muestra es variable puesto que diferentes muestras extraídas de la
misma población tienden a tener diferentes medias. La media se expresa en la misma
unidad que los datos originales: centímetros, horas, gramos, etc. . Su cálculo se
realización la suma de todos los valores de los datos, dividida entre el número de datos
que componen la muestra
Si una muestra tiene cuatro observaciones: 3, 5, 2 y 2, por definición el estadígrafo será:
Estos cálculos se pueden simbolizar:
Donde Y1 es el valor de la variable en la primera observación, Y2 es el valor de la

segunda observación y así sucesivamente. En general, con “n” observaciones, Yi
representa el valor de la i-ésima observación. En este caso el promedio está dado
por
De aquí se desprende la fórmula definitiva del promedio

Desviaciones: Se define como la desviación de un dato a la diferencia entre el valor del

dato y la media:
Ejemplo de desviaciones:
Una propiedad interesante de la media aritmética es que la suma de las desviaciones es

cero.
Mediana
Otra medida de tendencia central es la mediana. La mediana es el valor de la variable
que ocupa la posición central, cuando los datos se disponen en orden de magnitud. Es
decir, el 50% de las observaciones tiene valores iguales o inferiores a la mediana y el
otro 50% tiene valores iguales o superiores a la mediana.
Si el número de observaciones es par, la mediana corresponde al promedio de los dos
valores centrales. Por ejemplo, en la muestra 3, 9, 11, 15, la mediana es (9+11)/ 2=10
Moda
La moda de una distribución se define como el valor de la variable que más se repite. En
un polígono de frecuencia la moda corresponde al valor de la variable que está bajo el
punto más alto del gráfico. Una muestra puede tener más de una moda.
Medidas de dispersión
Las medidas de dispersión entregan información sobre la variación de la variable.
Pretenden resumir en un solo valor la dispersión que tiene un conjunto de datos. Las
medidas de dispersión más utilizadas son: Rango de variación, Varianza, Desviación
estándar, Coeficiente de variación.
Rango de variación
Se define como la diferencia entre el mayor valor de la variable y el menor valor de la
variable.
La mejor medida de dispersión, y la más generalizada es la varianza, o su raíz cuadrada,

la desviación estándar. La varianza se representa con el símbolo σ² (sigma cuadrado)
para el universo o población y con el símbolo s2 (s cuadrado), cuando se trata de la
muestra. La desviación estándar, que es la raíz cuadrada de la varianza, se representa
por σ (sigma) cuando pertenece al universo o población y por “s”, cuando pertenece a la
muestra. σ² y σ son parámetros, constantes para una población particular; s2 y s son
estadígrafos, valores que cambian de muestra en muestra dentro de una misma
población. La varianza se expresa en unidades de variable al cuadrado y la desviación
estándar simplemente en unidades de variable.
Fórmulas
Donde µ es el promedio de la población.
Donde Ȳ es el promedio de la muestra.

Consideremos a modo de ejemplo una muestra de 4 observaciones
Según la fórmula el promedio calculado es 7, veamos ahora el cálculo de las medidas de

dispersión:
s2 = 34 / 3 = 11,33 Varianza de la muestra

La desviación estándar de la muestra (s) será la raíz cuadrada de 11,33 = 3,4.
Interpretación de la varianza (válida también para la desviación estándar): un alto valor

de la varianza indica que los datos están alejados del promedio. Es difícil hacer una
interpretación de la varianza teniendo un solo valor de ella. La situación es más clara si
se comparan las varianzas de dos muestras, por ejemplo varianza de la muestra igual 18
y varianza de la muestra b igual 25. En este caso diremos que los datos de la muestra b
tienen mayor dispersión que los datos de la muestra a. esto significa que en la muestra a
los datos están más cerca del promedio y en cambio en la muestra b los datos están más
alejados del promedio.
Coeficiente de variación
Es una medida de la dispersión relativa de los datos. Se define como la desviación
estándar de la muestra expresada como porcentaje de la media muestral.
Es de particular utilidad para comparar la dispersión entre variables con distintas

unidades de medida. Esto porque el coeficiente de variación, a diferencia de la
desviación estándar, es independiente de la unidad de medida de la variable de estudio.
Medidas de tendencia central y de dispersión en datos agrupados
Se identifica como datos agrupados a los datos dispuestos en una distribución de
frecuencia. En tal caso las fórmulas para el cálculo de promedio, mediana, modo,
varianza y desviación estándar deben incluir una leve modificación. A continuación se
entregan los detalles para cada una de las medidas.
Promedio en datos agrupados
La fórmula es la siguiente:
Donde ni representa cada una de las frecuencias correspondientes a los diferentes

valores de Yi.
Consideremos como ejemplo una distribución de frecuencia de madres que asisten a un
programa de lactancia materna, clasificadas según el número de partos. Por tratarse de
una variable en escala discreta, las clases o categorías asumen sólo ciertos valores: 1, 2,
3, 4, 5.
Entonces las 42 madres han tenido, en promedio, 2,78 partos.
Si la variable de interés es de tipo continuo será necesario determinar, para cada

intervalo, un valor medio que lo represente. Este valor se llama marca de clase (Yc) y se
calcula dividiendo por 2 la suma de los límites reales del intervalo de clase. De ahí en
adelante se procede del mismo modo que en el ejercicio anterior, reemplazando, en la
formula de promedio, Yi por Yc.
Mediana en datos agrupados

Si la variable es de tipo discreto la mediana será el valor de la variable que corresponda
a la frecuencia acumulada que supere inmediatamente a n/2. En los datos de la tabla 1
Me=3, ya que 42/2 es igual a 21 y la frecuencia acumulada que supera inmediatamente
a 21 es 33, que corresponde a un valor de variable (Yi) igual a 3.
Si la variable es de tipo continuo es necesario, primero, identificar la frecuencia

acumulada que supere en forma inmediata a n/2, y luego aplicar la siguiente fórmula:
Donde:
Moda en datos agrupados

Si la variable es de tipo discreto la moda o modo será al valor de la variable (Yi) que
tenga la mayor frecuencia absoluta ( ). En los datos de la tabla 1 el valor de la moda es 3
ya que este valor de variable corresponde a la mayor frecuencia absoluta =16.
Más adelante se presenta un ejemplo integrado para promedio, mediana, varianza y

desviación estándar en datos agrupados con intervalos.
Varianza en datos agrupados

Para el cálculo de varianza en datos agrupados se utiliza la fórmula
Con los datos del ejemplo y recordando que el promedio (Y) resultó ser 2,78 partos por
madre,
Cuando los datos están agrupados en intervalos de clase, se trabaja con la marca de
clase (Yc), de tal modo que la fórmula queda:
Donde Yc es el punto medio del intervalo y se llama marca de clase del intervalo
Yc= (Límite inferior del intervalo + limite superior del intervalo)/2.
Percentiles
Los percentiles son valores de la variable que dividen la distribución en 100 partes
iguales. De este modo si el percentil 80 (P80) es igual a 35 años de edad, significa que
el 80% de los casos tiene edad igual o inferior a 35 años.
Su procedimiento de cálculo es relativamente simple en datos agrupados sin intervalos.
Retomemos el ejemplo de la variable número de partos:
El percentil j (Pj) corresponde al valor de la variable (Yi ) cuya frecuencia acumulada

supera inmediatamente al “j” % de los casos (jxn/100).
El percentil 80, en los datos de la tabla, será el valor de la variable cuyo Ni sea
inmediatamente superior a 33,6 ((80x42) /100).
El primer Ni que supera a 33,6 es 39. Por lo tanto al percentil 80 le corresponde el valor
4. Se dice entonces que el percentil 80 es 4 partos (P80=4). Este resultado significa que
un 80% de las madres estudiadas han tenido 4 partos o menos.
Si los datos están agrupados en una tabla con intervalos, el procedimiento es levemente
más complejo ya que se hace necesaria la aplicación de una fórmula.
Se aplica a los datos del intervalo cuya frecuencia acumulada ( Ni ) sea inmediatamente
superior al “j” % de los casos (jxn/100).
En la siguiente tabla se muestra la distribución de 40 familias según su ingreso mensual

en miles de pesos. Nótese que para calcular el centro de clase se usaron los límites
reales de cada intervalo.
1. El ingreso mensual promedio será:
2. La mediana será:
Esto significa que un 50% de las familias tiene ingreso mensual igual o inferior a
$127.270.
3. El percentil 78 será:
Por lo tanto se puede decir que 78% de las familias tienen ingreso igual o inferior a
$174.660.
4. Los percentiles 10 y 90 serán:
A base de los valores de los percentiles 10 y 90 se pueden hacer tres afirmaciones:

 El 10% de las familias tiene ingreso igual o inferior a $90.000.

 El 90% de las familias tiene ingreso igual o inferior a $210.000.
 El 80% central, de las familias, tiene ingreso entre $90.000 y $210.000
MEDIDADAS DE VARIAVILIDAD
Desviación media, Dm
Se define la desviación media como la media de las diferencias en valor absoluto de los
valores de la variable a la media, es decir, si tenemos un conjunto
de n observaciones, x1, ..., xn, entonces
Si los datos están agrupados en una tabla estadística es más sencillo usar la relación
Como se observa, la desviación media guarda las mismas dimensiones que las
observaciones. La suma de valores absolutos es relativamente sencilla de calcular, pero
esta simplicidad tiene un inconveniente, esto hace que sea muy engorroso trabajar con
ella a la hora de hacer inferencia a la población.
Varianza y desviación típica

Como forma de medir la dispersión de los datos hemos descartado:
 pues sabemos que esa suma vale 0, ya que las desviaciones con respecto a la
media se compensan al haber términos en esa suma que son de signos distintos.
 Para tener el mismo signo al sumar las desviaciones con respecto a la media
podemos realizar la suma con valores absolutos. Esto nos lleva a la Dm, pero
como hemos mencionado, tiene poco interés por las dificultades que presenta.
Si las desviaciones con respecto a la media las consideramos al cuadrado, , de

nuevo obtenemos que todos los sumandos tienen el mismo signo (positivo). Esta es
además la forma de medir la dispersión de los datos de forma que sus propiedades
matemáticas son más fáciles de utilizar.
Vamos a definir entonces dos estadísticos que serán fundamentales en el resto del curso:
La varianza y la desviación típica.
La varianza, , se define como la media de las diferencias cuadráticas

de n puntuaciones con respecto a su media aritmética, es decir
Para datos agrupados en tablas, usando las notaciones establcidas en los capítulos
anteriores, la varianza se puede escibir como
Una fórmula equivalente para el cálculo de la varianza es
Si los datos están agrupados en tablas, es evidente que

La varianza no tiene la misma magnitud que las observaciones (ej. si las observaciones
se miden en metros, la varianza lo hace en ). Si queremos que la medida de
dispersión sea de la misma dimensionalidad que las observaciones bastará con tomar su
raíz cuadrada. Por ello se define la desviación típica, , como
Ejemplo
Calcular la varianza y desviación típica de las siguientes cantidades medidas en metros:
3,3,4,4,5
Solución: Para calcular dichas medidas de dispersión es necesario calcular previamente

el valor con respecto al cual vamos a medir las diferencias. Éste es la media:
La varianza es:
siendo la desviación típica su raíz cuadrada:
Observación
Además de las propiedades que hemos demostrado sobre la varianza (y por tanto sobre
la desviación típica), será conveniente tener siempre en mente otras que enunciamos a
continuación:
 Ambas son sensibles a la variación de cada una de las puntuaciones, es decir, si

una puntuación cambia, cambia con ella la varianza. La razón es que si miramos
su definición, la varianza es función de cada una de las puntuaciones.
 Si se calculan a traves de los datos agrupados en una tabla, dependen de los

intervalos elegidos. Es decir, cometemos cierto error en el cálculo de la varianza
cuando los datos han sido resumidos en una tabla estadística mediante
intervalos, en lugar de haber sido calculados directamente como datos no
agrupados. Este error no será importante si la elección del número de intervalos,

amplitud y límites de los mismos ha sido adecuada.
 La desviación típica tiene la propiedad de que en el intervalo
COEFICIENTE DE VARIACIÓN DE PEARSON (CV): Es un coeficiente que se

usa para comparar variabilidad entre dos grupos o más grupos. Cuanto más alto
es este coeficiente, más dispersión, más variabilidad, y más distintos serán los sujeto
s entre sí.
Cálculo:
CV =
AMPLITUD SEMIINTERCUARTÍLICA: Se define como la mitad de la distancia entre

el primer y el Teruel cuartel. Puede ser calculada cuando se ha medido la variable en
escala ordinal o superior.
REGRESIONES
La regresión es una técnica estadística utilizada para simular la relación existente entre
dos o más variables. Por lo tanto se puede emplear para construir un modelo que
permita predecir el comportamiento de una variable dada.
La regresión es muy utilizada para interpretar situaciones reales, pero comúnmente se
hace de mala forma, por lo cual es necesario realizar una selección adecuada de las
variables que van a construir las ecuaciones de la regresión, ya que tomar variables que
no tengan relación en la práctica, nos arrojará un modelo carente de sentido, es decir
ilógico.
Según sea la dispersión de los datos (nube de puntos) en el plano cartesiano, pueden
darse alguna de las siguientes relaciones, Lineal, Logarítmica, Exponencial, Cuadrática,
entre otras. Las ecuaciones de cada relación se presentan en la siguiente tabla.
Tabla 1. Ecuaciones de regresión
REGRESIÓN ECUACIÓN
Lineal y = A + Bx
Logarítmica y = A + BLn(x)
Exponencial y = Ae(Bx)
Cuadrática y = A + Bx +Cx2
Sin embargo obtener el modelo de regresión no es suficiente para establecer la

regresión, ya que es necesario evaluar que tan adecuado es el modelo de regresión
obtenido. Para esto se hace uso del coeficiente de correlación R, el cual mide el grado
de relación existente entre las variables. El valor de R varia entre -1 y 1, pero en la
práctica se trabaja con el valor absoluto de R, entonces, a medida que R se aproxime a
1, más grande es el grado de correlación entre los datos, de acuerdo con esto el
coeficiente de correlación se puede clasificar de varias formas, como se observa en la
Tabla 2.
Tabla 2. Clasificación del grado de correlación.
CORRELACIÓN VALOR O RANGO
Perfecta |R| = 1
Excelente 0.9 <= |R| < 1
Buena 0.8 <= |R| < 0.9
Regular 0.5 <= |R| <0.8
Mala |R|< 0.5
Por lo tanto el análisis de regresión es una herramienta estadística que permite analizar y
predecir o estimar observaciones futuras de dos o más variables relacionadas entre sí, es
decir una herramienta útil para la planeación.
Después de éste tratamiento superficial acerca de regresiones, se continua con un caso
práctico relacionado con la empresa ESTIMAR LTDA.
A continuación se presentan los ingresos y costos en millones obtenidos mensualmente
durante todo el año 2002 y los seis primeros meses del 2003.
Optamos por presentar éste caso ya que resulta muy práctico a la hora de aplicar la
técnica de regresión. Además porque permite analizar como se han comportado los
ingresos y costos de la empresa a partir del año 2002 y a su vez pronosticar según la
tendencia arrojada, como será el comportamiento de los ingresos y costos para el resto
del año 2003 y con base en ellos inferir o tomar decisiones a corto plazo.
Distribuciones Bivariantes
Es cuando sobre una población estudiamos simultáneamente los valores de dos
variables estadísticas, el conjunto de los pares de valores correspondientes a
cada individuo se denomina distribución bivariantes.
Ejemplo 1:
Las notas de 10 alumnos en Matemáticas y en Lengua vienen dadas en la siguiente
tabla:
MATEMÁTICAS 2 4 5 5 6 6 7 7 8 9
LENGUA 2 2 5 6 5 7 5 8 7 10
Los pares de valores {(2,2),(4,2),(5,5),...;(8,7),(9,10)}, forman la distribución bivariante.

Regresión
La regresión es una técnica estadística utilizada para simular la relación existente entre
dos o más variables. Por lo tanto se puede emplear para construir un modelo que
permita predecir el comportamiento de una variable dada.
Correlación
Es frecuente que estudiemos sobre una misma población los valores de dos variables
estadísticas distintas, con el fin de ver si existe alguna relación entre ellas, es decir, si
los cambios en una de ellas influyen en los valores de la otra. Si ocurre esto decimos
que las variables están correlacionadas o bien que hay correlación entre ellas.
Medida De La Correlación
La apreciación visual de la existencia de correlación no es suficiente. Usaremos un
parámetro, llamado coeficiente de correlación que denotaremos con la letra r, que nos
permite valorar si ésta es fuerte o débil, positiva o negativa.
El cálculo es una tarea mecánica, que podemos realizar con una calculadora o
un programa informático. Nuestro interés está en saber interpretarlo destacaremos una
de sus propiedades
-1 < r < 1
Correlación Lineal Y Recta De Regresión
Cuando observamos una nube de puntos podemos apreciar si los puntos se agrupan
cerca de alguna curva. Aquí nos limitaremos a ver si los puntos se distribuyen alrededor
de una recta. Si así ocurre diremos que hay correlación lineal. La recta se denomina
recta de regresión.
Hablaremos de correlación lineal fuerte cuando la nube se parezca mucho a una recta y
será cada vez más débil (o menos fuerte) cuando la nube vaya desparramándose con
respecto a la recta.
En el gráfico observamos que en nuestro ejemplo la correlación es bastante fuerte, ya
que la recta que hemos dibujado está próxima a los puntos de la nube.
Cuando la recta es creciente la correlación es positiva o directa: al aumentar una
variable, la otra tiene también tendencia a aumentar, como en el ejemplo anterior.
Cuando la recta es decreciente la correlación es negativa o inversa: al aumentar una
variable, la otra tiene tendencia a disminuir.
Ejemplo 2:
Una persona se entrena para obtener el carnet de conducir repitiendo un test de 50
preguntas. En la gráfica se describen el nº de errores que corresponden a los intentos
realizados.
Observa que hay una correlación muy fuerte (los puntos están "casi" alineados) y
negativa (la recta es decreciente).
Diagrama De Dispersión
La primera forma de describir una distribución bivariante es representar los pares de
valores en el plano cartesiano. El gráfico obtenido recibe el nombre de nube de puntos
o diagrama de dispersión.
Un diagrama de dispersión es una representación gráfica de la relación entre dos

variables, muy utilizada en las fases de Comprobación de teorías e identificación de
causas raíz y en el Diseño de soluciones y mantenimiento de los resultados obtenidos.
Tres conceptos especialmente destacables son que el descubrimiento de las verdaderas
relaciones de causa-efecto es la clave de la resolución eficaz de un problema, que las
relaciones de causa-efecto casi siempre muestran variaciones, y que es más fácil ver la
relación en un diagrama de dispersión que en una simple tabla de números
Línea De Tendencia
La línea de tendencia es la herramienta básica más importante con la que cuenta el
analista técnico.
Es una línea o conjunto de líneas que se trazan en el gráfico uniendo con una misma
pendiente series sucesivas de puntos mínimos (línea de tendencia alcista) o de puntos
máximos (línea de tendencia bajista).
Sirve para determinar en primer lugar la dirección del mercado y establecer
sus objetivos de proyección.
Marca los niveles de soporte o de resistencia que están proyectando los precios.
Permite analizar en cada momento el nivel de Beneficio/Riesgo que se puede tomar al
iniciar o cerrar una posición, tomando como referencia el precio actual respecto a línea
de tendencia y su proyección.
La ruptura de una línea de tendencia al alza o la baja es una de las señales que confirma
un cambio en la dirección de los precios.
Son la base para trazar los canales que encuadran el posible movimiento de los precios.
Según sea la dispersión de los datos (nube de puntos) en el plano cartesiano, pueden
darse alguna de las siguientes relaciones, Lineal, Logarítmica, Exponencial, Cuadrática,
entre otras.
Las medidas de tendencia central son el conjunto de mecanismos que se tiene para
el estudio de los métodos y procedimientos donde se dan los datostabulados que ayudan
a dar inferencias científicas partiendo de tales datos. Estos datos sirven para que todas
las ramas de la ciencia donde se necesita llegar a darconclusiones sobre situaciones; por
medio de los datos se forman grupos describiéndolos con soloun número. Para tal fin no
se utilizan los extremos sino que un valor más típico, el cual seencuentra en el centro.
Este centro sirve para poder llegar a un punto medio donde se ubicaría el promedio o
punto central de los datos descritos para poder establecer resultados como se puede ver
a lo largo dela historia como es el caso de Mendel.
 http://matematicas.reduaz.mx/home/Docentes/ltrueba/diplomado/pagina15.h
tm:
recuperado
http://www.monografias.com/trabajos14/estadistica/estadistica.shtml#ixzz5FWIP
Pb7N
recuperado http://www.monografias.com/trabajos14/estadistica/estadistica.shtml
recurerado http://paginas.facmed.unam.mx/deptos/sp/wp-
content/uploads/2013/12/Quevedo-F.-
recuperado https://www.medwave.cl/link.cgi/Medwave/Series/MBE04/4934
recuperado https://aprendiendoadministracion.com/medidas-de-tendencia-central-
media-mediana-moda-rango-y-eje-medio/
recuperado http://www.monografias.com/trabajos109/moda-media-y-mediana/moda-
media-y-mediana.shtml#ixzz5FWuDMTHd
recurerado Medidas-de-tendencia-central-y-dispersion.-Medwave-2011-Ma-
113..pdf

Geoestadistica

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Geoestadistica

Hochgeladen von

Copyright:

Verfügbare Formate

´´AÑO DEL BUEN DIALOGO Y LA RECONCILIACION NACIONAL´´

UNIVERSIDAD NACIONAL DEL ALTIPLANO PUNO

MONOGRAFIA N° 001: (medidas de tendencia central, medidas de variabilidad y regresiones)

PRESENTADO POR: PACOMPIA MAMANI, Maricela Natividad

a nuestros padre por la sencilla razón que ellos son

los que sembraran la semilla de superación y

Debemos agradecer a nuestros padres ya que

Si una muestra tiene cuatro observaciones: 3, 5, 2 y 2, por definición el estadígrafo será:

Estos cálculos se pueden simbolizar:

Donde Y1 es el valor de la variable en la primera observación, Y2 es el valor de la

De aquí se desprende la fórmula definitiva del promedio

Desviaciones: Se define como la desviación de un dato a la diferencia entre el valor del

Una propiedad interesante de la media aritmética es que la suma de las desviaciones es

La mejor medida de dispersión, y la más generalizada es la varianza, o su raíz cuadrada,

Donde Ȳ es el promedio de la muestra.

Consideremos a modo de ejemplo una muestra de 4 observaciones

Según la fórmula el promedio calculado es 7, veamos ahora el cálculo de las medidas de

s2 = 34 / 3 = 11,33 Varianza de la muestra

Interpretación de la varianza (válida también para la desviación estándar): un alto valor

Es de particular utilidad para comparar la dispersión entre variables con distintas

Donde ni representa cada una de las frecuencias correspondientes a los diferentes

Entonces las 42 madres han tenido, en promedio, 2,78 partos.

Si la variable de interés es de tipo continuo será necesario determinar, para cada

Mediana en datos agrupados

Si la variable es de tipo continuo es necesario, primero, identificar la frecuencia

Moda en datos agrupados

Más adelante se presenta un ejemplo integrado para promedio, mediana, varianza y

Varianza en datos agrupados

Yc= (Límite inferior del intervalo + limite superior del intervalo)/2.

Su procedimiento de cálculo es relativamente simple en datos agrupados sin intervalos.

Retomemos el ejemplo de la variable número de partos:

El percentil j (Pj) corresponde al valor de la variable (Yi ) cuya frecuencia acumulada

un 80% de las madres estudiadas han tenido 4 partos o menos.

En la siguiente tabla se muestra la distribución de 40 familias según su ingreso mensual

1. El ingreso mensual promedio será:

4. Los percentiles 10 y 90 serán:

A base de los valores de los percentiles 10 y 90 se pueden hacer tres afirmaciones:

 El 10% de las familias tiene ingreso igual o inferior a $90.000.

Varianza y desviación típica

Si las desviaciones con respecto a la media las consideramos al cuadrado, , de

La varianza, , se define como la media de las diferencias cuadráticas

Una fórmula equivalente para el cálculo de la varianza es

Si los datos están agrupados en tablas, es evidente que

Solución: Para calcular dichas medidas de dispersión es necesario calcular previamente

siendo la desviación típica su raíz cuadrada:

 Ambas son sensibles a la variación de cada una de las puntuaciones, es decir, si

 Si se calculan a traves de los datos agrupados en una tabla, dependen de los

agrupados. Este error no será importante si la elección del número de intervalos,

COEFICIENTE DE VARIACIÓN DE PEARSON (CV): Es un coeficiente que se

AMPLITUD SEMIINTERCUARTÍLICA: Se define como la mitad de la distancia entre

Tabla 1. Ecuaciones de regresión

Sin embargo obtener el modelo de regresión no es suficiente para establecer la

CORRELACIÓN VALOR O RANGO

Excelente 0.9 <= |R| < 1

Buena 0.8 <= |R| < 0.9

Regular 0.5 <= |R| <0.8

Mala |R|< 0.5

Los pares de valores {(2,2),(4,2),(5,5),...;(8,7),(9,10)}, forman la distribución bivariante.

Un diagrama de dispersión es una representación gráfica de la relación entre dos

Das könnte Ihnen auch gefallen