Sie sind auf Seite 1von 21

FACULTAD DE INGENIERÍA Y CIENCIAS

BÁSICAS

PROYECTO GRUPAL Institución Universitaria Politécnico Grancolombiano

ESTADISTICA INFERENCIAL

TRABAJO COLABORATIVO

Integrantes:
Angie Lorena López Rodríguez (Código 1821982983)
Lina Marcela Rojas Morales (Código 1821980955)
Nelson Enrique castillo Quiñones (Código 1821980532)

Tutor:
Henry Bacca

30 de septiembre de 2019
FACULTAD DE INGENIERÍA Y CIENCIAS
BÁSICAS

PROYECTO GRUPAL Institución Universitaria Politécnico Grancolombiano

TABLA DE CONTENIDO

INTRODUCCION.....................................................................................................................................3
OBJETIVO GENERAL:...........................................................................................................................4
Objetivos específicos:............................................................................................................................4
CONSOLIDADO DEL TRABAJO COLABORATIVO.........................................................................5
CONCLUSIONES...................................................................................................................................20
REFERENCIAS......................................................................................................................................21
FACULTAD DE INGENIERÍA Y CIENCIAS
BÁSICAS

PROYECTO GRUPAL Institución Universitaria Politécnico Grancolombiano

INTRODUCCION

Se llama estadística inferencial o inferencia estadística a la rama de la Estadística encargada de hacer


deducciones, es decir, inferir propiedades, conclusiones y tendencias, a partir de una muestra del
conjunto. Su papel es interpretar, hacer proyecciones y comparaciones.

La estadística inferencial emplea usualmente mecanismos que le permiten llevar a cabo dichas
deducciones, tales como pruebas de estimación puntual (o de intervalos de confianza), pruebas de
hipótesis, pruebas paramétricas (como de media, de diferencia de medias, proporciones, etc.) y no
paramétricas (como la prueba del chi-cuadrado, etc.). También le son útiles los análisis de correlación y
de regresión, las series cronológicas, el análisis de varianza, entre otros.

Por ende, la estadística inferencial es sumamente útil en el análisis de poblaciones y tendencias, para
hacerse una idea posible de las acciones y reacciones de la misma de cara a condiciones específicas. Esto
no significa que se las pueda predecir fielmente, ni que estemos en presencia de una ciencia exacta, pero
sí de una aproximación posible al resultado final.
FACULTAD DE INGENIERÍA Y CIENCIAS
BÁSICAS

PROYECTO GRUPAL Institución Universitaria Politécnico Grancolombiano

OBJETIVO GENERAL:

Analizar las variables de la población de la tabla entregada, para estimar cual es la tendencia de
comportamiento de dichas variables.

Objetivos específicos:

- Analizar las variables de la población entregada

- Identificar las diferentes opciones de muestreo que se pueden realizar en poblaciones

- Identificar la media muestral, varianza muestral y desviación estándar de la muestra

- Construir estimados del intervalo de confianza

- Plantear pruebas de hipótesis para la media de una variable seleccionada


FACULTAD DE INGENIERÍA Y CIENCIAS
BÁSICAS

PROYECTO GRUPAL Institución Universitaria Politécnico Grancolombiano

CONSOLIDADO DEL TRABAJO COLABORATIVO

1. Realice un histograma y explique la forma y la curtosis según el contexto

R// Para realizar el histograma es necesario primero realizar la tabla de frecuencia. Para el
desarrollo de esta se debe de identificar el número de clases la cual se determina aplicando la
regla de sturges:

k = 1 + 3.322 ⋅ L o g (N)
k = 1 + 3.322 ⋅ L o g (537577) = 20

Obtenido este valor se debe hallar la amplitud de clases mediante el rango sobre el número de
clases.

El rango es la diferencia entre el valor máximo y el valor mínimo y se calcula restando al valor
máximo el valor mínimo. entonces tenemos que:

R = Valor max − Valor min

R = 23961 − 185 = 23776

A=RK

A=
FACULTAD DE INGENIERÍA Y CIENCIAS
BÁSICAS

PROYECTO GRUPAL Institución Universitaria Politécnico Grancolombiano

Con estos valores, y según la base de datos dada en el ejercicio, se obtiene la siguiente tabla de
frecuencia:

Donde:
L i = Límite inferior
L s = Límite superior
f i = frecuencia absoluta
h i = frecuencia relativa
F i = Frecuencia absoluta acumulada
H i = Frecuencia relativa acumulada
Xi = Marca de clase
Clase N°1:
Li = dato con menor valor de la muestra
Ls = Li +A -1
FACULTAD DE INGENIERÍA Y CIENCIAS
BÁSICAS

PROYECTO GRUPAL Institución Universitaria Politécnico Grancolombiano

Ls = 185 +1189 -1 =1373


Clase N°2:
Li = Li de la clase N°1 + A
Li = 185 +1189 = 1374
Ls =Li de la clase N°2 +A -1
Ls = 1374 +1189 -1 = 2562
Clase N°3:
Li = Li de la clase N°2 + A
Li = 1374 + 1189 = 2563
Ls = Li de la clase N°3 +A -1
Ls = 2563 +1189 -1 = 3751
Así secuencialmente hasta completar el total de los números de clases.
La marca de clase de cada N° de clase se obtiene por medio de:

Entonces para la marca de clase N°1 se tiene que:

Para la marca de clase N°2 se tiene que:

Así secuencialmente hasta completar todos los campos.

Para realizar el histograma, realmente, solo es necesario la marca de clases y la frecuencia


absoluta, sin embargo, para el análisis de este será de ayuda calcular todas las frecuencias.

Entonces el histograma queda con la siguiente representación:


FACULTAD DE INGENIERÍA Y CIENCIAS
BÁSICAS

PROYECTO GRUPAL Institución Universitaria Politécnico Grancolombiano

Y analizando dicho histograma a simple vista se puede confundir con una distribución bimodal
ya que tiene más de una barra de frecuencia con cuantía semejantes de datos, para descartar este
análisis se recurre a la gráfica de distribución normal la cual evidencia, claramente, que se trata
de una asimetría positiva.

Además de usar la función de la distribución normal; también se puede llegar a la misma


conclusión mediante el análisis de la marca de clase N° 7 cuyo valor es $7,913 pues el 54% de
los datos de "purchase" se encuentran a la izquierda de ella, tal cual como se analiza en la tabla
de frecuencia; esto indica que los datos se encuentran desviados hacia el costado derecho y por
FACULTAD DE INGENIERÍA Y CIENCIAS
BÁSICAS

PROYECTO GRUPAL Institución Universitaria Politécnico Grancolombiano

ende se trata de una distribución sesgada a la derecha. Otro método para establecer el tipo de
distribución es tener presente que cuando el promedio es mayor que la mediana también cumple
con esta característica de distribución.

Ahora bien, cuando se trata de la curtosis, se está hablando sobre el tipo de distribución
(concentración de los datos) entorno a la media.

Se halla la curtosis, teniendo en cuenta que los datos están agrupados en intervalos mediante una
tabla de frecuencia, utilizando la siguiente formula:

Donde:

Como se identifica en la formula anterior es necesario calcular primero la desviación estándar


muestral, la cual está comprendida con la siguiente formula:

Y a su vez es necesario identificar con anticipación la varianza muestral cuya formula es:
FACULTAD DE INGENIERÍA Y CIENCIAS
BÁSICAS

PROYECTO GRUPAL Institución Universitaria Politécnico Grancolombiano

La media o promedio se calcula dividiendo la sumatoria de los valores de los datos entre el
número de datos

Para hallar dichas medidas de dispersión de puede completar la tabla de frecuencias agregando
más columnas al costado derecho aplicando cada formula anterior, pero esto genera que: los
datos a manejar sean números grandes en su valor y aumenta la probabilidad que un error
humano en el cálculo sea mayor, por este motivo se decide calcular las fórmulas dadas
anteriormente usando la herramienta ofimática Excel y sus funciones predeterminadas para
cálculos estadísticos, como lo son:

=VAR.S (varianza muestral)

=DESVEST.M (desviación estándar muestral)

=CURTOSIS (curtosis)

Es así que realizando este cálculo se tiene que el valor de la curtosis es:

Entonces analizando la curtosis:

Ya que el valor de la curtosis es de -0,34, se está hablando de una distribución platicurtica pues
existe una baja concentración de los valores en torno a su media g2<3 ~ -0,34 < 3.

Planteándolo en un contexto "colonial"; por eso el histograma y polígono de frecuencia tiene una
forma "achatada" pues los datos se encuentran muy dispersos.
FACULTAD DE INGENIERÍA Y CIENCIAS
BÁSICAS

PROYECTO GRUPAL Institución Universitaria Politécnico Grancolombiano

2. Calcular la media, mediana, moda, desviación estándar coeficiente de variación e


interprete los resultados.

R// Cabe resaltar que Excel tiene una función llamada análisis de datos estadísticos (Data
Analysis, o DA) la cual nos permite optimizar tiempo ya que calcula todas las medidas de
dispersión y de tendencia analizando los datos en bruto con el fin de sacar conclusiones con base,
solo, en los datos recolectados.

A continuación, se adjunta tabla con dicho análisis, no obstante, se expondrá cada fórmula para
calcular dichas medidas.

Entonces; se tiene que la desviación estándar y la media ya fueron socializadas en el punto


anterior, por ende, se seguirá a explicar las fórmulas para las siguientes medidas:
FACULTAD DE INGENIERÍA Y CIENCIAS
BÁSICAS

PROYECTO GRUPAL Institución Universitaria Politécnico Grancolombiano

o Mediana.

Formula:

Para lograr localizar el límite inferior de la clase donde se encuentra la mediana y la frecuencia
acumulada anterior a la clase de la mediana primero debemos de dividir el total de los datos entre
dos

y según el posicionamiento en el número de clases tomaremos ese límite inferior y esa frecuencia
anterior.

o Moda.

Formula:
FACULTAD DE INGENIERÍA Y CIENCIAS
BÁSICAS

PROYECTO GRUPAL Institución Universitaria Politécnico Grancolombiano

o Coeficiente de variación

Formula:

Ahora bien, haciendo una recopilación de las fórmulas planteadas en el punto N° 1 y N° 2 y con
la ayuda de Excel y sus funciones como:

=PROMEDIO

=MEDIANA

=MODA.UNO

y aplicando directamente la formula del coeficiente de variación, ya que Excel no cuenta con una
función para esta mismas, se obtiene los siguientes valores

Medidas de dispersión

Media= 9334
Mediana = 8062
Moda= 6855
Varianza = 24810581,49
Desviacion estandar = 4981,02
54%
Coeficiente de variación =
FACULTAD DE INGENIERÍA Y CIENCIAS
BÁSICAS

PROYECTO GRUPAL Institución Universitaria Politécnico Grancolombiano

Con las medidas de dispersión se puede concluir que:

1-El promedio de los 537,577 datos de purchase es de $ 9,334.

2-El 50 % de purchase es menor o igual $ 8,062.

3-El purchase con más frecuencia es $ 6,855

4-Los datos de purchase presenta una variabilidad de $ 4,981.02 lo cual refleja que no son muy
uniformes.

5-Los datos de purchase tiene un coeficiente de variación del 54%; esto quiere decir que son
datos heterogéneos o que se encuentran muy dispersos.

3.1 ¿Cuál es la categoría de edades que más realiza compras en el black-friday?

Con base a los datos suministrados y para dar respuesta a la incógnita se clasificaron las edades
de acuerdo a sus respectivas compras, (tabla compras por edades), en la cual se identifica con
una frecuencia de 214690 y un total en compras de $ 1,999749,106 pertenecen a en un rango de
edad de 26 a 35 años siendo este el más significativo

Age Cuenta de Age 3.2 ¿Cuál es promedio de gastos de la categoría de la


0-17 261
edad que más compra?
18-25 1907
26-35 3950 Siendo congruentes con el punto anterior. Se sabe que la
36-45 2024
categoría de edad que más compras efectúa es de 26 - 35
46-50 813
51-55 695 años; por ende, teniendo en cuenta la frecuencia y el total
55+ 384 final de las compras se sabe que el promedio es de $
9,314.6

Rango Valor Promedio Proporción Frecuencia


Total 0-17 $132.659.006 $9.020,1 2,64% $14.707
FACULTAD DE INGENIERÍA Y CIENCIAS
BÁSICAS

PROYECTO GRUPAL Institución Universitaria Politécnico Grancolombiano

Total 18-25 $901.669.280 $9.235,2 17,97% $97.634


Total 26-35 $1.999.749.106 $9.314,6 39,85% $214.690
Total 36-45 $1.010.649.565 $9.401,5 20,14% $107.499
Total 46-50 $413.418.223 $9.284,9 8,24% $44.526
Total 51-55 $361.908.356 $9.620,6 7,21% $37.618
Total 55+ $197.614.842 $9.453,9 3,94% $20.903
Total general $5.017.668.378 $9.333,9 100,00% $537.577

3.3 ¿La proporción de hombres que compran es mayor que la de mujeres?

Según los datos obtenidos en la muestra, la proporción de hombres compradores es mayor, ya


que compran aproximadamente 3,3 veces lo que compran las mujeres.

F = 1164624021

M = 3853044357

Total = 5017668378

3.4 ¿Cuánto es el promedio de gasto de los hombres y las mujeres?

Según los datos obtenidos en la muestra, las mujeres tienen un promedio de gasto de 8809,8
mientras que los hombres tienen un promedio de 9504,8

Rango Gender Valor Promedio Proporción Frecuencia


0-17 F $41.826.615 $8.444,7 3,59% 4953
Total 0-17 $41.826.615 $8.444,7 3,59% 4953
18-25 F $202.209.450 $8.405,4 17,36% 24057
Total 18-25 $202.209.450 $8.405,4 17,36% 24057
26-35 F $433.857.680 $8.791,8 37,25% 49348
Total 26-35 $433.857.680 $8.791,8 37,25% 49348
36-45 F $239.010.480 $9.046,6 20,52% 26420
Total 36-45 $239.010.480 $9.046,6 20,52% 26420
FACULTAD DE INGENIERÍA Y CIENCIAS
BÁSICAS

PROYECTO GRUPAL Institución Universitaria Politécnico Grancolombiano

46-50 F $114.796.993 $8.929,4 9,86% 12856


Total 46-50 $114.796.993 $8.929,4 9,86% 12856
51-55 F $87.972.407 $9.131,5 7,55% 9634
Total 51-55 $87.972.407 $9.131,5 7,55% 9634
55+ F $44.950.396 $9.119,6 3,86% 4929
Total 55+ $44.950.396 $9.119,6 3,86% 4929
Total general $1.164.624.021 $8.809,8 100,00% 132197
Rango Gender Valor Promedio Proporción Frecuencia
0-17 M $90.832.391 $9.312,3 2,36% 9754
Total 0-17 $90.832.391 $9.312,3 2,36% 9754
18-25 M $699.459.830 $9.506,5 18,15% 73577
Total 18-25 $699.459.830 $9.506,5 18,15% 73577
26-35 M $1.565.891.426 $9.470,6 40,64% 165342
Total 26-35 $1.565.891.426 $9.470,6 40,64% 165342
36-45 M $771.639.085 $9.517,1 20,03% 81079
Total 36-45 $771.639.085 $9.517,1 20,03% 81079
46-50 M $298.621.230 $9.429,2 7,75% 31670
Total 46-50 $298.621.230 $9.429,2 7,75% 31670
51-55 M $273.935.949 $9.789,0 7,11% 27984
Total 51-55 $273.935.949 $9.789,0 7,11% 27984
55+ M $152.664.446 $9.557,1 3,96% 15974
Total 55+ $152.664.446 $9.557,1 3,96% 15974
Total general $3.853.044.357 $9.504,8 100,00% 405380
FACULTAD DE INGENIERÍA Y CIENCIAS
BÁSICAS

PROYECTO GRUPAL Institución Universitaria Politécnico Grancolombiano

4.1 ¿Cuál es el tamaño de la muestra que se requiere? Si se exige un error al calcular la


media del 2% y un nivel de confianza del 95%.

Partiendo de la hipótesis de que el modelo sigue una distribución normal.

Trabajando con la siguiente ecuación:


FACULTAD DE INGENIERÍA Y CIENCIAS
BÁSICAS

PROYECTO GRUPAL Institución Universitaria Politécnico Grancolombiano

Donde p toma el valor de 0.5.


P= 0,5
Y para el cálculo Z, se tiene lo siguiente: media = 2%
e= 0,02
α 2 = 1 − 0.95 Nivel de confianza = 95%
α2 = 0,025
α 2 = 0.025 Por tanto: Z 0.025 = 1,96
n= 2401
Por tanto: Z 0.025 = 1.96

El valor de e equivale a 0.02.

Reemplazando en la ecuación, se obtiene:

Por lo tanto, el tamaño de la muestra Debe ser igual a 2401.

4.2 Asumiendo que los datos son normales, calcule un Intervalo de confianza al 95% para
la diferencia de los gastos para los hombres y mujeres e interprete el resultado obtenido.

La diferencia porcentual se calcula como: (75.4 - 24.6) % = 50.8 %. Teniendo en cuenta la


cantidad de muestra calculada anteriormente, n = 2401. Se usará la siguiente fórmula:

Reemplazando:
FACULTAD DE INGENIERÍA Y CIENCIAS
BÁSICAS

PROYECTO GRUPAL Institución Universitaria Politécnico Grancolombiano

Resultando lo siguiente:

.
Por tanto, se puede concluir que el intervalo de confianza es desde 48.8 % hasta 52.8 %.

GENDER FRECUENCIA PROPORCION


F 132197 24,6%
M 405380 75,4%
Total 537577 100%
Diferencia % 50,8%
Valor Z 1,96
Muestra 2401
Li de error 48,8%
Ls de error 52,8%

CONCLUSIONES
FACULTAD DE INGENIERÍA Y CIENCIAS
BÁSICAS

PROYECTO GRUPAL Institución Universitaria Politécnico Grancolombiano

Después de realizar las evaluaciones correspondientes y utilizar los métodos ya conocidos y


mencionados con anterioridad, podemos concluir que la veracidad de la información
suministrada en el resultado depende en su gran mayoría por la forma en que tomamos las
muestras y como estas puedan incluir gran parte de disparidades que existen en una población.

Gran parte del éxito de un estudio como el que entregamos anteriormente depende en su mayoría
por el nivel de confianza que este pueda tener o brindar al lector. Ya que si el resultado es muy
amplio con respecto a los límites y su interacción con la media nos diría que la muestra escogida
no es la correcta y que deberíamos cambiar la forma en que seleccionamos la misma.

La viabilidad del estudio fue determinada por la exposición a las hipótesis planteadas y como
estas determinaron resultados coherentes con respecto a las pruebas y de esta forma descartar
cualquier tipo respuesta que afecte la finalidad del estudio estadístico.
FACULTAD DE INGENIERÍA Y CIENCIAS
BÁSICAS

PROYECTO GRUPAL Institución Universitaria Politécnico Grancolombiano

REFERENCIAS

 https://www.youtube.com/watch?v=CuKr7GzohbI
 https://www.youtube.com/watch?v=ZAJJB7gbiBs

 https://sites.google.com/view/matheuler/estad%C3%ADstica-inferencial

Das könnte Ihnen auch gefallen