Sie sind auf Seite 1von 7

En el siguiente trabajo, cada estudiante debe contribuir a la solución de los

ejercicios planteados y esta se debe evidenciar en una participación activa dentro

de cada una de las semanas 3, 4 y 5.

● La evaluación de su participación semanal se basará en los siguientes rúbrica:

http://bit.ly/2F1s9Cx

● La evaluación del consolidado del Trabajo final se basará en la siguiente rúbrica:

http://bit.ly/2tYeciq

Tenga presente que para cada uno de los ejercicios debe ser explícito con la
solución que obtiene, son necesarios procedimientos.

Competencia
● Identifica variables constantes y parámetros, y las relaciones que pueden existir
entre ellos y su representación matemática.
● Desarrolla la estimación de parámetros mediante el uso de intervalos de confianza.

Objetivo
Comprender el procedimiento para construir intervalo de confianza para estimar la
diferencia de dos promedios poblacionales e interpretarlo.

Descripción
El conjunto de datos en el archivo “black-friday” (Dagdoug, 2019) es una muestra de las
transacciones realizadas en una tienda minorista. La tienda quiere conocer mejor el
comportamiento de compra del cliente frente a diferentes productos. Específicamente, el
problema que estamos tratando de predecir la variable dependiente (el monto de la compra)
con la ayuda de la información contenida en las otras variables.

Las variables del archivo adjunto son las siguientes:


User_ID Identificador único del comprador

Product_ID Identificador único del producto.

Gender Sexo del comprador

Age Edad del comprador dividida en contenedores

Occupation Ocupación del comprador.

City_Category Lugar de residencia del comprador.

Stay_In_Current_City_Years Número de años en la ciudad actual.

Marital_Status Estado civil del comprador

Product_Category_1 Categoría de producto de compra

Product_Category_2 El producto puede pertenecer a otra categoría

Product_Category_3 El producto puede pertenecer a otra categoría

Purchase Valor de la compra en dólares

En el siguiente link podrá descargar el archivo: http://bit.ly/2M8AZmG

Por lo anterior se sugiere que realice la siguiente:

Utilizando la variable del valor de la compra (Purchase), realice lo siguiente:

1. Realice un histograma y explique la forma y la curtosis según el contexto.


2. Calcular: la media, mediana, moda, desviación estándar, coeficiente de variación e
interprete los resultados.

En relación a las variables dadas en la tabla anterior, responda y justifique los resultados:

3.1 ¿Cuál es la categoría de edades que más realiza compras en el black-friday?


3.2 ¿Cuál es promedio de gatos de la categoría de la edad que más compra?
3.3 ¿La proporción de hombres que compran es mayor que la de mujeres?
3.4 ¿Cuánto es el promedio de gasto de los hombres y las mujeres?

Intervalos de confianza

4.1 ¿Cuál es el tamaño de la muestra que se requiere?. Si se exige un error al calcular la


media del 2% y un nivel de confianza del 95%
4.2 Asumiendo que los datos son normales, calcule un Intervalo de confianza al 95% para
la diferencia de los gastos para los hombres y mujeres e interprete el resultado obtenido.

Importante: En el Foro: Desarrollo del trabajo colaborativo. se debe evidenciar el


borrador de cada uno de los anteriores interrogantes.

Consolidar la información en un archivo PDF y con soporte de un archivo en excel, el cual


debe ser subido en el Foro: Desarrollo del trabajo colaborativo. Este PDF debe tener
(portada, objetivos, desarrollo de la actividad, resultados y referencias), el excel los
cálculos y procedimientos.

Bibliografía
Dagdoug, M. (10 de Julio de 2019). Black Friday Sales: Analysis an Prediction. Obtenido
de Kaggle: https://www.kaggle.com/mehdidag/black-friday

DESARROLLO

1. Para la construcción de un histograma, es necesario que se genere una tabla de


frecuencias

Donde el rango= máximo-mínimo y el número de clases (o intervalos) se puede


obtener usando la ecuación de Sturges

𝑁𝑐 = 1 + 3.322 ∗ log⁡(𝑛)

Entonces
n 537577
Máximo 23961
Mínimo 185
Rango 23776
Número de clases 20
Amplitud 1189

Nc Límite inferior Límite superior Marca de clase Frecuencia Absoluta


1 185 1374 779.5 8149
2 1374 2563 1968.5 24026
3 2563 3752 3157.5 28957
4 3752 4941 4346.5 28280
5 4941 6130 5535.5 68558
6 6130 7319 6724.5 61551
7 7319 8508 7913.5 69588
8 8508 9697 9102.5 35033
9 9697 10886 10291.5 39737
10 10886 12075 11480.5 39433
11 12075 13264 12669.5 18846
12 13264 14453 13858.5 5967
13 14453 15642 15047.5 30227
14 15642 16831 16236.5 33727
15 16831 18020 17425.5 2071
16 18020 19209 18614.5 11484
17 19209 20398 19803.5 23404
18 20398 21587 20992.5 6223
19 21587 22776 22181.5 10
20 22776 23965 23370.5 2306
TOTAL 537577

HISTOGRAMA DE FRECUENCIAS
80000
fRECUENCIA ABSOLUTA

70000
60000
50000
40000
30000
20000
10000
0
1968.5
3157.5
4346.5
5535.5
6724.5
7913.5
9102.5
779.5

10291.5
11480.5
12669.5
13858.5
15047.5
16236.5
17425.5
18614.5
19803.5
20992.5
22181.5
23370.5

PURCHASE (dólares)

La variable PURCHASE muestra una distribución aproximadamente normal con un


sesgo a la izquierda, o lo que es lo mismo, una asimetría en la derecha. El coeficiente
de curtosis de -0.343 sugiere que se trata de una distribución donde hay menor
concentración de los datos alrededor de la media, por lo que su curva es más achatada
(platicúrtica). Lo anterior, indica que el valor de compra no siempre ronda alrededor del
promedio estimado sino que se presenta variabilidad y mayor dispersión.
2. A continuación, se muestran los parámetros para la variable PURCHASE o VALOR
DE COMPRA
MODA 6855
MEDIA 9334
MEDIANA 8062
DEVIACIÓN ESTÁNDAR 4981
COEF. VARIACIÓN 0.534

La moda, la media y la mediana son medidas de tendencia central del conjunto de datos.
Así, se tiene que la moda representa el valor de compra con mayor frecuencia, la media
es el valor promedio de las compras para la muestra de clientes y la mediana se refiere
al punto medio donde la mitad de los datos está por debajo, y la otra mitad se encuentra
por encima, es decir que el 50% del valor de las compras está por debajo de los 8062
dólares y el otro 50% del valor de las compras es superior a este monto.
Ahora, con respecto a la desviación estándar de la muestra, se puede inferir una
variabilidad y una dispersión significativa entre los valores de compra del conjunto de
clientes y la media de esta variable. El coeficiente de variación, que tambien es una
medida de dispersión, permite inferir una variación o dispersión de los valores de las
compras con respecto a la media de la muestra del 53.4%.

3.
3.1 ¿Cuál es la categoría de edades que más realiza compras en el black-friday?

Categoría Frecuencia
Edad absoluta
0-17 14707
18-25 97634
26-35 214690
36-45 107499
46-50 44526
51-55 37618
55+ 20903
TOTAL 537577
Dada la frecuencia de cada categoría de edad, se encuentra que la categoría que más
realiza compras en el Black Friday es la de 26-35 años.

3.2 ¿Cuál es promedio de gastos de la categoría de la edad que más compra?

Los clientes de la categoría de edad entre 26 y 35 años, quienes son los que más compas
realizan, gastan en promedio 9314.6 dólares.

3.3 ¿La proporción de hombres que compran es mayor que la de mujeres?


Género Número Proporción %
de clientes
F 132197 24.6
M 405380 75.4
TOTAL 537577 100

Dada la frecuencia para las categorías de género, los hombres representan la


mayor proporción de los clientes que compran en el Black Friday, siendo de 75.4%
de total.
3.4 ¿Cuánto es el promedio de gasto de los hombres y las mujeres?

Los hombres gastan en promedio 9504.8 dólares y las mujeres gastan en promedio
8809.8 dólares.

4. Intervalos de confianza

4.1 ¿Cuál es el tamaño de la muestra que se requiere? Si se exige un error al calcular la


media del 2% y un nivel de confianza del 95%
El tamaño de muestra se calcula teniendo como fundamento la variable PURCHASE o
Valor de compra, siendo esto, este será:

𝑍2𝜎 2
𝑛= 2
𝑒

1.962 ∗ 48912
𝑛= = 2.38 ∗ 1011
0.022

Se usa Z=1.96 para una confianza de 95% y se usa el valor de la varianza para la
variable.

4.2 Asumiendo que los datos son normales, calcule un Intervalo de confianza al 95% para
la diferencia de los gastos para los hombres y mujeres e interprete el resultado obtenido.

Se procede a determinar el intervalo de confianza para la diferencia de medias,


refiriéndonos a la diferencia en el gasto promedio entre hombres y mujeres.

𝜎12 𝜎22
𝜇1 − 𝜇2 = 𝑥̅1 − 𝑥̅2 ± 𝑧 ∗ √ +
𝑛1 𝑛2

(5051.1)2 (4721.4)2
𝜇1 − 𝜇2 = (9504.8 − 8809.8) ± 1.96 ∗ √ +
405380 132197
655.2⁡𝑑ó𝑙𝑎𝑟𝑒𝑠 ≤ 𝜇1 − 𝜇2 ≤ 724.8⁡𝑑ó𝑙𝑎𝑟𝑒𝑠
El intervalo de confianza construido es un rango de valores en el cual se encuentra con
un nivel de confianza del 95% (alta probabilidad) el valor real de la diferencia de medias
poblacionales para el gasto promedio en compras entre hombres y mujeres en el Black
Friday, teniendo como base los parámetros muestrales.

Das könnte Ihnen auch gefallen