Sie sind auf Seite 1von 11

Universidad Politécnica de

Chihuahua

Proyecto: Conocer el promedio de tweets por persona


para optimizar el servicio de Twitter.
Estadística
Profa. Ing. María del Refugio Portillo Estrada
Por

Ana Gabriela Villalba Venegas

10210024

A21M
Entrega: Mayo 27, 2010
Introducción
Twitter es la red social del momento, sólo por detrás de Facebook.
Tiene millones de usuarios alrededor del mundo, y se ha vuelto una
herramienta tecnológica no sólo para comunicarse entre amigos y
familiares, sino que hay empresas que lo utilizan para estar en
mayor contacto con sus clientes, artistas con sus fans, o incluso
páginas de noticias que se apoyan en el Twitter como si fuera un
RSS para sus followers.

Sin embargo, como cualquier otro servicio, cuando hay sobredemanda ocurre una falla de
sistema, lo que en Twitter se denomina como Fail Whale, esto es, cuando hay demasiado
tweets. Claro, hay ocasiones en que los hackers quiebran el sistema y entran para dar de baja
momentáneamente la página, pero la mayoría de las veces es porque hay un exceso de
tweets.

Por tal motivo creo que es necesario conocer las


estadísticas actuales de tal servicio para poder optimizar la
utilidad de la página, es decir, Twitter fue creado para
soportar cierta cantidad de tweets, pero al momento de
crecer y tener cada vez más usuarios, la cantidad de tweets
soportados debe incrementarse. Y es por eso que se busca
que este estudio estadístico muestre cuál es el promedio
actual de mensajes por persona, para ampliar el servicio.

Marco teórico
Al momento de vernos en la necesidad de utilizar la estadística tendremos que recurrir a
conocer los conceptos básicos de la materia.

La estadística es la parte de las matemáticas que estudia los métodos científicos por medio de
los cuales podemos recopilar, ordenar, representar mediante gráficas, analizar e interpretar
para obtener conclusiones de datos numéricos para ser capaz de tomar decisiones acertadas.

La estadística se divide en dos grandes ramas: la estadística descriptiva, que describe por
medio de datos el fenómeno que se está estudiando, las características, propiedades de un
fenómeno en estudio mediante sus datos. La estadística descriptiva llega hasta la fase del
análisis del proceso estadístico, saca las conclusiones de los datos proporcionados y no
predice más allá de éstos. Se le denomina deductiva.

La estadística inferencial es aquella que maneja los datos proporcionados para obtener las
características de una población con base en una muestra. Se le denomina inductiva, ya que
trata de las condiciones bajo las cuales las inferencias o predicciones a desarrollar sean
válidas. Sin embargo, se harán inferencias en las cuales no se estará al cien por ciento seguro,
por lo que se procede a incluir el término probabilidad.
Dentro de la estadística hay que tener en claro algunos conceptos.

Muestra.- Cuando se toma solamente una parte de todos los datos totales.

Población.- Cuando se considera la totalidad de los datos en el estudio estadístico.

Parámetro.- Es una característica de la población.

Estadístico.- Es una característica de la muestra.

Frecuencia.- El número de veces que se repite un dato.

Datos no agrupados.- Cuando el grupo de datos es muy pequeño (menos a veinticinco).

Datos agrupados.- Cuando el número de datos es muy grande se procede a agruparlos en una
tabla de frecuencias para optimizar su estudio y análisis.

Objetivo
El objetivo, como se mencionó anteriormente, es obtener el promedio de tweets diarios por
persona actual para optimizar ella tolerancia del sistema, y que de esta forma no haya
problemas de falla de sistema por el exceso de tweets.

Contenido
Para poder conocer el promedio de tweets diarios de los usuarios de la red social, procedí a
tomar una muestra de 100 datos para efectos de estadística y mejor manejo de los mismos.

Por medio de la página tweetstats.com obtuve las estadísticas promedio de cien usuarios, y a
partir de ellas fue que saqué las estadísticas generales de la muestra.

En esta tabla se observan los cien datos obtenidos.

Tabla de datos
3 26,3 8,6 74,7 81,5 10,4 67,5 8,4
15,7 30,5 3,7 11,2 7,7 2,4 15,1 42,1
3,4 36,4 3,5 70,1 30,4 10,5 8,8 31,7
13,3 11,7 2,9 14,5 12,6 4,2 26,1 12,5
15,1 9,8 7,6 19 21,2 3 1,3 4,4
9,6 9,3 4,5 65,7 15 3,9 2,2 1,5
52,1 9,2 4,5 5,1 8,2 1,5 11,3 13,7
50,3 11,2 10,5 9,4 7,1 2,3 4,3 11
16,9 1,7 6,6 6,3 10,9 60,7 121,5 2,5
18,3 1,8 10,1 98,3 37,2 11,6 29,1 36,5
27,5 113,1 8 50,6 15,9 35,9 5,3 41,6
59,9 5,5 36 69,8 7,8 63,8 14,7 4,6
49,7 21,9 21,9 21,6
Como no entra dentro de la categoría de datos no agrupados, puesto que tiene muchísimos
más que veinticinco, entonces se procede a agruparlos en una tabla de frecuencias e
intervalos para su mejor manejo y análisis.

Tabla de distribución de frecuencias

1,3 16,3 63 1,25 16,35 8,8 63 15,1 63,0% 0,63 554


16,4 31,4 13 16,35 31,45 23,9 76 15,1 13,0% 0,76 311
31,5 46,5 8 31,45 46,55 39 84 15,1 8,0% 0,84 312
46,6 61,6 6 46,55 61,65 54,1 90 15,1 6,0% 0,9 325
61,7 76,7 6 61,65 76,75 69,2 96 15,1 6,0% 0,96 415
76,8 91,8 1 76,75 91,85 84,3 97 15,1 1,0% 0,97 84,3
91,9 106,9 1 91,85 107 99,4 98 15,1 1,0% 0,98 99,4
107 122 2 106,95 122,1 115 100 15,1 2,0% 1 229

23,296 18,26496
13,234 24,5571151
9,66858407 603,051903

Para completarla es necesario efectuar ciertos cálculos, los cuales procedo a explicar.

Rango: Es la diferencia entre el dato mayor y el menor.

Número de clases: Es el número de clases o divisiones que se le van a hacer al rango, y esto
es, el número de intervalos que saldrán. Generalmente son entre cinco y veinte números de
clases.

Ai: Amplitud de intervalo, es cuánto se le sumará al LI para calcular el LS, y se obtiene


dividiendo el rango entre el número de clases, y se redondea hasta donde se requiera.

LI: Límite inferior, es el primer dato de los intervalos, el dato inferior. En el caso del primer
intervalo, es el dato menor de todos los obtenidos, y a partir de él se calculan los demás.

LS: Es el límite superior, el otro extremo del intervalo. Se obtiene sumando el LI y Ai.

LRI: Es el límite real inferior; se calcula sumando el LI y el LS anterior, y dividiendo el resultado


entre dos. De esta forma obtenemos los límites reales entre los intervalos, para que no quede
espacio entre estos y poder cubrir bien todos los datos que tenemos.

LRS: Es el límite real superior; se calcula sumando el LS y el LI del intervalo siguiente, y


dividiendo el resultado entre dos.

Xi: Es la marca de clase; se calcula sumando los LRI y LRS y dividiendo el resultado entre dos.
Vendría a ser el punto medio entre los límites reales.
∑Fi: Es la sumatoria de frecuencias, consistente en ir sumando la frecuencia del intervalo
propio y el anterior, todas con orden descendente. Al llegar al último intervalo se supone que
debe dar igual al número de datos totales de la muestra, en este caso.

Fr: Frecuencia relativa, se obtiene multiplicando la frecuencia absoluta del intervalo por cien, y
dividirlo entre el número de datos totales, de esta forma se expresa en porcentaje; también se
puede dividir la frecuenta del intervalo entre el número de datos, expresándolo como una
fracción.

∑Fr: Al igual que en la ∑Fi, se suman la frecuencia del intervalo, más la suma obtenida en el
intervalo anterior, sólo que en este caso tiene que dar como resultado un valor aproximado a
cien (si se tomó como porcentajes) o al uno, si fue como las fracciones.

Es el cálculo primario para calcular el promedio del conjunto de datos. En el caso de los
valores mostrados en la tabla, simplemente se multiplicó la Xi por la Fi de cada intervalo. Al
obtener los resultados de todas esas operaciones, se procede a sumarlos, y lo que resulte
habrá que dividirse entre el número total de datos.

La fórmula estructurada a utilizar es: = , y el resultado será el promedio total de


los cien datos obtenidos.

: Es la mediana, es decir, el valor intermedio en el conjunto de datos. Para calcularla en un


conjunto de datos agrupados, se realiza la suma del LRI del intervalo más la división del
número de datos entre dos menos la sumatoria de frecuencias del intervalo anterior por la
amplitud de intervalo, entre la frecuencia del intervalo.

La fórmula ya estructurada es la siguiente .

: Es la moda, esto es, el valor con mayor frecuencia en el conjunto de datos. En el caso de
datos agrupados mostrados en la tabla, se calcula sumando el LRI del intervalo más la división
de la diferencia de la frecuencia del intervalo menos la frecuencia del intervalo anterior por la
amplitud de intervalo, entre la diferencia de la frecuencia del intervalo y la frecuencia del
intervalo anterior más la diferencia de la frecuencia del intervalo y la frecuencia del intervalo
siguiente. De manera más estructurada, se puede calcular mediante la siguiente fórmula

.:. esto es

: Es la denominada desviación absoluta media, la cual expresa la desviación individual de


cada elemento respecto al promedio obtenido. Se calcula realizando la sumatoria del absoluto
–de ahí su nombre– de la diferencia de la marca de clase menos el promedio (por cada
intervalo), dividido entre el número total de datos.

La fórmula a utilizar es esta


: Se llama desviación estándar al margen mayor/menor de los datos respecto al promedio
obtenido. Se calcula realizando la sumatoria del cuadrado de la marca de clase menos el
promedio, por la frecuencia (de cada intervalo), entre el número de datos menos uno. A esto
se le saca la raíz cuadrada, y así se obtiene.

La fórmula a utilizar es

: La varianza es similar a la desviación estándar, pero sin calcular la raíz cuadrada. La

fórmula es la siguiente

Habiéndose mostrado ya las tablas con los datos y cálculos obtenidos, a continuación se
muestran las gráficas para una mejor comprensión de la información que arrojan las
estadísticas.

Histograma de frecuencias
70 63
60 1,3 — 16,3
16,4 — 13,4
50
31,5 — 46,5
40
46,6 — 61,6
30
61,7 — 76,7
20 13 76,8 — 92,8
8 6 6
10 91,9 — 106,9
1 1 2
0 107 — 122
1,3 — 16,3 16,4 — 31,5 — 46,6 — 61,7 — 76,8 — 91,9 — 107 —
13,4 46,5 61,6 76,7 92,8 106,9 122

Polígono de Frecuencias
70
63
60

50

40

30

20
13
10 8 6 6
0 1 1 2
8.8 23.9 39.0 54.1 69.2 84.3 99.4 114.5
Gráfico de frecuencias relativas
1,00% 1,00% 2,00%
6,00% 1,3 — 16,3
6,00% 16,4 — 13,4
31,5 — 46,5
46,6 — 61,6
8,00%
61,7 — 76,7

13,00% 76,8 — 92,8


63,00%
91,9 — 106,9
107 — 122

Histograma de frecuencias relativas


70,00% 63,00%
60,00% 1,3 — 16,3
50,00% 16,4 — 13,4
40,00% 31,5 — 46,5
30,00% 46,6 — 61,6
20,00% 13,00% 61,7 — 76,7
8,00% 6,00% 6,00%
10,00% 76,8 — 92,8
1,00% 1,00% 2,00%
0,00% 91,9 — 106,9
1,3 — 16,4 31,5 — 46,6 61,7 76,8 91,9 107 —
107 — 122
16,3 — 46,5 — — — — 122
13,4 61,6 76,7 92,8 106,9

Polígono de frecuencias relativas


70,00%
63,00%
60,00%

50,00%

40,00%

30,00%

20,00%
13,00%
10,00% 8,00% 6,00% 6,00%
0,00% 1,00% 1,00% 2,00%
8.8 23.9 39.0 54.1 69.2 84.3 99.4 114.5
Histograma de frecuencias
acumuladas
120
96 97 98 100 1,3 — 16,3
100 90
84 16,4 — 13,4
76
80 63 31,5 — 46,5
60
46,6 — 61,6
40
61,7 — 76,7
20
0 76,8 — 92,8
1,3 — 16,4 — 31,5 — 46,6 61,7 — 76,8 91,9 — 107 — 91,9 — 106,9
16,3 13,4 46,5 — 61,6 76,7 — 106,9 122
107 — 122
92,8

Polígono de Frecuencia Acumulada


120

100 97 98 100
96
90
80 84
76
60 63

40

20

0
8.8 23.9 39.0 54.1 69.2 84.3 99.4 114.5

Conclusiones
Ya con todos los datos obtenidos se han hecho los cálculos necesarios para obtener las
estadísticas requeridas. Se sabe, entonces, que de la muestra de 100 elementos, los usuarios
postean de 1,3 hasta 122,0 tweets diarios, encontrándose un rango − diferencia− de casi 120
tweets. De ellos, un 63% de ellos escriben de 1,3 a 16,3 tweets al día, lo que convierte este
grupo de usuarios en la mayoría. Sin embargo, cabe señalar que hay otro 37% que postean
hasta 122 tweets.

En general, el promedio de tweets diarios por persona es de 23.29 tweets, o para decirlo con
un poco más de certeza, según esta muestra, los usuarios twittean en promedio de entre 5.02
y 41.55 tweets al día. Generalmente, los usuarios no twittean más de 47.85 veces al día, pero
hay que tener en cuenta que este es sólo un promedio de muestra, y que la realidad es que hay
personas que postean hasta un promedio de 121,5 tweets al día, por lo que también hay que
estar al pendiente de ellos.

También es posible observar que se estadísticamente la cantidad de tweets más posteados es


de 9.66, y que este dato se encuentra en el intervalo de mayor frecuencia, el que comprende
realmente desde 1,25 hasta 16.35 posteos al día.

Se recomienda reacondicionar el software del siste de Twitter para ser capaz de soportar más
de 122 tweets al día por usuario, ya que aunque el promedio es más bajo que eso, hay usuarios
que twittean esa cantidad o más, y resulta molesto para todos los usuarios, sean activos o no
tan activos en el sistema, que se sobrecargue tan seguido.

Fuentes
http://www.twitter.com

http://www.tweetstats.com

http://www.monografias.com/trabajos15/estadistica/estadistica.shtml

http://es.wikipedia.org/wiki/Estad%C3%ADstica
Borrador donde se realizaron los conteos para el proyecto
Tweets al Tweets al Tweets al Tweets al
Usuario Usuario
día mes día mes
Jenndividual 3 79 DanyCullenSwans 8,6 175
Mimo_Fernanda_P 15,7 170 JoeJoelito 3,7 89
narniafans 3,4 53 BunnyBridget 3,5 84
KaarenBishop 13,3 232 laceleanne 2,9 49
katlync 15,1 239 katienealphoto 7,6 76
Elfa_hada 9,6 80 cnnbrk 4,5 81
dianicxa 52,1 956 villaraigosa 4,5 71
ElegantlyBroken 50,3 990 luisoteroa 10,5 217
TGKira 16,9 384 pklongori 6,6 140
speakformyself_ 18,3 359 hectortadeo 10,1 232
adrianboy_ 27,5 607 spider_moonkey 8 176
Coona_ 59,9 1469 EduiTijerina 36 216
radioitalylive 49,7 1062 LiLiaanS 21,9 131
Analu_Cullen 42,1 533 Gabytaquintero 4,4 15
Hizashii 31,7 734 stefany_sp 2,5 16
bigthorya 121,5 1762 pau_88 1,3 2
Mariiangela 29,1 635 Tuliblu 2,2 20
Jayeliwood 10,4 290 RoserRosa 1,5 18
benbarnesonline 2,4 60 MiriancitaD 2,3 7
AlexsLemonade 10,5 299 FerOsuna 60,7 1301
TheLoveStories 67,5 1059 melissatl 15 377
Renata_Vulturi 15,1 384 Yzza8a 8,2 156
Ariianna_F 11,6 160 RealKaka 7,1 75
Madaay 35,9 773 flausinojq 10,9 226
AlekzD10 63,8 1561 gaioladafe 37,2 698
PerfectOverdose 26,3 543 anagrana_ 74,7 1046
alexiamarse 30,5 777 joelidaventura 11,2 184
OhJustLikeMe 36,4 612 josenilsonfj 70,1 1752
cunning_angel 11,7 248 Diego_Santos18 14,5 228
estrelititita 9,8 204 ArturQueirozz 19 231
disneypolls 9,3 114 meaddboy 65,7 427
Twilighters_Ita 9,2 77 leoofeliciano 5,1 102
Twilightitalia 11,2 320 rackeljunger 9,4 104
youso 1,7 28 juulihsantos 6,3 50
AshleyMGreene 1,8 20 ThalesRC 98,3 1574
EliannaCullen 113,1 2679 DessieCBWC 50,6 658
Saul_Vidal 5,5 95 twisun 69,8 1658
Retwittea_si 21,9 411 yezzamyn129_ZAW 21,6 518
Qorianka 12,5 181 BarackObama 1,5 19
popgoesthequest 8,4 90 peta 36,5 833
ClevverTV 11,3 308 Tink_Bell_01 8,8 94
Tweets al Tweets al
Usuario
día mes
MaryNury 4,3 94
RachelleLefevre 4,2 69
switchfoot 3 61
peterfacinelli 3,9 94
michaelsheen 15,9 155
crepusculo_es 7,8 183
tai_doroti 4,6 45
DianaCranberry 13,7 157
andshebelieved 14,7 230
Loopy_Gurl 26,1 613
xstefansx 41,6 582
lalii4ever 11 162
danika_lefevre 5,3 65
ClockworkArtist 81,5 1467
cherryd0ll 7,7 186
nadiaAlejandra 30,4 626
yelyahwilliams 12,6 357
vanessavargasoc 21,2 276

*Datos obtenidos el día 21 de mayo del 2010.

Das könnte Ihnen auch gefallen