Sie sind auf Seite 1von 25

ANLISISCOMPARATIVO DELUSODEMEMORIAEN LINUXYWINDOWS

MiguelSnchezdeLenPeque AntnKalinovIliev Estadstica,ETSIIndustriales,UniversidadPolitcnicadeMadrid Enerode2009

ANLISIS COMPARATIVO DEL USO DE MEMORIA ENTRE LOS SISTEMAS OPERATIVOS LINUX Y WINDOWS

1. LA IDEA 2. LOS DATOS 3. ANLISIS 3.1 3.2 3.3 Diagnosis Modelo de estudio Definicin de un nuevo modelo; anlisis de resultados

1 2 5 5 8 10 18

4. CONCLUSIN

Anexo: Dnde encontrar el archivo de datos original y el utilizado en el estudio AGRADECIMIENTOS REFERENCIAS

20 21 21

1. LA IDEA La nuestra, como muchas otras grandes ideas, comenz en la servilleta de una cafetera. Debamos encontrar un tema para nuestro trabajo de estadstica y pensbamos en algo actual, interesante y nuevo. Seguro que a muchos usuarios de Linux la batalla entre el software libre y el propietario no les parece nada nuevo, pero para aquellos que no sepan muy bien de qu va el asunto y por qu hemos decidido tratar este tema, daremos una pequea explicacin de lo que es el fantstico mundo del software libre. Software libre es como denominamos a una clase de programas no slo gratuitos, sino abiertos al pblico para que ste los revise, modifique y distribuya libremente (eso s, siempre ajustndose a unas licencias del software libre que tienen sus caractersticas distintivas). De modo ms preciso, se refiere a cuatro libertades que se otorgan a los usuarios del software:

la libertad de usar el programa, con cualquier propsito la libertad de estudiar el funcionamiento del programa y adaptarlo a las necesidades la libertad de distribuir copias la libertad de mejorar el programa y hacer pblicas las mejoras, de modo que toda la comunidad se beneficie.

Es todo un fenmeno cultural, pues cada vez ms gente utiliza y/o elabora este tipo de software, que muchas veces no es slo igual sino mejor que sus alternativas comerciales. Mucho se puede hablar de los orgenes del software libre, pero realmente la popularizacin de esta ideologa tuvo lugar a la par que la revolucin de internet, lo cual tiene sentido, pues internet lo que hizo y sigue haciendo es promover la libertad de expresin, algo muy relacionado con las ideas detrs del software libre. En los aos 60 y 70 del siglo XX, antes del gran boom que experiment la informtica, en ambientes universitarios y empresariales, que eran los que tenan acceso a las computadoras de la poca, era comn que los programadores compartieran libremente sus programas. Sin embargo, con la llegada de los aos 80, la situacin cambi radicalmente. Surgieron y crecieron empresas de software que forzaron a los usuarios a aceptar condiciones restrictivas del uso de software. Se negaban a proporcionar el cdigo fuente (es decir, el archivo que contiene las instrucciones que sigue un programa y que revela el funcionamiento del mismo), con lo cual nadie poda mejorar un programa a pesar de estar capacitado y motivado para hacerlo. As se inici el movimiento que buscaba la creacin de software libre para todos, una idea algo romntica, pero que ha ido cogiendo fuerza y asentndose con el paso del tiempo. Las motivaciones detrs del movimiento del software libre son:

La motivacin tica: que argumenta que el software es conocimiento y debe poderse difundir sin trabas. Su ocultacin es una actitud antisocial y la posibilidad de modificar programas es una forma de libertad de expresin. La motivacin pragmtica, que argumenta ventajas tcnicas y econmicas.

No es oportuno hablar del software libre sin mencionar Linux, un sistema operativo creado con esa mentalidad. Gente capaz e inconformista ha hecho posible que desde sus inicios cuando Linus Torvalds, un estudiante de la universidad de Helsinki, empez a promover un proyecto que trataba de realizar una mejora sobre un sistema basado en Unix, se convirtiera en una fuerte 1

comunidad con millones de usuarios en todo el mundo. Se acab por desarrollar un sistema operativo completamente diferente, nuevo y de libre distribucin que hiciera competencia a los sistemas Windows. Desde entonces no ha dejado de evolucionar y ahora Linux tiene un lugar clave en las filas del software libre en su lucha contra el monopolio de Microsoft y, en menor proporcin, el resto de los sistemas operativos comerciales como Mac OSX. En los ltimos aos, el uso de Linux ha incrementado en cifras importantes y la tendencia es que siga siendo as. Muchos gobiernos, universidades y entornos empresariales han descubierto las ventajas no slo econmicas sino de rendimiento que puede proporcionar Linux. Hoy en da disponemos de una gran variedad de distribuciones de Linux, lideradas por diferentes grupos de trabajo o asociaciones, pudiendo escoger de entre todas ellas la que mejor se adapte a nuestras necesidades o gustos personales. Cada distribucin sigue su propia filosofa, pero compartiendo el mismo espritu y los logros realizados. Sabiendo ya qu estamos tratando y las diferencias entre el software libre y el propietario, la pregunta que muchos nos hacemos es qu es mejor?. Lo cierto es que es una pregunta complicada, ya que para llegar a una respuesta habra que analizar muchos factores (algunos de ellos subjetivos), por lo que no podramos llegar a una solucin que satisficiera a todos. Por eso en nuestro caso hemos escogido analizar un aspecto comparable de forma objetiva entre los dos sistemas operativos: el consumo de memoria base, es decir, excluyendo el consumo de memoria que hacen las aplicaciones que no corren por defecto al arrancar el ordenador (procesos del sistema, antivirus...). Con esto no nos referimos al consumo mnimo posible para que funcione nuestro sistema operativo, sino al consumo permanente (al que hemos llamado base), que permanece desde un principio y mientras realizamos cualquier actividad con nuestro ordenador. Escogimos cuatro factores que consideramos podan ser influyentes en la variable respuesta consumo de memoria base:

Sistema operativo (Linux // Windows) Antigedad del sistema operativo (2007 o posterior // anterior al 2007) Memoria RAM total Memoria virtual total 2. LOS DATOS

Una vez tenamos clara nuestra idea, debamos pensar en cmo bamos a recoger los datos. Lo primero que pensamos fue hacerlo va correo electrnico, con mensajes en cadena, pero era complicado conseguir que la gente respondiera a estos correos y, sobre todo, era difcil la gestin de todos los datos con este mtodo. La solucin fue realizar una encuesta en lenguaje HTML y colgarla en los servidores de la escuela para que estuvieran accesibles y resultase ms cmodo responder a las preguntas que en ella se planteaban. Realizamos un modelo de encuesta para cada sistema operativo: http://wiki.dii.etsii.upm.es/etsii/windows.html (para usuarios de Windows) http://wiki.dii.etsii.upm.es/etsii/linux.html (para usuarios de Linux) 2

Ambas tenan una estructura similar, en la que se peda al usuario que introdujese los siguientes datos:

Antigedad de su sistema operativo Tamao de la memoria RAM del equipo Tamao del archivo de paginacin / SWAP / memoria virtual Consumo de memoria RAM (o disponible en el caso de Windows, por facilitar la tarea al usuario) Consumo de memoria virtual Memoria usada por el navegador de internet Memoria usada por la aplicacin de monitorizacin de recursos del sistema

Adems, y aunque no utilicemos estos datos en nuestro estudio, en la encuesta para usuarios de Linux pedimos que se seleccione de una lista:

Distribucin de Linux (Debian, Fedora, Mandriva, Suse, Ubuntu, otra) Escritorio (GNOME, KDE, XFCE, otro)

De esta forma estos datos estaran disponibles para, por ejemplo, hacer un estudio del consumo de memoria dentro de las diferentes distribuciones de Linux o los diferentes escritorios. Con esta encuesta, podamos disponer de todos los datos necesarios para realizar nuestro estudio: los cuatro factores de forma directa (el sistema operativo, su antigedad y la memoria RAM y virtual totales) y la variable respuesta, calculada restando al consumo total de memoria (consumo de la memoria RAM + consumo de la memoria virtual) la memoria consumida por las dos aplicaciones abiertas (el navegador de internet y la aplicacin de monitorizacin de recursos del sistema). Por supuesto, la encuesta incluye comentarios con todas las instrucciones para rellenarla de forma correcta y asegurarnos que el encuestado no se olvidaba de, por ejemplo, cerrar aplicaciones que tuviese abiertas como el reproductor de msica o el cliente de mensajera instantnea. Teniendo el diseo de la encuesta slo faltaba encontrar el mtodo para lograr almacenar y organizar todos los datos de forma sencilla y compacta. Para ello, utilizamos en la encuesta un script en PHP llamado apgForm 1.7, que traduce los resultados de una encuesta o formulario a un formato de hoja de clculo. El da 19 de diciembre de 2008, colgamos en el servidor la primera versin de la encuesta y lo anunciamos va correo electrnico a personas cercanas. Con el paso de los das, vimos los errores que tena la encuesta (principalmente por falta de explicaciones para rellenarla correctamente), as que realizamos un nuevo modelo que colgamos el da 29 (cuando habamos recibido 75 datos). Tras hacerlo, nos pusimos a publicitarla en diferentes sitios, como los foros de las principales distribuciones de Linux, algunos de Windows y otros foros poco relacionados con la informtica pero con gran participacin de personas. A da 9 de enero de 2009 y tras slo 11 das desde la publicacin de la nueva encuesta, comenzamos a purgar los 1573 datos que tenamos para comenzar el estudio con una muestra que ya consideramos sera significativa.

Para limpiar estos datos debamos, antes de nada, eliminar aquellas encuestas que estuvieran incompletas, cosa que no fue difcil teniendo los datos en una hoja de clculo. Lo segundo que tenamos que hacer era procesar los datos numricos. Estos datos tenan un formato muy dispar: haba quien responda en MB y quien lo haca en KB o GB (a pesar de nuestra expresa peticin de hacerlo en MB), haba quien pona puntos para indicar la separacin entre las centenas y los millares y quien lo haca para indicar la separacin entre las cifras enteras y los decimales, quien utilizaba la coma para hacer esta separacin y quien pona alguna explicacin o comentario en el resultado. La idea de depurar los datos uno por uno fue descartada inmediatamente, as que decidimos realizar un programa que lo hiciese lo mejor posible. El programa fue escrito en Pascal (muy cmodo para manejar archivos y conjuntos) y realizaba un proceso muy sencillo. En primer lugar, debamos copiar las columnas de datos numricos a un archivo nuevo y guardarlo como tipo texto (.txt) para poder manejarlo con facilidad. Puesto que esta tabla slo deban aparecer datos numricos, el algoritmo del programa era el siguiente: 1. Realizaba una copia del archivo original exceptuando caracteres no numricos, signos de puntuacin y los caracteres 'g' o 'G' (que permaneceran en los pocos datos que tuvieran la indicacin de GB tras la cifra numrica). 2. Realizaba otra copia de este archivo. En este caso realizaba la siguiente comprobacin: si se encontraba un signo de puntuacin: a) Si los tres caracteres siguientes son numricos entonces no copia el signo de puntuacin (interpretamos que se trata de una separacin entre las centenas y los millares). b) Si no ocurre esto, interpreta que se trata de un carcter de separacin entre las cifras enteras y decimales para programas configurados en castellano (escribe en el archivo una coma ','). Debemos recordar que entre dato y dato existe un carcter de tabulacin o un salto de lnea. Con este sencillo algoritmo, conseguimos tener los datos casi a punto. Los copiamos de nuevo a la tabla original y los ordenamos para que tengamos agrupados los datos que no sean de tipo numrico en las columnas en las que debieran serlo. De esta forma, terminamos la limpieza aadiendo tres ceros en los pocos datos que tenemos que tienen una G (de GB) al final, y borramos la G. Nos queda por hacer dos comprobaciones: unidades e incoherencias.

Para la primera hemos supuesto que no puede haber diferencias de tres rdenes de magnitud entre datos de la misma clase (ej.: un ordenador con 64MB de RAM y otro con 64GB), de esta forma con la hoja de clculo realizamos una sencilla operacin lgica: si pasa de un lmite que establezcamos, dividimos la cifra entre 1000 porque estar en KB, si no, dejamos la cifra como est. La segunda comprobacin tambin es sencilla manejando la hoja de clculo: consiste en comprobar incoherencias del tipo el ordenador consume ms memoria de la que dispone (aplicado a la RAM y la memoria virtual). Debemos tener en cuenta que los datos de Windows representaban la memoria RAM disponible, luego tenemos que crear una columna de datos resultante de la diferencia entre la memoria RAM total y la disponible para saber cunta memoria est consumiendo.

Ahora ya disponemos de una tabla de datos limpia y coherente, pero nos queda una cosa ms que hacer: eliminar las respuestas claramente incorrectas. Para eso ordenamos columna por columna los datos y vemos qu valores extremos podemos considerar incorrectos, como quien dice tener (respuesta textual) 545446465559999987777777888888888888888888888888899999999777777 de memoria RAM o quien responde a todo 0. Tras realizar esta limpieza, descubrimos que nos quedaban de los 1573 datos originales, 1102. Lo cierto es que entraba dentro de nuestras previsiones, pues pensbamos analizar en torno a 1000 datos.

3. ANLISIS Para realizar el estudio, utilizaremos el programa Statgraphics. Para comenzar, importamos la tabla de datos. Una vez hecho esto, seleccionamos la opcin de ANOVA factorial en la pestaa de comparacin, seccin de anlisis de la varianza. De esta forma realizaremos un anlisis del modelo para mltiples factores. Puesto que no estamos realizando un estudio de regresin, clasificamos los factores RAM y memoria virtual en distintos niveles (dos en nuestro caso): RAM: Virtual: nivel 1, <= 1024 MB nivel 1, <= 1535 MB nivel 2, > 1024 MB nivel 2, > 1535 MB

El no realizar ms divisiones en cada factor es debido a la dificultad para encontrar datos que correspondan, por ejemplo, al tratamiento de mucha memoria RAM y poca memoria virtual. Seleccionamos entonces como variable dependiente o variable respuesta el consumo de memoria base y como factores: el sistema operativo (Windows // Linux), la antigedad (new: del 2007 o posterior // med: anterior al ao 2007), la RAM (1: <= 1024 MB // 2: > 1024 MB) y la memoria virtual (1: <= 1535 MB // 2: > 1535 MB). Es importante tener claro estas clasificaciones para comprender bien el anlisis. La distincin en la antigedad del sistema operativo supone, en el caso de Windows, la divisin entre la versin Vista y XP. Al disponer de cuatro factores, deberemos analizar la influencia de todos ellos como factores principales y tambin la influencia de las interacciones: de segundo orden (combinaciones de dos factores), de tercero (de tres) y de cuarto orden. Teniendo un modelo desequilibrado como el nuestro (en el que no disponemos del mismo nmero de rplicas por cada cruce) y adems de ms de tres factores, no mencionaremos gran parte de la base matemtica del estudio, por su carcter poco didctico. 3.1 Diagnosis La diagnosis es una parte fundamental del anlisis que, en muchos casos, no se menciona hasta tener definido un modelo de estudio. Para facilitar la comprensin del desarrollo, adelantaremos este paso, sealando los cambios que fueron necesarios para cumplir las hiptesis del modelo sin entrar en la discusin del mismo.

Para poder realizar los contrastes necesarios, es preciso que nuestros datos cumplan ciertos requisitos: han de ser normales (ajustados a una distribucin normal), homocedsticos (han de tener la misma varianza) e independientes. Para ello, realizaremos las pruebas con los residuos generados a partir de los datos. Como primer paso, analizaremos la homocedasticidad. Al generar el anlisis factorial con Statgraphics, obtenemos un grfico que representa los residuos frente a predicho:

Grfico de Residuos para Cons_mem


4800

residuo

2800 800 -1200 -3200 0 1 2 3 4 5

Cons_mem predicho

6 (X 1000)

Grfica 3.1-1: Residuos frente a predicho para el consumo de memoria.

Podemos observar una clara heterocedasticidad, que requerir de una transformacin de los datos. Elegiremos la transformacin logartmica (logaritmo neperiano), con lo que obtenemos el siguiente grfico de residuos frente a predicho o valores previstos (que corresponden a la media del tratamiento):

Grfico de Residuos para log[cons]


2,4

residuo

1,4 0,4 -0,6 -1,6 4,4 5,4 6,4 7,4 8,4 9,4

log[cons] predicho
Grfica 3.1-2: Residuos frente a predicho para el logaritmo del consumo de memoria.

Vemos que los datos ahora pueden perfectamente considerarse homocedsticos. Adems debemos estudiar los grficos de residuos por tratamientos, verificando que el ancho mximo entre el mnimo sea menor que tres. En nuestro caso, se cumple perfectamente, por lo que no ser necesario realizar un contraste formal (como el contraste de Bartlett): 6

Grfico de Residuos para log[cons]


2,4

Grfico de Residuos para log[cons]


2,4 1,4 0,4 -0,6

residuo

0,4 -0,6 -1,6 med new

residuo

1,4

-1,6 Linux Windows

Antiguedad

SO

Grfico de Residuos para log[cons]


2,4 1,4 0,4 -0,6 -1,6

Grfico de Residuos para log[cons]


2,4

residuo

residuo

1,4 0,4 -0,6 -1,6

RAM

SWAP

Grfica 3.1-3: Residuos por tratamiento.

El grfico de residuos frente a nmero de fila, debido al carcter completamente aleatorio de recogida de datos en nuestra muestra, no es significativo en nuestro estudio y no presenta ningn inconveniente (consideraremos independiente la muestra):

Grfico de Residuos para log[cons]


2,4

residuo

1,4 0,4 -0,6 -1,6 0 200 400 600 800 1000 1200

nmero de fila
Grfica 3.1-4: Residuos frente a nmero de fila.

Debemos comprobar por ltimo la normalidad de los residuos. Para ello, intentamos realizar un ajuste de los residuos a una normal. El resultado grfico que obtenemos es el siguiente:

Histograma para RESIDUALS


300

frecuencia

250 200 150 100 50 0 -2 -1 0 1 2

RESIDUALS
Grfica 3.1-5: Ajuste de los residuos a una distribucin normal.

Aunque aparentemente se ajuste bastante bien a una distribucin normal, nos vemos obligados a escoger el contraste de Kolmogorov Smirnoff, con el que obtenemos un p_valor de 0'0514667 (mayor que los niveles de significacin normales: <= 0,05), lo que nos lleva a aceptar la hiptesis nula de normalidad. El contraste de la chi-cuadrado (ms exigente que el de Kolmogorov) proporciona un p_valor ms bajo debido al ajuste imperfecto de los residuos, como podemos observar en el grfico cuantil-cuantil:

Grfico Cuantil-Cuantil
2,4

RESIDUALS

1,4 0,4 -0,6 -1,6 -1,6 -0,6 0,4 1,4 2,4

Normal distrib ucin


Grfica 3.1-6: Grfico cuantil-cuantil (Q-Q).

Tras realizar esta diagnosis, llegamos a la conclusin de que podremos considerar nuestros residuos como normales, independientes y homocedsticos, lo que nos lleva a dar el siguiente paso en nuestro estudio. 3.2 Modelo de estudio Con lo realizado hasta ahora, podemos comenzar a analizar nuestra muestra y someterla a anlisis de la varianza para ver qu factores podemos considerar significativos y, en su caso, estudiar sus correspondientes intervalos de diferencia de medias, etc. 8

Definimos un modelo en el que la variable respuesta, logaritmo del consumo de la memoria, se ve afectada por los cuatro factores:
log yijkl = i j k l ij ik il ... ijk ... ijkl U ijkl

Uijkl representa la parte aleatoria de los datos que seguir una distribucin normal de probabilidad con media 0 (cero) y desviacin tpica constante. , , y representan los efectos de cada factor sobre el logaritmo del consumo. Tambin aparecen representados los efectos de las interacciones de segundo, tercer y cuarto orden. La estimacin de estos parmetros del modelo se realizar utilizando la tcnica de mxima verosimilitud para una distribucin normal de datos. Statgraphics realiza los clculos correspondientes y nos proporciona la siguiente salida para el anlisis de la varianza (recordamos que el anlisis es sobre el logaritmo del consumo de memoria, porque sin esta transformacin, no se cumple la diagnosis).
Anlisis de la Varianza paralog[cons] - Sumas de Cuadrados de Tipo III -------------------------------------------------------------------------------Fuente Suma de cuadrados GL Cuadrado Medio Cociente-F P-Valor -------------------------------------------------------------------------------EFECTOS PRINCIPALES A:SO 83,3952 1 83,3952 556,22 0,0000 B:Antiguedad 10,444 1 10,444 69,66 0,0000 C:RAM 9,40861 1 9,40861 62,75 0,0000 D:SWAP 0,235689 1 0,235689 1,57 0,2099 INTERACCIONES AB AC AD BC BD CD ABC ABD ACD BCD ABCD

9,46728 2,28094 0,532683 1,24968 0,533737 0,432332 1,315 0,000893377 0,0455596 0,0400639 0,0152064

1 1 1 1 1 1 1 1 1 1 1

9,46728 2,28094 0,532683 1,24968 0,533737 0,432332 1,315 0,000893377 0,0455596 0,0400639 0,0152064

63,14 15,21 3,55 8,34 3,56 2,88 8,77 0,01 0,30 0,27 0,10

0,0000 0,0001 0,0594 0,0039 0,0592 0,0895 0,0031 0,9385 0,5815 0,6052 0,7501

RESIDUOS 162,825 1086 0,149931 -------------------------------------------------------------------------------TOTAL (CORREGIDO) 490,555 1101 --------------------------------------------------------------------------------

Tabla 3.2-1: Anlisis de la varianza con cuatro factores.

Vemos que todos los datos sealados en negrita poseen un p_valor mayor que los niveles de significacin usuales, lo que nos lleva a no poder rechazar la hiptesis nula de igualdad de medias. Con esto podemos sacar una primera conclusin: la SWAP (o memoria virtual) no es significativa ni como factor principal ni como interaccin. Gracias a esto podemos eliminar este factor de nuestro estudio, al no influir significativamente en los resultados. 9

3.3 Definicin de un nuevo modelo; anlisis de resultados Con lo realizado hasta ahora, nos encontramos con que estamos estudiando un modelo con tres factores (S.O., antigedad y RAM) y que la variable respuesta es el logaritmo de la memoria consumida por el ordenador>

l o g y ijk = i j k ij i k j k ijk U ijk


El resumen del procedimiento y la tabla de anlisis de la varianza quedan ahora de la siguiente forma:
Resumen del Procedimiento Variable dependiente: log[cons] Factores: SO Antiguedad RAM Nmero de casos completos: 1102

Anlisis de la Varianza para log[cons] - Sumas de Cuadrados de Tipo III -------------------------------------------------------------------------------Fuente Suma de cuadrados GL Cuadrado Medio Cociente-F P-Valor -------------------------------------------------------------------------------EFECTOS PRINCIPALES A:SO 114,705 1 114,705 750,46 0,0000 B:Antiguedad 14,7867 1 14,7867 96,74 0,0000 C:RAM 13,429 1 13,429 87,86 0,0000 INTERACCIONES AB AC BC ABC

12,1185 2,06192 0,872607 1,5139

1 1 1 1

12,1185 2,06192 0,872607 1,5139

79,29 13,49 5,71 9,90

0,0000 0,0002 0,0169 0,0016

RESIDUOS 167,213 1094 0,152846 -------------------------------------------------------------------------------TOTAL (CORREGIDO) 490,555 1101 --------------------------------------------------------------------------------

Tabla 3.3-1: Anlisis de la varianza con tres factores.

Con esta nueva tabla, casi todos los factores son significativos para cualquiera de los niveles de significacin ms utilizados. Nosotros consideraremos = 0'05, as que tomaremos todos los factores e interacciones como significativos. La primera grfica que nos llama la atencin es la que representa el consumo de memoria (aplicndole la transformacin logartmica) frente al sistema operativo:

10

Medias y 95,0 Porcentajes Intervalos LSD


7,4 7,1 6,8 6,5 6,2 5,9 Linux Windows

log[cons]

SO
Grfica 3.3-1: Intervalos de confianza para el logaritmo del consumo segn el sistema operativo.

con su correspondiente anlisis formal:


Contraste Mltiple de Rangos para log[cons] segn SO -------------------------------------------------------------------------------Mtodo: 95,0 porcentaje LSD SO Recuento Media LS Sigma LS Grupos Homogneos -------------------------------------------------------------------------------Linux 670 5,96343 0,023359 X Windows 432 7,19806 0,0385424 X -------------------------------------------------------------------------------Contraste Diferencias +/- Lmites -------------------------------------------------------------------------------Linux - Windows *-1,23463 0,0883325 ------------------------------------------------------------------------------- indica una diferencia significativa.

** De ahora en adelante entenderemos siempre (tanto en los grficos como en los anlisis formales) que estamos tratando con intervalos LSD para un intervalo de confianza del 95%.
Tabla 3.3-2: Contraste mltiple de rangos segn el sistema operativo.

Con este grfico podemos asegurar que el sistema operativo Windows consume ms memoria (con una diferencia ms que significativa) que Linux. El recuento representa el nmero de datos de que disponemos en cada factor. Debemos tener en cuenta que para calcular el consumo medio real de memoria no podemos simplemente tomar la exponencial de las medias: log y 1 ... log y n = media logartmica n
1

Tomando exponenciales : e De donde :


n y 1...y n

log y 1... y n n

= e media logartmica

= e

media logartmica

= media geomtrica

11

Vemos que de esta forma obtenemos la media geomtrica de los datos y no la aritmtica, que ser siempre igual o superior (estaramos calculando una media de consumo inferior a la real). Para alcanzar el verdadero valor de la media, analizaremos la muestra sin transformaciones (mostraremos la tabla de medias con los verdaderos valores ms adelante). Podemos ver tambin las diferencias de medias que existen para los otros dos factores. Los interpretaremos sin recurrir a un anlisis formal:
Medias y 95,0 Porcentajes Intervalos LSD
6,9 6,8 6,7 6,6 6,5 6,4 6,3 med new

Medias y 95,0 Porcentajes Intervalos LSD


6,9 6,8

log[cons]

log[cons]

6,7 6,6 6,5 6,4 6,3 1 2

Antiguedad

RAM

Grfica 3.3-2: Intervalos para el logaritmo del consumo segn antigedad y RAM.

Vemos que un sistema operativo tiende a consumir ms memoria si dispone de ella (grfico de la derecha) y que los nuevos sistemas operativos consumen ms memoria que los antiguos (grfico de la izquierda). Sin embargo estas conclusiones son un tanto imprecisas y poco resolutivas teniendo en cuenta el tema que nos atae, que es la diferenciacin de los dos sistemas operativos. Por ello pasaremos a la interpretacin de los grficos de interaccin (que representan los resultados del anlisis en funcin de dos de los factores). La siguiente imagen representa el consumo de memoria en funcin de la antigedad del sistema operativo y de la memoria RAM de la que dispongamos:

Interacciones y 95,0 Porcentajes Intervalos LSD


7,3 7,1 6,9 6,7 6,5 6,3 6,1 med new RAM 1 2

log[cons]

Antiguedad
Grfica 3.3-3: Efecto de la interaccin entre los factores RAM y Antigedad.

Con este grfico podemos sacar las siguientes conclusiones: un sistema operativo consume menos memoria si es anterior al 2007 y dispone de menos de 1025 MB de RAM; en cambio, el 12

mximo consumo se alcanza para aquellos sistemas operativos ms actuales y que dispongan de ms memoria. Observamos tambin que, por producirse un solapamiento en los intervalos LSD, no podemos afirmar que exista una diferencia significativa entre el consumo de memoria de los sistemas operativos con ms memoria y ms antiguos y los ms modernos y con menos memoria RAM. A continuacin analizaremos un grfico que quizs resulte ms representativo, pues en l ya se ven reflejadas las diferencias entre los dos sistemas operativos que analizamos. Se trata de la comparacin del consumo de memoria en funcin del sistema operativo y la memoria RAM del equipo:

Interacciones y 95,0 Porcentajes Intervalos LSD


7,7

log[cons]

7,3 6,9 6,5 6,1 5,7 Linux Windows

RAM 1 2

SO
Grfica 3.3-4: Efecto de la interaccin entre los factores RAM y SO.

Como se puede observar a primera vista, sea cual sea el tamao de la memoria RAM, Linux optimiza mejor los recursos del sistema. An as observamos una tendencia comn a aumentar el consumo de recursos al disponer de ms memoria; eso s, este aumento resulta ser ms exagerado para el caso del sistema operativo Windows (recordemos que estamos representando el logaritmo del consumo de la memoria y, por tanto, las diferencias que observamos en el grfico son ms notorias cuanto mayor sea el logaritmo del consumo). Es posible que veamos ms clara esta diferencia en el siguiente grfico (que representa tambin el logaritmo de la variable respuesta):

13

Interacciones y 95,0 Porcentajes Intervalos LSD


7,7 7,3 6,9 6,5 6,1 5,7 1 2 SO Linux Windows

log[cons]

RAM
Grfica 3.3-5: Efecto de la interaccin entre los factores SO y RAM.

A continuacin examinaremos el grfico ms relevante o llamativo, en el que se representa el logaritmo del consumo en funcin del sistema operativo y su antigedad:

Interacciones y 95,0 Porcentajes Intervalos LSD


7,8 7,4 7 6,6 6,2 5,8 Linux Windows Antiguedad med new

log[cons]

SO
Grfica 3.3-6: Efecto de la interaccin entre los factores Antigedad y SO.

Vemos claramente como, de nuevo, Linux consume menos recursos, esta vez para cualquier antigedad del sistema operativo. Adems, no existen diferencias significativas entre el consumo de memoria de sistemas Linux para ambas clasificaciones de antigedad, lo que nos muestra la tendencia de estos sistemas operativos a ofrecer cada da ms mejoras y prestaciones sin renunciar a la eficiencia. En cambio para el sistema operativo Windows vemos un gran salto entre las versiones anteriores al 2007 y su ltima versin (Vista), lo que nos indica una tendencia, como vemos muy fuerte, a consumir ms recursos del sistema en sus nuevos lanzamientos. Recordemos de nuevo que la diferencia real entre los consumos de memoria en la grfica se hara ms aguda al eliminar la transformacin logartmica.

14

Llegados a este punto nos encontramos con un obstculo. Statgraphics posee una importante limitacin: no analiza interacciones de orden mayor que dos; ni grfica ni formalmente. Para una correcta interpretacin de los resultados, uniremos dos factores principales en uno: Antigedad + RAM Ant. RAM. Este nuevo factor principal queda dividido entonces en cuatro niveles, correspondientes a los cuatro cruces entre los niveles de RAM y Antigedad. Al hacerlo, obtenemos la siguiente tabla de anlisis de la varianza:
Variable dependiente: log[cons] Factores: Ant RAM SO Nmero de casos completos: 1102 Anlisis de la Varianza paralog[cons] - Sumas de Cuadrados de Tipo III -------------------------------------------------------------------------------Fuente Suma de cuadrados GL Cuadrado Medio Cociente-F P-Valor -------------------------------------------------------------------------------EFECTOS PRINCIPALES A:Ant RAM 65,4387 3 21,8129 142,71 0,0000 B:SO 114,705 1 114,705 750,46 0,0000 INTERACCIONES AB

33,3546

11,1182

72,74

0,0000

RESIDUOS 167,213 1094 0,152846 -------------------------------------------------------------------------------TOTAL (CORREGIDO) 490,555 1101 --------------------------------------------------------------------------------

Tabla 3.3-3: Anlisis de la varianza con el nuevo factor Ant RAM (Antigedad + RAM).

Lo primero que observamos es que los dos factores y la interaccin son muy significativos (p_valor cercano a cero). Vemos tambin que no cambia, respecto a nuestro anterior modelo, la variabilidad no explicada (suma de cuadrados) ni los grados de libertad de los residuos y del efecto principal SO. Statgraphics ahora s nos puede proporcionar el grfico adecuado de interaccin entre los factores. En l se muestran tambin los intervalos de confianza LSD con un 95% de confianza:

15

Interacciones y 95,0 Porcentajes Intervalos LSD


8,2

log[cons]

7,7 7,2 6,7 6,2 5,7 11 12 21 22

SO Linux Windows

Ant RAM
Grfica 3.3-7: Efecto de las interacciones entre los tres factores.

En el factor Ant RAM el valor de las decenas representa el nivel del factor Antigedad (1 para antiguo; 2 para nuevo) y las unidades representan los niveles del factor RAM (1 para menos de 1024 MB; 2 para ms de 1024 MB). Ejemplo: 12 se corresponde con un sistema antiguo con ms de 1024 MB de memoria. Es inmediato ver que existe una diferencia significativa entre el consumo de los dos sistemas operativos (recordemos que esta diferencia se agudiza al deshacer la transformacin logartmica). Adems, aunque no de forma tan clara, se puede apreciar un solapamiento en los intervalos correspondientes a Linux: entre el 11 y 21 y entre el 12 y 22. Esto significa que la antigedad no influye significativamente en el consumo de memoria en sistemas Linux. Son conclusiones que ya fuimos capaces de deducir con las grficas anteriores. A continuacin se muestra la tabla de medias resultante del anlisis formal de los datos. Las dos columnas de la derecha muestran los intervalos de confianza (del 95%) para cada una de las medias. Las dos columnas de la derecha muestran los intervalos de confianza (del 95%) para cada una de las medias. Tambin representa el error estndar de cada media (medida de su variabilidad en la muestra).
Tabla de Medias por mnimos cuadrados para log[cons] con 95,0 Intervalos de confianza -------------------------------------------------------------------------------Error Lmite Lmite Nivel Frecuencia Media Estndar Inferior Superior -------------------------------------------------------------------------------Media Total 1102 6,58074 Ant RAM 11 276 6,20172 0,03055 6,14185 6,2616

16

12 179 6,51648 0,0376782 6,44263 6,59033 21 298 6,53732 0,0700585 6,40001 6,67463 22 349 7,06745 0,0293852 7,00985 7,12504 SO Linux 670 5,96343 0,023359 5,91765 6,00921 Windows 432 7,19806 0,0385424 7,12251 7,2736 Ant RAM segn SO 11 - Linux 50 5,79691 0,0552894 5,68854 5,90527 11 - Windows 226 6,60654 0,0260059 6,55557 6,65751 12 - Linux 33 6,08797 0,0680565 5,95458 6,22136 12 - Windows 146 6,94499 0,0323556 6,88157 7,0084 21 - Linux 290 5,87304 0,0229577 5,82805 5,91804 21 - Windows 8 7,2016 0,138223 6,93069 7,47251 22 - Linux 297 6,0958 0,0226855 6,05134 6,14026 22 - Windows 52 8,0391 0,0542157 7,93284 8,14536 --------------------------------------------------------------------------------

Tabla 3.3-4: Tabla de medias con intervalos de confianza del 95%.

Para interpretar mejor los datos, mostramos a continuacin la tabla de medias real (sin la transformacin logartmica). Las medias reales no han sido calculadas con la exponencial de la media logartmica, ya que con eso obtenemos la media geomtrica de los datos (siempre igual o, como en nuestro caso, inferior a la media real). En cambio, para calcular los intervalos de confianza, s hemos podido realizar esta transformacin directa asegurando que, con un 95% de probabilidad, el consumo de memoria de un ordenador con ciertas caractersticas de sistema operativo, antigedad y memoria RAM estar entre los lmites superior e inferior establecidos.
----------------------------------------------------------------Lmite Lmite Nivel Frecuencia Media Inferior Superior ----------------------------------------------------------------Media Total 1102 1045,02 Ant RAM 11 276 576,185 464,913 524,057 12 179 805,246 628,056 728,021 21 298 890,163 601,851 792,054 22 349 1908,47 1107,488 1242,69 SO Linux 670 424,362 371,538 407,162 Windows 432 665,67 1239,558 1441,73 Ant RAM segn SO 11 - Linux 50 365,934 295,462 336,966 11 - Windows 226 786,437 703,150 778,610 12 - Linux 33 469,985 385,515 503,387 12 - Windows 146 1140,51 974,155 1105,88 21 - Linux 290 383,913 339,696 371,683 21 - Windows 8 1396,41 1023,200 1759,01 22 - Linux 297 477,615 424,682 464,174 22 - Windows 52 3339,32 2787,332 3447,34 -----------------------------------------------------------------

Tabla 3.3-5: Tabla de medias real con intervalos de confianza del 95%.

17

Las medidas ms representativas son las correspondientes a las ocho ltimas filas, ya que en ellas estamos teniendo en cuenta la influencia de los tres factores. Debemos recordar, para aquellos que se extraen por los resultados del estudio, que la variable analizada es el consumo base de memoria del sistema (y que la memoria consumida es la suma de la RAM y memoria virtual consumidas), pero que las aplicaciones que corren por defecto en el sistema (antivirus, firewall, algunos efectos de escritorio, etc...) no las hemos tenido en cuenta y las hemos incluido dentro de este consumo base, suponiendo que el usuario medio no cambia esta configuracin para obtener un mayor rendimiento y que, por tanto, forman parte de ese consumo base o permanente de memoria. Por supuesto puede haber errores en los datos achacables a la mala interpretacin de las instrucciones de la encuesta o a errores cometidos por el usuario al completarla, pero hemos supuesto que estos errores se habrn cometido de forma parecida tanto para usuarios de Linux como de Windows.

4. CONCLUSIN El objetivo central de nuestro estudio era determinar qu sistema operativo optimiza mejor el consumo de memoria del sistema. Despus de hacer un anlisis detallado de los datos, podemos afirmar que Linux es claramente superior a Windows en ese aspecto, sin importar si se trata de versiones actuales o antiguas. Adems, podemos observar el gran aumento de consumo de memoria que experiment el sistema de Windows con la introduccin de su ltima versin, algo que ha sido objeto de muchas crticas. Linux, en cambio, presenta una tendencia radicalmente diferente. No pudimos apreciar una diferencia significativa en el uso de memoria entre las versiones ms actuales y las versiones ms antiguas. Es un importante hecho que nos hace pensar que este sistema operativo puede ser el ms adecuado para entornos acadmicos, pblicos o incluso empresariales, donde el coste de hardware y software puede ser un factor determinante. Linux tiene grandes ventajas como su disponibilidad y fcil acceso e instalacin de software gratuito y su recin estudiado alto rendimiento en ordenadores baratos o antiguos que tienen menos recursos disponibles. A esto, por supuesto, hay que aadir las reivindicaciones del movimiento del software libre, que hemos explicado en la introduccin de este estudio. Al analizar la importancia de los diferentes factores: sistema operativo, antigedad, memoria RAM total y SWAP, hemos determinado que el tamao de la memoria virtual (SWAP o archivo de paginacin) no tiene una influencia significativa en el uso de memoria del sistema. Comn a ambos sistemas operativos es la tendencia a consumir ms recursos al disponer de ellos, hecho que se pone de manifiesto en la Grfica 3.3-7. Vemos que al aumentar la memoria RAM disponible, aumenta el consumo de memoria total y que este aumento es ms agudo en Windows.

18

19

ANEXO (Dnde encontrar el archivo de datos original y el utilizado en el estudio): En principio tanto las encuestas como el archivo en el que se almacenarn los datos estarn disponibles por un tiempo indefinido. De esta forma estarn accesibles los datos para el que quiera utilizarlos para repetir el estudio o realizar otro cualquiera (recordamos que los datos de Linux proporcionan informacin sobre el escritorio y la distribucin, aunque no los hayamos utilizado en nuestro estudio). Las direcciones de acceso son las siguientes: http://wiki.dii.etsii.upm.es/etsii/windows.html (encuesta para usuarios de Windows) http://wiki.dii.etsii.upm.es/etsii/linux.html (encuesta para usuarios de Linux) http://wiki.dii.etsii.upm.es/etsii/form.xls (archivo de datos) La estructura del archivo de datos es la siguiente:

Linux: Distribucin; escritorio; antigedad; tamao de la RAM; tamao de la SWAP; memoria RAM en uso; memoria de intercambio en uso; consumo de memoria por el navegador; consumo de memoria por la aplicacin de monitorizacin de recursos del sistema; deseo de recibir los resultados del estudio. Windows: Antigedad; tamao de la RAM; tamao del archivo de paginacin; memoria RAM disponible; uso del archivo de paginacin; consumo de memoria por el navegador; consumo de memoria por la aplicacin de monitorizacin de recursos del sistema; deseo de recibir los resultados del estudio.

Los primeros 74 datos corresponden a pruebas y respuestas al primer modelo de la encuesta, por lo que es conveniente excluirlos; el 75 y 76 corresponden a las respectivas cabeceras de Windows y Linux. Habra sido ms correcto almacenar los datos en dos archivos, ya que los resultados de cada encuesta no proporcionan la misma informacin; pero dado que se trata de una hoja de clculo no es difcil seleccionar los de un mismo tipo y extraerlos para realizar con ellos cualquier estudio. Adems, estar disponible el archivo de datos limpio que utilizamos en nuestro estudio en la direccin: http://wiki.dii.etsii.upm.es/etsii/datosestudio.csv Para cualquier comentario disponemos, en principio tambin por tiempo indefinido, de una cuenta de correo electrnico que atenderemos: encuestamemoria@gmail.com. Debemos tener en cuenta que ste es un trabajo realizado por dos estudiantes en su primera asignatura de estadstica; puede presentar imperfecciones, ambigedades, etc.. Desconocemos las expectativas de xito que cada uno tuviera en nuestro anlisis, para eso hemos facilitado el archivo de datos, quedando accesible para todo aquel que no se sienta conforme con el estudio y prefiera comprobarlo, o realizarlo de nuevo con el archivo de datos original.

20

AGRADECIMIENTOS

ngel Garca y Beltrn (Profesor Titular en la Divisin de Informtica Industrial de la ETSI Industriales de la Universidad Politcnica de Madrid) por su ayuda en la creacin de la encuesta HTML, la automatizacin de la ordenacin de los datos (script apgForm 1.7) y por brindarnos la oportunidad de utilizar los servidores de la escuela. Jaime Carpio Huertas (Profesor Titular Interino en el Laboratorio de Estadstica de la E.T.S.I. Industriales de la Universidad Politcnica de Madrid) por su ayuda en la representacin de las interacciones de orden tres. El equipo de http://www.ubuntu-es.org/, por acogernos con tanta amabilidad y en especial a slap por poner nuestro anuncio en la pgina principal, haciendo que hayamos conseguido una gran cantidad de datos de Linux. A la revista UXi (Revista Cubana de Software Libre), por interesarse y publicar nuestro estudio en la edicin de febrero de 2009. A todos los que habis participado en la encuesta y los que habis ayudado a promoverla o difundirla por cualquier medio.

REFERENCIAS

Daniel Pea. Regresin y diseo de experimentos. Madrid, Alianza Editorial, 2002.

21

Das könnte Ihnen auch gefallen