Sie sind auf Seite 1von 32

1

Manual de Stata

1 Primeros pasos con Stata 1.1 La informacin en los archivos de Stata.


Cualquier programa estadstico trabaja con informacin en muy diversos formatos almacenada en distintos tipos de fichero. Por ello, en este apartado se van a describir los principales archivos con los que trabaja Stata. Los seis tipos que se vern a continuacin pueden dividirse en tres grandes grupos: los que guardan informacin sin procesar, los que conservan la informacin procesada y los que permiten o ayudan a transformar la informacin. En el primer grupo se incluyen los ficheros que contienen los datos individuales tal y como son introducidos en el ordenador despus del trabajo de campo; en el segundo se consideran los archivos donde se guardan los estadsticos o grficos que se generan con el anlisis del programa, y finalmente se consideran del tercer grupo los ficheros donde convenientemente se almacenan las instrucciones necesarias para realizar las tareas. La base de trabajo es la matriz de datos, que consiste en una disposicin ordenada de informacin, poco o nada procesada. Generalmente, el modo como sta se organiza para su tratamiento es de tal forma que los casos estn expuestos en fila y las variables en columnas. Un ejemplo simple puede bastar para la compresin de la estructura. Suponiendo que hubiera que analizar dos personas: una mujer y un hombre de edades respectivas de 50 y 40 aos, se pueden distinguir tres conceptos primordiales: En primer lugar, el concepto de caso, esto es, cualquier unidad de la que se recoge informacin. En los datos anteriores, existen dos, las dos personas de las que se saben sus caractersticas sociodemogrficas. En segundo lugar el concepto de variable, es decir, las caractersticas susceptibles de adquirir distintas modalidades. En el ejemplo presente, las dos variables disponibles son sexo y edad. Una de ellas es de naturaleza cualitativa, mientras la otra se presenta como cuantitativa. Cada una de las modalidades, cualitativas o cuantitativas, de estas variables recibe el nombre de valor En este caso, son valores 40 y 50 aos. Tambin son valores mujer y hombre, aunque por no ser de naturaleza numrica, tambin pueden denominarse atributos o categoras..
Ilustracin 1.- Matriz literal de datos

Hombre 40 Mujer 50 Este conjunto de datos podra condensarse an ms si se representan los atributos con una serie de cdigos. As puede reducirse Hombre, poniendo a todos los casos con esta caracterstica un smbolo que lo represente, ste puede ser , H preferiblemente un dgito, para que la introduccin de la informacin se pueda hacer del modo ms rpido y, por costumbre, el 1 para las personas de gnero masculino y el 2 para las mujeres. De esta forma, la matriz de datos original presenta una estructura como la siguiente:

Manual de Stata
Ilustracin 2.- Matriz codificada de datos

1 40 2 50 Esta matriz para que pueda ser tratada informticamente ha de ser guardada en un fichero de datos. En principio, cualquier archivo que contenga informacin ordenada puede ser ledo directa o indirectamente por Stata. Pero slo pueden ser utilizados desde el interior del programa aquellos que estn en formato plano, es decir, ASCII o Unicode. Para el resto de casos, existen otros programas que transforman los ficheros generados por aplicaciones como hojas de clculo, bases de datos o incluso otros programas estadsticos en ficheros de trabajo. El que se comercializa al unsono con Stata es Stat-Transfer (se ver en captulo **). Sin embargo, para el trabajo estadstico no basta con tener la matriz de datos bruta. Hay que aadirle al menos los nombres de las variables para que cuando se solicite una determinada tarea el programa sepa qu informacin se desea tratar. No es lo mismo solicitar una media del sexo, que de la edad Se podra indicar que se desea slo una media de la segunda variable; pero es mucho ms cmodo solicitarla llamndola edad. Por ello, una de las operaciones imprescindibles en todo programa estadstico es la de convertir el fichero de datos brutos en otro con la matriz de datos ampliada con las definiciones y transformaciones de la informacin original que el usuario considere conveniente. Estos especficos ficheros con informacin bruta, definiciones y transformaciones se denominan ficheros de trabajo. Slo pueden construirse con el programa Stata y generalmente se les reconoce por tener la extensin .dta. En ellos estn almacenados los datos de las variables originales y de las creadas posteriormente por el usuario, junto con sus correspondientes nombres, etiquetas y formatos. Para que puedan comprobarse los ejemplos del manual Stata ha incorporado todos los ficheros que all se muestran. Se puede hacer un listado de todos estos ficheros de datos incorporados en el programa mediante la instruccin sysuse dir:
Ilustracin 3.- Directorio de los ficheros de datos en el sistema.
. sysuse dir auto.dta autornd.dta bplong.dta bpwide.dta cancer.dta census.dta citytemp.dta educ99gdp.dta gnp96.dta lifeexp.dta nlsw88.dta pop2000.dta sp500.dta tsline1.dta tsline2.dta uslifeexp.dta uslifeexp2.dta voter.dta xtline1.dta

Otros archivos de inters en el trabajo con Stata son los ficheros de resultados (con extensin .scml o .log): Siempre que as se le indique, los resultados de las rdenes dadas al programa son archivados en un fichero para que puedan quedar permanentemente disponibles, sin tener que volver a procesar de nuevo los datos mediante las instrucciones pertinentes. Stata dispone de un formato especfico de grabacin de los resultados en un fichero (formatted log) al que incorpora la extensin .scml, que consta de todos los elementos adicionales necesarios para una presentacin

Manual de Stata

idnea de las tablas estadsticas. Pero en ocasiones1 es til que los resultados se generen en un formato tratable universalmente, como es el caso de los ficheros en cdigo ASCII. Por ello, tambin existe la posibilidad de grabar los resultados sin formato en archivos generados en Stata con la extensin .log. En cualquier caso, en ninguno de estos dos tipos de ficheros se incorporan los grficos, pues cada uno de ellos se guarda en un fichero independiente y especfico para este tipo de representacin de datos. No siempre los resultados de una orden aparecen en la ventana de resultados ni se guardan previa indicacin en el fichero de resultados. Cuando Stata genera un grfico, el programa abre una ventana especial donde lo ubica y caso de que quiera conservarse, ha de grabarse como un fichero grfico. Stata dispone de un formato propio (.gph); pero, para que otros usuarios que no usen Stata lo puedan contemplar, tambin permite grabarlo en otros formatos tales como metaarchivo de Windows (.wmf); metaarchivo mejorado (.emf); portable de red (.png); postcript (.ps); postcript encapsulado (.eps) e incluso, a partir de la versin 8.2, el formato de fichero de imagen etiquetada (.tif). Finalmente, es importante cerrar la lista de ficheros de Stata con los denominados ficheros de programa (.do y .ado), que son conjuntos de instrucciones de Stata que pueden ejecutarse automticamente sin necesidad de tenerlas que volver a introducir. Los hay bsicamente de dos tipos: unos permiten repetir los mismos anlisis o transformaciones de datos cuantas veces se desee a los mismos datos; mientas otros se utilizan para aplicar un tratamiento comn a datos diferentes. Adems tienen su complemento en los ficheros de ayuda, distinguibles tanto en Stata como en otros programas por su extensin .hlp, donde se incluyen explicaciones concretas de cmo pueden usarse las instrucciones programadas. Como resumen, puede confeccionarse el siguiente esquema de los seis tipos de ficheros acabados de describir:
Tabla 1.- Tipos de ficheros en Stata.

Tipo

Subtipo Brutos

Extensiones .dat .txt y otras .dta .smcl y .log .wmf .emf .png .ps y

Datos Ampliados Textuales Resultados Grficos

Por ejemplo, cuando se desea trasladar los resultados a otro programa, como puede ser un procesador de textos, o cuando se quiere que sean ledos en algn ordenador que no disponga del programa Stata.

Manual de Stata .eps Programa Programas Ayuda .hlp .do y .ado

1.2 La interfaz de Stata


Al ejecutarse Stata, se muestra una pantalla compuesta por una serie de elementos cuyos usos y funciones se dan a continuacin. Lo primero que hay que tener en cuenta son las cinco franjas horizontales que presenta el interfaz del programa. Todas estas divisiones, salvo la cuarta, que es la mayor y est compuesta por un conjunto de ventanas, presentan una sola lnea de extensin vertical:
Ilustracin 4.- Primera pantalla de Stata

La primera de las zonas presenta el color que por defecto le adjudique el sistema operativo a los programas que con l se ejecutan. Slo indica la versin del programa que se ha puesto en marcha. A diferencia de otras aplicaciones, en esta rea no se muestra nunca el fichero de trabajo con el que en un determinado momento se est trabajando. A continuacin aparece la franja del men, compuesto por nueve apartados, que son los siguientes: 1) File: Este tem del men permite realizar la apertura, grabacin e impresin de los distintos ficheros de trabajo analizados en el apartado anterior. 2) El segundo apartado del men es Edit. Sirve para copiar y pegar fragmentos de texto. El uso ms comn que se da a esta instruccin es la de trasladar los

Manual de Stata resultados del anlisis a otra aplicacin como pueda ser un procesador de texto la mayor parte de veces, una hoja de clculo o un programa de grficos. Tambin puede utilizarse para cortar y pegar determinados fragmentos de instrucciones de un lugar a otro. Las dos opciones principales de este men son copy (copiar) y paste (pegar). Como en la mayor parte de los programas que se ejecutan con Windows, ambas pueden ser sustituidas respectivamente por la combinacin de teclas ctrl.+c y ctrl.+v. 3) La tercera palabra del men es la de preferencias (Prefs.). Permite el cambio de determinados aspectos de las ventanas del programa. Tres son los grandes apartados que pueden cambiarse. El relativo a los textos, el relacionado con los grficos y la disposicin de las distintas ventanas. En relacin con el primero, desde las anteriores versiones de este programa est asociada la imagen de los resultados con una pantalla de fondo negra en la que las instrucciones aparecen en blanco, los resultados estadsticos en amarillo, el texto complementario en amarillo y los errores en rojo. Todos los elementos de esta combinacin pueden cambiarse tanto en la pantalla activa de resultados (Results Colors), como en el visor de otros ficheros (Wiever Colors) de modo independiente. En relacin con los grficos, puede cambiarse el esquema (Vase **), la fuente de sus textos y algunos aspectos de la impresin o de su exportacin directa2 a otros programas. Finalmente, la disposicin clsica de las ventanas de Stata recogida en la figura X.X, puede cambiarse, si el usuario traslada manualmente el tamao o la posicin de stas y guarda su opcin mediante Save Windowing Preferences. A partir de ese momento, el programa se presentar de esa forma incluso despus de salir al arrancar de nuevo. Hay por tanto posibilidad de mantener dos modelos: para obtener la configuracin inicial hay que optar por Default Windowing; en cambio, para mostrar la opcin personal, es preciso llevar el ratn a la lnea Load Windowing Preferences, pues de ese modo, se recupera la ltima configuracin grabada. 4) En los tres apartados siguientes del men (Data, Graphics y Statistics) se despliegan las mltiples operaciones estadsticas de la que es capaz Stata a travs de cuadros de dilogos. En el primero, (Data) se incluyen aquellas instrucciones que sirven para describir los datos, transformarlos o hacer manipulaciones al fichero donde estn contenidos. Una parte sustancial de estas rdenes estn explicadas en la presente obra a lo largo de los primeros ** captulos. El segundo de los tres apartados en cuestin (Graphics) est reservado a las instrucciones grficas. Las ms importantes estn contempladas en el captulo **. Y, bajo el rtulo de Statistics, se dispone la casi totalidad de operaciones estadsticas de la que es capaz este programa. Hay que tener en cuenta que esta posibilidad de obtener resultados estadsticos mediante mens y cuadros de dilogo slo se ha

Se entiende por exportacin directa, cuando se utiliza el portapapeles de Windows para pasar un objeto de una aplicacin a otra. Otro modo de traspasar un grfico a otra aplicacin es grabndolo en un fichero que sea capaz de ser ledo por el susodicho programa.

Manual de Stata incorporado a Stata a partir de su versin 8. Para el usuario novel, al inicio de su relacin con Stata, le resultar mucho ms cmodo el empleo de estas ayudas de uso. Sin embargo, un usuario experimentado preferir escribir directamente las instrucciones una a una o recopiladas en un fichero. 5) La denominacin User, situada en la sptima posicin de la franja del men, sirve para que un programador inserte all sus propias utilidades. De este modo nada ser dicho sobre este apartado en este libro introductorio. 6) El apartado Windows permite acceder a cualquiera de las ocho ventanas que componen la estructura interna del programa Stata en su octava versin: Resultados, grficos, visor, instrucciones, historia, variables, editor de datos y editor de programas. Por su especial importancia, se dedicar el prximo apartado a su descripcin. 7) Finalmente, no falta en el men el tem correspondiente a la ayuda. (Help). En l se distinguen tres partes diferenciadas: en la primera, se ofrece toda la ayuda interna disponible del programa; en la segunda aparece la ayuda ofrecida en la red, y la tercera tan slo ofrece el logotipo y los crditos de esta aplicacin estadstica. Estas tres partes se componen de nueve lneas distintas tal como se muestra en la Ilustracin 5:
Ilustracin 5:- Men de ayuda

Las cuatro primeras lneas corresponden a la ayuda interna y ofrecen un ndice temtico de los contenidos (Contents), un buscador de trminos (Search), una referencia de todas las instrucciones del programa (Stata Command) y un repertorio de novedades de la ltima versin instalada (Whats New). En cualquiera de los cuatro casos, aparece el visor de ayuda donde se expone lo solicitado a modo de hipertexto, de tal forma que se puede navegar por la ingente cantidad de informacin disponible. Como botn de muestra, se muestra en la Ilustracin 6, la pantalla obtenida al solicitar el ndice temtico de contenidos:

Manual de Stata
Ilustracin 6.- ndice temtico de contenidos

Las cuatro siguientes lneas de la ayuda son informaciones tiles disponibles en la red, tales como noticias diversas (News); las ltimas actualizaciones disponibles (Oficial updates); programas divulgados en los boletines y revistas del Programa (SJ and userwritten programs), y la pgina web oficial de la corporacin Stata (Stata Web Site). La tercera franja horizontal de la interfaz de Stata est constituida por una docena de iconos con las operaciones ms frecuentes del programa. stas son de izquierda a derecha las siguientes: Apertura de un fichero de datos, grabacin del fichero de datos activo, impresin de los resultados, apertura (visin o cierre) del fichero de resultados, apertura del visor de ayuda, activacin de pantalla de resultados, activacin de pantalla de grficos, edicin de programas, editor de datos, visor de datos, botn de continuacin en pantalla de resultados y botn de interrupcin de resultados.
Ilustracin 7.- Franja de iconos de Stata

En la cuarta franja de la pantalla se ubican hasta ocho posibles ventanas de Stata, que sern descritas con detalle en el prximo apartado. Y finalmente, en la franja inferior, con el mismo color de fondo que las lneas de mens e iconos, se encuentra la lnea de estado, en la que se expone el nombre del directorio de trabajo donde se guardarn y leern los distintos ficheros, a menos que se especifique un directorio distinto.

1.3 Las ventanas de Stata


Ya se ha dicho en el apartado anterior que Stata trabaja con ocho ventanas. No todas son igual de importantes, ni todas estn presentes al mismo tiempo. De hecho, al empezar una sesin de Stata tan slo aparece cuatro de ellas. Entre ellas las ms centrales para el trabajo son las de resultados y las de rdenes. La ventana de rdenes (Stata Command), ubicada por defecto en la parte inferior de la cuarta franja del programa, es un recuadro en blanco donde deben escribirse las instrucciones u rdenes de Stata. La primera instruccin que es preciso aprender por el uso abundante que hay que hacer de ella es help. Si se escribe en la ventana de

Manual de Stata

instrucciones esta palabra seguida por la tecla de retorno como final de la orden, inmediatamente aparecer un texto en la pantalla de resultados. help En este caso, aparecer el siguiente texto:
Ilustracin 8.- Resultado de la instruccin help

La ventana de rdenes se queda en blanco cuando la instruccin ha sido ejecutada. Sin embargo queda guardada en otra pantalla, mostrada aqu en la parte superior derecha de la ilustracin, en la llamada pantalla de historia (Review). En cambio, en la pantalla de resultados (Stata Results), aparece el contenido de la primera ayuda, donde explica qu es lo que puede hacerse cuando se ve al final de la pantalla el texto moreen color diferente del resto. Como se explica en el texto aparecido hay cuatro posibilidades: La primera es apretar la tecla Intro, en cuyo caso, en la pantalla de resultados aparecer una lnea ms. La segunda es apretar la tecla b. Siempre que se haga ello aparecer de nuevo el texto mostrado anteriormente. La tercera, la ms utilizada generalmente, consiste en apretar cualquier tecla distinta de las dos anteriores. De este modo, el texto, en lugar de avanzar una lnea, avanzar toda una pantalla. Finalmente, si se desea, interrumpir la salida de resultados, en el caso de que no se haya obtenido lo deseado, se puede pulsar la combinacin de teclas ctrl.+k. As se detendr la orden, no aparecern ms lneas en pantalla y se estar en condiciones de escribir una nueva instruccin. Para ver algn contenido en la pantalla de variables (Variables), es preciso crear o recuperar un conjunto de datos. Como la segunda de estas dos tareas es ms fcil, se pondr como primer ejemplo la recuperacin de una base de datos incorporada en el programa y se deja la creacin de un fichero de datos para un captulo posterior. Con el fin de recuperarla, en la ventana de rdenes hay que escribir sysuse auto, siendo sta

Manual de Stata

ltima palabra el nombre con el que es conocida esta base de datos, que consiste en un listado de automviles comercializados en los aos 70 en Estados Unidos acompaado con una serie de variables relacionadas con las caractersticas de los modelos. sysuse auto Desde el momento en que se introduce esta instruccin, aparece en la ventana de variables la lista de ellas que estn incluidas en el fichero auto. Es fcil advertir que cada lnea corresponde a una variable y est dividida en dos segmentos: el primero es su propio nombre, mientras que el segundo es su etiqueta, es decir un texto que la acompaa y que proporciona una descripcin ms extensa de su contenido3. Tanto la ventana de historia, como la de variables, permiten trasladar su contenido a la pantalla de rdenes. De este modo, si se lleva el cursor a la lnea help de la primera de las ventanas, aparecer el texto en la ventana de rdenes y, si se pulsa Intro en sta, o si se pica un par de veces el texto en la ventana de historia, la instruccin mencionada ser ejecutada de nuevo. En cambio, si se desea eliminar de la ventana de rdenes por haberla incluido por error, puede hacerse mediante la tecla Esc. En el caso de las variables, el funcionamiento es similar, salvo en que el doble clic, en lugar de ejecutar la instruccin, repite el nombre de la variable en la ventana de rdenes.
Ilustracin 9.- Ventana de variables

El usuario no podr ver las etiquetas de las variables, a menos que haya cambiado la disposicin inicial de sus pantallas. Ello es as, porque por omisin esta ventana tiene un ancho insuficiente para mostrarlas. Es preciso notar en la Ilustracin 9, en relacin con la Ilustracin 5, cmo las ventanas de historia y variables han sido ensanchadas y trasladadas a la parte derecha.

10

Manual de Stata

Hasta el momento, los textos generados por las dos instrucciones introducidas han aparecido en la ventana mayor de Stata, en la de resultados. Sin embargo, hay otro tipo de instrucciones, las grficas, que muestran su resultado en una ventana distinta. De este modo, si se escribe la siguiente instruccin: histogram price, freq Aparece una nueva ventana por encima de la de resultados. Es la ventana grfica de Stata, que oculta el contenido de la anterior. sta puede ser vuelta a poner en primer plano, pulsando el sexto icono de la barra de herramientas. Alternativamente, el grfico puede aparecer de nuevo pulsando el sptimo. Estos iconos, pues, hacen sobresalir una u otra ventana de Stata.
Ilustracin 10.- Ventana de resultados grficos

Otra ventana de frecuente uso en Stata, ya mostrada en la Ilustracin 8, es el visor de ayuda. Aunque la instruccin help muestre su informacin en la ventana de resultados, en muchas ocasiones, es ms cmodo tener la ayuda en una ventana independiente. Para ello, en lugar de escribir la instruccin, se recurre a ella mediante el tem Help/Stata Command de la barra de mens. De este modo, aparece un cuadro de dilogo que pide al usuario una orden de Stata y muestra prcticamente toda la informacin relacionada del manual en una ventana independiente. sta posee adems un icono, el quinto, en la barra de herramientas que tiene como misin activarla y/o ponerla en primer plano. La rutina que en Stata modifica datos, conocida como editor (Stata Editor), genera una sptima ventana. Su funcin es mostrar y permitir hacer modificaciones de los datos de un fichero de datos. Como puede apreciarse en la Ilustracin 11, se trata de una ventana, similar a la de una hoja de clculo, en la que se representan los casos en las lneas y las variables en las columnas. As, los tres primeros casos corresponden a los modelos Concord, Pacer y Spirit de la casa de automviles AMC, que tenan en 1979

11

Manual de Stata

precios respectivos de 4099, 4749 y 3799 $. En el caso de que se quiera realizar algn cambio, basta llevar el cursor a la casilla correspondiente y reemplazar el valor antiguo con uno nuevo. Una vez realizados los cambios deseados, es preciso cerrar la ventana con el botn situado en su extremo superior izquierda que tiene una figura de aspa y, ante un cuadro de dilogo de aviso, aceptar las modificaciones efectuadas. edit
Ilustracin 11.- Ventana del editor

Varios son los caminos para acceder a la ventana del editor. El ms rpido es pulsar el noveno botn de la barra de herramientas (Bring Data Editor to front). Tambin puede hacerse escribiendo la orden edit en la ventana de instrucciones, mediante men, seleccionando Data/Data Editor, o pulsando la combinacin de teclas ctrl.+7. En los tres anteriores casos, se permite al usuario realizar modificaciones. Ahora bien, si el propsito es slo contemplar los casos, sin realizar ningn cambio, es preferible entrar al editor mediante la orden browse, pulsando el dcimo botn (Data browser) o seleccionando del men la entrada Data/Data browse (read-only editor). Y, para finalizar la descripcin de ventanas de Stata, es preciso explicar de antemano qu es un programa, ya que la ltima que se contempla en este apartado es la de su editor. Un programa de Stata se compone de un conjunto de instrucciones reunidas en un fichero. La forma ms cmoda de generarlo es convirtiendo la historia de instrucciones en un fichero que las contenga. Siguiendo con este primer ejemplo, es decir, las cuatro rdenes para explicar las distintas ventanas de este paquete estadstico, es fcil convertirlas a un fichero de programas haciendo clic con el botn derecho del ratn en la ventana de la historia y sealando la opcin Save Reviews Contents. Tras ello, sale el men de grabacin de ficheros propio del sistema operativo con el que se trabaje y se puede poner el nombre que se desee. Automticamente Stata le pondr la

12

Manual de Stata

extensin .do, que es con la que se reconoce a este tipo de archivos. Una vez grabado un fichero de programa puede revisarse o ejecutarse cuantas veces se desee. El editor de estos ficheros puede ponerse en marcha abriendo su ventana, bien escribiendo en la ventana de rdenes la palabra doedit, bien a travs de men (Window/Do-file Editor), bien haciendo clic en el octavo icono de la barra de herramientas (Do-file Editor) o pulsando la combinacin de teclas ctrl.+8. doedit
Ilustracin 12.- Ventana del editor con el contenido del Primer programa.do

Una vez ejecutado el programa y abierta su correspondiente ventana, hay que abrir el fichero ya guardado (o empezar a escribir uno nuevo) mediante el men (File/Open), el segundo icono de las herramientas (Open) o bien la combinacin de teclas ctrl+o. Despus se selecciona el fichero con extensin .do deseado en el directorio donde se encuentre y todas las instrucciones de las que se componen aparecern en la nueva pantalla. Dentro de esta ventana, pueden hacerse cuantas modificaciones se consideren oportunas escribiendo, borrando, copiando, cortando y pegando como en cualquier editor, y ejecutarlas cuantas veces se desee. Para esto ltimo hay dos modos: el primero es Do, en cuyo caso aparecen las rdenes en la pantalla de resultados, y el segundo es Run, se ejecutan las rdenes pero se oculta su contenido. Ambas se encuentran bajo el rtulo del men Tools, y son respectivamente el penltimo (Do current file) y penltimo (Run current file) icono de la barra de herramientas, cuyo aspecto el lector atento habr notado diferente del que aparece en la pantalla general de Stata. Tambin es posible realizar la misma operacin con las respectivas combinaciones de teclas crtl+d o ctrl.+r. Y, con el fin de que todas

13

Manual de Stata

las modificaciones queden guardadas para uso posterior, tambin se permite en esta ventana la grabacin de su contenido sea mediante men (File/Save), icono (el tercero, Save), o teclas (ctrl.+s) o (May+ctrl.+s) en el caso de que se quiera dar un nombre distinto al fichero que se graba. Resumiendo el contenido de este apartado, son ocho las ventanas de Stata. Cuatro de ellas aparecen directamente al iniciar el programa: la de rdenes, donde el usuario puede ir escribiendo una a una cuantas instrucciones considere relevantes, la de resultados, donde aparecer la ejecucin de la instruccin, la de historia, en la que se acumularn todas las instrucciones ejecutadas desde el comienzo de la puesta en marcha del programa y la de variables, donde se muestra la lista de ellas del fichero de datos que en cada momento se encuentre cargado en memoria. Otras cuatro ventanas slo aparecen cuando se realiza una operacin que las necesita. En esta categora se encuentran, el visor, que es capaz de mostrar ayuda del programa y resultados grabados, la pantalla de grficos, donde se muestran resultados que no son representables mediante caracteres de texto, el editor de datos, para ver o modificar los ficheros de datos, y el editor de programas, para la confeccin, grabacin y ejecucin de secuencia de instrucciones que permitan resolver peticiones complejas.

1.4 Modos de trabajo en Stata


Hay tres formas distintas de proporcionar las instrucciones a la aplicacin Stata para obtener los resultados deseados. En este apartado se contempla cmo se emplea cada una de ellas. Aunque prcticamente todo pueda realizarse con estos tres modos de trabajo, la eleccin de cul usar depender de la tarea que se haga y de las preferencias del usuario. Los tres modos son el de instruccin, cuando se introducen literalmente una a una cada orden; el de men, cuando se utiliza un cuadro de dilogo para efectuar una peticin, y el de programacin, en el caso de querer ejecutar automticamente un conjunto de instrucciones.

1.4.1 Modo instruccin


Este modo de trabajo se basa en la insercin manual de instrucciones en la ventana de rdenes. Se caracteriza por ser interactivo ya que cada lnea introducida por el usuario genera un resultado y, hasta que ste no se complete, no se puede introducir la siguiente orden. La instruccin de Stata est compuesta al menos por una palabra, que es la orden propia mente dicha, seguida por unas especificaciones, matizada si es el caso por unos calificadores y ampliada si cabe con una serie de opciones propias de cada instruccin. La estructura, por tanto, de toda instruccin presenta el siguiente esquema: [preinstruccin:] orden [especificaciones] [calificadores] [,opciones] Puesto que lo expuesto en corchetes es optativo, por la sintaxis empleada cabe deducir que lo nico obligatorio en cada instruccin es la orden. Ahora bien segn sea sta, las

14

Manual de Stata

especificaciones sern obligatorias u optativas. Por ejemplo, puede darse la orden help sin ninguna especificacin, pero no puede emplearse histogram seguida de ningn nombre, ya que al menos requiere que se le incluya el de una y solo una variable. Volviendo a las cuatro instrucciones que se grabaron en el primer fichero de programa, stas eran: help sysuse auto histogram price, freq edit Como fcilmente puede apreciarse, la primera y la ltima slo constan de rdenes, mientras que las dos centrales tienen especificaciones. En la segunda la especificacin es el nombre del fichero; en la tercera el nombre de una variable. Y la tercera instruccin contiene tambin una opcin frequency, que ha sido abreviada4 con sus cuatro primeras letras. Es fundamental retener que todas las opciones han de figurar detrs de la coma separadas entre s al menos por un espacio en blanco. Adems de la orden, sus especificaciones y opciones, la mayor parte de ellas pueden incorporar preinstrucciones, que modifican el funcionamiento de la instruccin, como por ejemplo, aplicndola a distintas submuestras, y calificadores que restringen el uso de la instruccin a casos con una determinada caracterstica. Todas estas posibilidades son tan importantes que sern tratadas con algo ms de detenimiento en el captulo **.

1.4.2 Modo men


El segundo modo de proporcionar instrucciones al programa es mediante los mens. Cuando se habl del interfaz de Stata y se mencion la primera zona horizontal de su ventana, se dijo que desde el tercer al quinto de sus apartados (Data, Graphics y Statistics) se podan encontrar prcticamente la totalidad de las instrucciones propias del paquete, mientras que aquellas adicionales que el usuario considerara convenientes, podan ser aadidas en el siguiente elemento (User). Este modo de trabajo, que facilita la produccin de instrucciones a quienes no conocen la sintaxis del programa, fue incorporado a partir de la versin 8, por lo que muchos usuarios anteriores de esta aplicacin, prefieren seguir utilizando el anterior modo de trabajo, porque es ms rpido de usar, si se conoce bien. Tambin tratan de

Las abreviaturas en Stata pueden emplearse en la inmensa mayor parte de los casos siempre que no produzcan ambigedad. De este modo, pueden abreviarse nombres de variables y opciones. Las rdenes slo pueden recortarse de la forma que se indica en el manual o en la ayuda del programa. Por ejemplo, el programa entiende hist; pero interpreta como error histo o histogra. Sin embargo, en el fichero auto, la variable price puede ser escrita como p, pr, pric y price, ya que ninguna otra variable comienza por p. De la misma forma, la opcin frequency, puede ser abreviada, al menos, con freq. Tambin entendera bien el programa frecuenc.

15

Manual de Stata

evitar este modo de trabajo quienes programan, ya que necesitan recordar continuamente las distintas palabras claves que hay que utilizar en la confeccin de los programas. Con el sistema de los mens se han trasladado todas las posibilidades de una orden a un cuadro de dilogo, tanto ms complejo, cuanto ms lo es la instruccin, que ser llamado bien presionando la lnea correspondiente del men, bien escribiendo una orden que lo ponga en funcionamiento. Por ejemplo, si se desea un histograma de la variable price, habr que optar por especificar Graphics/Histogram trasladando el cursor mediante el ratn a los correspondientes elementos que lo componen (primero a Graphics, a continuacin a Histogram) y haciendo clic, una vez obtenido ste ltimo. El resultado es un cuadro de dilogo ubicado en una nueva ventana:
Ilustracin 13.- Cuadro de dilogo del la orden histogram.

En la Ilustracin 13 aparece el cuadro de dilogo en el que se ha insertado el nombre de la variable en el correspondiente recuadro (Variable) y se ha cambiado la opcin Yaxis, marcando Frequency, en lugar de Density, que es con la que opera por omisin. La orden histogram, posee ms posibilidades que las que se muestran en el cuadro de dilogo principal (main). Por ello en la lnea superior hay otras pestaas referentes de otros conjuntos de opciones. Slo a modo de ejemplo, se muestra a continuacin el cuadro de dilogo de la pestaa Normal density:

16

Manual de Stata
Ilustracin 14.- Cuadro de dilogo de la pestaa Normal Density

Puede apreciarse asimismo que en la lnea inferior de cualquier cuadro de dilogo, existen cinco botones. Dos de tonos oscuros en la parte izquierda, el primero (?) para obtener ayuda; el segundo , para limpiar el contenido de todos los campos del cuadro y dejarlos en sus opciones por defecto. En la parte derecha, son tres los botones rectangulares con fondo claro. El primero y el ltimo mandan la instruccin: uno, OK, cerrando el cuadro de dilogo, el otro, Submit, mantenindolo abierto. El del medio, Cancel, sirve para cerrar el cuadro de dilogo sin ningn efecto. As, pues tanto el primero, como el tercer botn de la parte derecha, sirven para obtener un histograma como el mostrado en la Ilustracin 15.
Ilustracin 15.- Histograma del precio de los coches
40 0 0 10 Frequency 20 30

5,000 Price

10,000

15,000

Lo ms comn es utilizar los cuadros de dilogos como se acaba de explicar, es decir, buscndolos a travs del men. Sin embargo, usuarios experimentados de Stata podran hacerlo de otro modo, empezndolos desde la lnea de instrucciones, sobre todo, en el caso en el que las rdenes sean muy complejas y no se recuerden todas sus modalidades y opciones. Para ello hay que escribir db seguido de la orden, cuyo cuadro de dilogo se

17

Manual de Stata

desea obtener. De esta forma, si se quiere que aparezca el cuadro de dilogo de la instruccin sysuse, se escribir una lnea como sigue: db sysuse E inmediatamente aparecer el siguiente cuadro, mucho ms simple que el anterior, en la medida de que se trata de una orden con menos parmetros y opciones que la de histogram. En este cuadro de dilogo (Ilustracin 16) slo hay tres posibilidades: abrir un fichero, cuyo nombre hay que escribir en el cuadrado File to select, cerrar los datos ya cargados en memoria (Automatically discard data in memory) o mostrar todos los ficheros de datos incorporados en el programa disponibles para el usuario (Show datasets available in the adoptath)
Ilustracin 16.- Cuadro de dilogo de la orden sysuse.

1.4.3 Modo programacin


Mediante esta tercera posibilidad de trabajo con Stata, el usuario escribe una serie de instrucciones necesarias para llevar a cabo una tarea, las graba en un fichero y desde ste las ejecuta cuantas veces desee con o sin cambios en las rdenes que lo necesiten. En apartado anterior, cuando se describi la ventana del editor de programas, se explic que hay dos formas de ejecucin de estos ficheros: uno, mediante la instruccin run, en cuyo caso, no se muestran las lneas de instruccin; el otro, mediante la instruccin do, para obtener el mismo resultado, pero con las rdenes incluidas. Existe un tercer modo de ejecutar un programa escrito con el lenguaje de Stata. Se trata de hacerlo desde el sistema operativo. Cualquier fichero con extensin .do, con slo aplicarle un doble clic, es capaz de cargarse con Stata y ejecutarse. Si adems se incluye la instruccin set more off, el usuario puede desentenderse del proceso y el programa ejecutar sin interrupcin todas las instrucciones incluidas.

18

Manual de Stata

Por ejemplo, si con el editor preferido5 se escribe un fichero con las siguientes instrucciones: set more off sysuse auto list make price Se obtendr un listado de las dos variables expresadas (make y price) para todos los casos del fichero auto del que a continuacin se ofrece un extracto.
Ilustracin 17.- Listado de casos
+----------------------------+ | make price | |----------------------------| | AMC Concord 4,099 | | AMC Pacer 4,749 | | AMC Spirit 3,799 | | Buick Century 4,816 | | Buick Electra 7,827 | |----------------------------| | Buick LeSabre 5,788 | | Buick Opel 4,453 | | Buick Regal 5,189 | | Buick Riviera 10,372 | | Buick Skylark 4,082 | |----------------------------| | Cad. Deville 11,385 |

1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11.

66. 67. 68. 69. 70. 71. 72. 73. 74.

|----------------------------| | Subaru 3,798 | | Toyota Celica 5,899 | | Toyota Corolla 3,748 | | Toyota Corona 5,719 | | VW Dasher 7,140 | |----------------------------| | VW Diesel 5,397 | | VW Rabbit 4,697 | | VW Scirocco 6,850 | | Volvo 260 11,995 | +----------------------------+

Este modo de programacin puede hacerse tan flexible como se quiera, tanto por la posibilidad de intercambiar parmetros (enviar al programa informacin, que luego es devuelta para su uso en la ventana principal), como por la de incluir instrucciones de control de flujo, que permite poner en manos del usuario la posibilidad de escribir con un lenguaje sencillo sus propias rutinas, superando de este modo la rigidez que imponen otras aplicaciones estadsticas que no permiten obtener estadsticos distintos de los que ya vienen preprogramados en el paquete. Quienes estn interesados en este tipo de procesos tienen al final de este manual un apndice, donde se exponen los rudimentos de programacin con Stata.

Incluso puede emplearse un procesador de texto, siempre y cuando a la hora de grabar se tenga la precaucin de grabar el fichero en formato ASCII y se le ponga la extensin .do.

19

Manual de Stata

1.5 El fichero de resultados


Quien haya trabajado una larga sesin con Stata y haya querido recuperar los resultados de los primeros anlisis habr advertido que la pantalla de resultados tiene una capacidad limitada, pues no es capaz de almacenar ms all de una determinada cantidad de caracteres (32.000 por defecto en la versin SE de Stata 8.2). En trabajos largos esto es un enorme inconveniente. Adems, cualquiera que sea la longitud de los resultados, Stata no es capaz de grabarla mediante una instruccin. Si se desea guardar total o parcialmente su contenido, es preciso marcar el bloque deseado, y optar mediante men de cabecera (Edit/Copy Text) o men contextual (Copy Text) su traslado a otro programa, un procesador de texto, por ejemplo6. Sin embargo, el modo en que Stata ha previsto que no se tenga que realizar esta tarea de cortar y pegar, cada vez que se genera un resultado que se quiera guardar, es mediante la grabacin de la pantalla de resultados en un fichero. Esta operacin no es automtica y ha de ser el usuario quien inicie el proceso, lo detenga, lo contine o lo cierre.
Ilustracin 18.- Pantalla de inicio de ficheros de resultados

Como tantas otras operaciones, la creacin de un fichero de resultados se puede realizar de tres modos: mediante instruccin, con icono o mediante men. Esta ltima opcin se encuentra en el men File/Log/Begin, mientras que el botn que realiza esta

Caso de que se copie un resultado de Stata a un procesador de texto, es imprescindible darle una fuente con tipo de letra de espacios fijos (Courier o Lucida), ya que las fuentes proporcionales (Times, Arial, Century, entre otras muchas) producen textos de tamao variable y, por tanto, no generan textos o nmeros alineados verticalmente.

20

Manual de Stata

operacin es el cuarto de la barra de herramientas (Log begin). Sea de un modo u otro, aparece una ventana (Ilustracin 18) con un listado de ficheros con extensin .scml, que son aquellos en los que Stata guarda sus resultados con un formato propio, en todo momento convertibles a ficheros con formato plano en ASCII. En estos momentos, debe escribirse en la casilla Nombre el ttulo que se quiera dar al fichero donde a partir de ese momento se grabarn todos los resultados. Tambin puede elegirse el formato de este fichero. Aunque si nada se indica, Stata utiliza su formato propio (scml), se puede cambiar desde el principio de la grabacin, optando en la casilla Tipo por la extensin .log. Esta operacin tambin puede hacerse mediante instruccin, sea en la pantalla de rdenes, sea en un programa. Por ejemplo, si se desea generar un fichero de resultados llamado primero(.scml)7, habr que escribir la siguiente lnea: log using primero Si no existe ya ese fichero en el directorio actual de trabajo y si no se ha abierto con anterioridad algn otro fichero de resultados, aparecer en la ventana de resultados un texto que advierte la operacin realizada:
Ilustracin 19.- Cabecera de la apertura de un fichero de resultados.
log: C:\Documents and Settings\...\Mis documentos\stata\primero.smcl --------------------------------------------------------------------log type: smcl opened on: Jan 2004, 12:37:07

Y, a partir de ese momento, todo lo que aparece en la ventana de resultados, salvo la ayuda, ser grabado en el fichero, directorio y disco del ordenador especificado. La grabacin puede ser revisada, suspendida o finalizada. Si se intenta hacer cualquiera de estas operaciones mediante men (File/Log) o mediante icono de herramienta (Close/Suspend), aparece un cuadro de dilogo para que el usuario opte por la frmula deseada.
Ilustracin 20.- Cuadro de dilogo para un fichero de resultados ya abierto.

Caso de que el fichero contenga espacios en blancos, es obligatorio que su nombre sea escrito entre comillas.

21

Manual de Stata

Todas esas operaciones tambin pueden realizarse mediante instrucciones en la ventana de rdenes. stas son: log off log on log close view nombredelfichero.smcl Al igual que se puede grabar un fichero de resultados, tambin puede hacerse algo similar con todas las instrucciones de una sesin de Stata. Ya se ha visto cmo puede hacerse a posteriori, haciendo aparecer el men de contexto en la ventana de historia. Pero tambin, puede realizarse a priori, mediante la instruccin cmdlog using nombredelfichero8. Si se quiere crear un fichero llamado primeras instrucciones, con extensin .do habr que escribir la siguiente orden. cmdlog using primeras instrucciones.do Y para suspender, reanudar o terminar la grabacin, ha de usarse la instruccin cmdlog acompaada de off, on o close respectivamente. Tanto en ficheros de resultados como en ficheros de instrucciones, otro aspecto que ha de tenerse en cuenta es que, en el caso de que se quiera dar un nombre de fichero ya existente, si se intenta con una lnea de instruccin, dar un error, a menos que se aada la opcin append, si se quiere aadir lo nuevo a lo existente, o replace, si se prefiere suplantar el antiguo contenido por el nuevo. En cualquier momento, por otro lado, se puede visualizar cualquier fichero de resultados, comandos e incluso de ayuda con la instruccin view nombredelfichero. sta posibilidad se encuentra tambin en el men File/View. Si, a continuacin, se aprieta en el botn Browse, aparece el explorador, desde el que puede seleccionarse cualquier fichero escrito en ASCII o en SMCL para su visualizacin9. De este modo, mediante la instruccin mostrada a continuacin, se podr ver el contenido del fichero primero:

Si no se especifica ninguna extensin al fichero, el programa le pondr .txt. Si se desea repetir una sesin, conviene cambiarle la extensin por la de .do. De este modo podrn ejecutarse de nuevo.
9

Ha de tenerse en cuenta que slo se permite la visin de un fichero al mismo tiempo.

22 view primero.smcl

Manual de Stata

Ilustracin 21.- Visor de un fichero de resultados.

1.6 Las variables del fichero de dato


Como la mayora de programas informticos, Stata es bsicamente una herramienta para manipular datos: datos estadsticos en este caso. El funcionamiento de Stata consiste en manipular, modificar, y realizar operaciones matemticas sobre una matriz de datos que se almacena en la memoria del ordenador. Para que Stata pueda trabajar con estos datos, tienen que estar en el formato adecuado, en el formato de Stata. En el prximo captulo, se ver cmo construir o traducir los ficheros propios de este programa, bien sea introduciendo los datos manualmente o traducindolos desde ficheros construidos por otros programas (como SPSS o Excel) al formato de Stata. Pero primero, es conveniente explicar operaciones ms fciles como su uso, el formato y la disposicin de datos que en ellos se contiene. Al igual que la mayor parte de programas estadsticos, Stata trabaja con un fichero de datos estructurado por casos y variables. Este fichero ha de residir en un determinado directorio de una unidad del ordenador. Para hacer uso de l y aplicarle cuantas operaciones estadsticas se desee, ha de cargarse en la memoria central de la mquina. Ello se consigue abriendo el fichero mediante el men File/Open, el primer icono de la barra de herramientas (Open (use)) o la instruccin use nombredefichero. Anteriormente se ha utilizado la instruccin sysuse, pero sta slo sirve para ficheros suministrados por el programa para mostrar ejemplos incorporados en el manual. Si se quiere, en consecuencia, abrir un fichero previamente creado por el usuario, como puede ser el fichero con informacin de paises, al que se titul con el nombre mundo, la instruccin debera ser use mundo A partir de ese momento, si el programa ha localizado correctamente el fichero, la matriz de datos se carga en la memoria del ordenador y, como prueba de ello, aparecen

23

Manual de Stata

las variables en su ventana correspondiente, siempre que se encuentre abierta. Como se ha visto anteriormente, en la pantalla del editor de datos, esta matriz se representa habitualmente como una tabla de datos en la que las filas son casos y las columnas variables (as se representa por ejemplo en el editor de datos de Stata, como se ver con atencin en el siguiente apartado). Los casos son los individuos de los que se dispone la informacin, y las variables son las categoras en las que se organiza esa informacin. As, por ejemplo, si se dispone de indicadores de un conjunto de pases, los casos sern cada una de las naciones incluidas, y las variables cada uno de los indicadores disponibles como la superficie, la poblacin, el pib, etc. Para conocer las caractersticas de las variables que estn contenidas en un fichero, Stata posee una instruccin que construye una lista de todas ellas, salvo que se especifique tras la instruccin un subconjunto de variables. Esta orden es describe. Usada sin argumento ni opcin, proporciona de cada variable informacin sobre el tipo de almacenamiento, el formato de presentacin y las etiquetas. Aplicada sobre el fichero mundo del presente ejemplo, muestra el siguiente resultado:
Ilustracin 22.- Descripcin de variables
Contains data from mundo.dta obs: 213 Indicadores de pases vars: 17 5 Jan 2004 13:35 size: 17,892 (99.9% of memory free) -----------------------------------------------------------------------------> storage display value variable name type format label variable label -----------------------------------------------------------------------------> pais str24 %-2s capital str19 %19s continente byte %8.0g conti ocde byte %-2.0f perte Pertenece a OCDE fiocde int %d Fecha de ingreso en la OCDE ue byte %2.0f perte Pertenece a UE fiue int %d Fecha de ingreso en la UE superficie long %12.0fc poblacion float %9.3fc densidad int %8.0fc evn byte %3.0f Esperanza de vida al nacer tmi int %8.0g Tasa de mortalidad infantil anal byte %8.0g Tasa de analfabetismo tascrec float %6.2f Tasa de crecimiento pib long %12.0fc Producto Interior Bruto rnbpc long %9.0fc Renta per cpita ($) rnbppa long %9.0fc Renta per cpita (u.c.) -----------------------------------------------------------------------------> Sorted by

Se advierte en primer lugar que el fichero consta de 213 observaciones, cada una de ellas corresponde a un pas. Tambin se indica que est compuesto por 17 variables y que el tamao que ocupa en disco (y actualmente en memoria) es de 17.892 bytes. Y, a continuacin, se lista el conjunto de variables disponibles en el fichero. Cada una de ellas aparece, junto con su nombre, con su tipo de almacenamiento, su formato de presentacin y sus etiquetas, conceptos todos ellos que se explican en los tres prximos apartados. De estos tres conceptos, el ms sencillo, til, necesario y empleado es el etiquetaje. Por ello es el abordado en primer lugar. Los otros dos son ms complejos y

24

Manual de Stata

no tan necesarios, por lo que si no se entienden en un primer momento, el lector puede continuar con los siguientes captulos de este libro sin temor a perderse algo imprescindible.

1.6.1 Etiquetas de variables y de valores


En Stata, pueden asignarse etiquetas a la base de datos, a las variables y a los valores. Estas etiquetas harn ms fcil la comprensin de los anlisis estadsticos, por lo que es conveniente ponerlas. La instruccin general para etiquetas es label, tras la cual se especifica qu es lo que se quiere etiquetar y la etiqueta. Para poner una etiqueta a la base de datos, ha de escribirse label data y la etiqueta que se desee: label data "Indicadores de los pases. Mundo (2000)" Las etiquetas de las variables se ponen con la instruccin compuesta label variable: label variable pib "Producto interior bruto" Como se puede ver, la etiqueta debe ir entrecomillada. Un poco ms complicado es poner etiquetas a los valores. Las etiquetas de valores se definen por grupos, y luego se asignan a las variables deseadas. Esto permite que se asigne un mismo grupo de etiquetas de valores a varias variables con iguales respuestas. Por ejemplo, es posible asignar al mismo tiempo etiquetas a los valores de un conjunto preguntas que tengan las mismas posibilidades de respuesta, como muy de acuerdo, de acuerdo, en desacuerdo y muy en desacuerdo. Lo primero que debe hacerse es definir un grupo de etiquetas de valores, al que se denominar conti (por continente). Esto ha de hacerse del siguiente modo: label define conti 1 "Europa" 2 "Asia" 3 "Africa" 4 "Amrica" 5 "Oceana" Como puede apreciarse, tras la orden label va la especificacin define, el nombre del grupo de etiquetas de valores y luego los valores seguidos por sus respectivas etiquetas. Una vez que se introduzca este comando, este grupo de etiquetas de valores quedar en memoria junto con los datos. Si se guardan stos, el grupo de etiquetas quedar tambin grabado, de tal modo que puede recuperarse en sesiones subsiguientes con Stata. Y, una vez definido el grupo de etiquetas, se puede asignar a tantas variables como se desee, en cualquier momento. La instruccin es: label values continente conti Este procedimiento tiene importantes ventajas cuando hay varias variables con el mismo tipo de etiquetas, como sucede con las variables ocde y ue, ambas relacionadas

25

Manual de Stata

con la pertenencia o no a estos organismos. Para etiquetar sus valores, primero se definen las etiquetas y despus se asignan a cada una de las variables de este modo: label define perte 0 No 1 "S". label values ocde perte label values ue perte En cualquier momento, el usuario puede ver los grupos de etiquetas que estn definidos en determinado fichero de datos grabado en formato Stata. Para ello hay que utilizar la orden label list, que, si no se ha definido ningn otro grupo de etiquetas en el presente ejemplo mostrar las dos definiciones previamente creadas: label list

conti: 1 2 3 4 5 perte: 0 No 1 Si Europa Asia frica Amrica Oceana

Otras instrucciones tiles para trabajar con etiquetas son label drop (que elimina los grupos de etiquetas que se declaren a continuacin), y label save (que guarda las etiquetas que han sido definidas en el archivo .do que se indique). Tecleando label values seguido slo por un nombre de variable, se quitarn las asignaciones que tuvieran sus valores a cualquier etiqueta.
label values ocde

Mediante la anterior instruccin, la etiqueta perte dejar de estar asignada a la variable ocde. El grupo de etiquetas perte no se borra de la base de datos, slo deja de estar asignada a ocde (seguir asignada a la otra variable asignada, a ue). A menos que se escriba la orden especfica para hacerlo (con label drop), si una etiqueta no est asignada a ninguna variable no desaparece del archivo, con lo que puede ser usada siempre que se requiera.

1.6.2 Formatos de almacenamiento de las variables.


En Stata, cada variable tiene un formato segn el tipo de datos que contenga. Una variable puede contener a) cadenas de caracteres (string), b) nmeros o c) fechas, que son los tres tipos principales de formatos de Stata. Los formatos de variables numricas y de cadena no slo contienen la informacin de su tipo, sino tambin el tamao mximo de dgitos de la variable. En las variables de cadena la norma y el procedimiento son sencillos: automticamente Stata asignar a cada variable el formato str y el nmero de caracteres que contenga el conjunto de caracteres ms largo. Por ejemplo, en una variable que incluyera las provincias

26

Manual de Stata

espaolas, la cadena de caracteres ms larga sera Santa Cruz de Tenerife, que tiene 22 caracteres, por lo que Stata asignara a la variable Provincia la extensin de 22: el formato sera str22. Para las variables numricas es algo ms complicado, puesto que el formato no depende directamente del nmero de dgitos sino del valor mximo. Aqu hay varios tipos distintos segn el valor mximo de los datos de la variable: desde byte, que puede almacenar de 127 hasta 126, hasta double, que puede almacenar desde 10238 hasta 10308. En la Ilustracin 23 vemos los distintos formatos de variables numricas que utiliza Stata.

Ilustracin 23.- Tipos de almacenamiento de variables numricas


Valor ms cercano a 0 (sin ser 0) +/- 1 +/- 1 +/- 1 +/- 10-36 +/- 10-323

Tipo variable

Valor mnimo

Valor mximo

Valor perdido

10

byte int long float double

-127 -32.767 -2.147.483.647 -1.7x10


38

100 32.740 2.147.483.620 1.7x1036 9.0x10308

127 32.767 2.147.483.647 2128 21023

-9.0x10307

Fuente: Stata 7 Users Guide, 2001

En principio, no es necesario preocuparse por el formato de las variables, porque Stata asigna automticamente el formato adecuado, e incluso lo cambia si es necesario (si introducimos un valor mayor que el mximo). Por ejemplo, si se introduce el valor 127 en una variable byte (que puede almacenar hasta el valor 126, ver tabla 1), automticamente Stata cambia el formato de la variable y la convierte en int, que s puede almacenar 127. Pero, aunque no sea necesario asignar directamente el formato a las variables, porque Stata ya lo hace automticamente, puede ocurrir que los formatos sean demasiado grandes para los datos, por lo que stos ocupen demasiada memoria. Por ejemplo, supongamos que tenemos una variable de edad, para la que en principio el formato byte (que puede almacenar de 127 a 126) es ms que suficiente. Por un error en la introduccin de datos, se introdujo el valor 195. Automticamente, Stata cambiar

Este es el valor que Stata asigna internamente a los valores perdidos. Ms adelante veremos que el hecho de que asigne el nmero ms alto a los missing afecta a la ordenacin de los casos con el comando sort.

10

27

Manual de Stata

el formato de la variable a int. Si luego se advierte el error y se corrige (cambiando el valor a 19), el formato de la variable seguir siendo int, aunque los datos que almacena la variable edad no superen en ningn caso el valor 126 (y por tanto el tipo byte es suficiente). Esto es as porque Stata modifica el formato al alza pero no a la baja: cuando se introduce un valor superior al mximo permitido por el tipo de variable, cambia el formato para que se pueda almacenar el valor correctamente, pero a menos que se especifique nunca cambia el formato, si se reduce el valor mximo. Esto es importante porque el formato de la variable determina cunta memoria ocupan los datos. Si los formatos de los datos son mayores de lo necesario, puede que la matriz ocupe tanto que no quepa en la memoria de trabajo, o que los clculos estadsticos sean muy lentos. El comando compress est especficamente diseado para este problema. Cuando se introduce esta orden, Stata comprueba uno a uno los formatos de todas las variables de la matriz y asigna a cada una de ellas el formato ms pequeo posible. Es una instruccin que nunca modifica los contenidos de la matriz, slo los formatos de las variables. Caso de que los formatos ya sean tan pequeos como es posible, no modificar nada. Pero en muchos casos, este comando puede hacer mejorar ostensiblemente el funcionamiento de Stata, al reducir el tamao que ocupan los datos en memoria. Finalmente hay que conocer el peculiar modo con que Stata trata las fechas. Estas pueden ser un texto, 21 Mar 1952, un conjunto de tres nmeros, 21 3 1952, o un solo nmero, en cuyo caso se necesita una fecha de partida que represente el valor 0, que en Stata es el 1 de enero de 1960. Pero, en el fondo, para que este programa las trate como variable temporal, especialmente en los anlisis de series, slo la ltima forma de almacenamiento es vlida. Resulta evidente que el usuario no va a introducir la variable de fecha segn los das que haya transcurrido desde comienzos del ao 60. Para la conversin se dispone de muchas funciones que permiten tanto pasar del formato usual al modo de trabajo como al revs. Una de las operaciones ms empleadas en este sentido es la de proporcionar un determinado formato de presentacin a una variable. De este modo, una variable temporal con el valor de numrico temporal de 2 puede aparecer literalmente como 3 january 1960, si se le indica dicho formato tal como se indica en el prximo apartado.

1.6.3 Formatos de presentacin de las variables.


Como en la mayor parte de las aplicaciones informticas, hay que distinguir entre el formato en el que son guardados los valores de las variables que presentan los casos y el formato en el que son presentados en la pantalla. El primero est determinado por el tipo de almacenamiento, mientras que el segundo es el que es denominado formato de presentacin.

28

Manual de Stata

La instruccin para la que es ms importante la utilizacin de los formatos de presentacin es list. Como ya se ha visto su funcin es la de mostrar los valores que tienen los casos en unas determinadas variables. El modo de cambiar la presentacin de las variables es mediante otra orden anterior a la mencionada. Se trata de format, que ha de presentar la siguiente estructura: format listadevariables %formato Donde aparece listadevariables, ha de figurar una o varias mediante las convenciones propias del programa y donde aparece %formato se especifica mediante claves el aspecto con el que se desean mostrar las variables. Desde el punto de vista del formato pueden distinguirse tres tipos de variables: las numricas, las textuales y las de fecha. 1) Las variables numricas pueden presentarse a su vez de acuerdo a una de las siguientes modalidades: %p.dg, para mostrar todo tipo de formatos. %p.df, para mostrar formatos de un nmero determinado de decimales. %p.de, para mostrar los nmeros en notacin cientfica. donde p significa el nmero de posiciones que se desean obtener de un determinado nmero y d expresa el nmero de decimales que se quieren mostrar. A todas ellas, se le puede aadir una c, si se desea que se aada una coma cada tres dgitos para mejorar la legibilidad de las cifras largas. En realidad, slo existen dos tipos de formatos para los nmeros, el decimal (f) y el cientfico (e). El formato (g) hace que sea el mismo programa quien se encargue de seleccionar el formato ms adecuado segn las caractersticas del nmero mostrado. Para que quede mejor aclarado es imprescindible un buen ejemplo con distintos tipos de formato. De la base de datos de los pases del mundo se han seleccionado las variables superficie, poblacin, tasa de mortalidad infantil y tasa de crecimiento. el formato respectivo de cada una de ellas es el siguiente: En la superficie, se han puesto doce caracteres sin ningn decimal. En poblacin, nueve posiciones y tres decimales, porque est introducida en miles y de esta forma puede apreciarse la cantidad oficial de habitantes de un pas. En ambas tambin se ha aadido el carcter c a fin de mejorar la legibilidad. En la tasa de mortalidad se ha fijado un formato de 3 posiciones sin ningn decimal (esta medida en tantos por mil). Y, finalmente, la tasa de crecimiento esta puesta en formato de seis posiciones y dos decimales. Toda esta informacin est guardada en el fichero, por lo que no es necesaria su introduccin, a menos que se desee cambiarla. Un listado de los diez primeros pases de las variables con los formatos antedichos puede solicitarse con la siguiente instruccin:

29

Manual de Stata list pais superficie pib tmi tascrec in 1/10

Ntese que a la orden list se le ha aadido la lista de variables y la partcula in seguida de 1/10, lo que significa desde el caso primero hasta el dcimo.
Ilustracin 24.- Listado parcial de casos
+-------------------------------------------------------------+ | pais superfi~e pib tmi tascrec | |-------------------------------------------------------------| | Afganistn 652,090 4,100 163 2.60 | | Albania 27,400 4,114 20 0.40 | | Alemania 349,300 1,873,854 4 0.30 | | Andorra 500 950 . . | | Angola 1,246,700 9,471 128 3.10 | |-------------------------------------------------------------| | Antigua y Barbuda 400 640 16 1.40 | | Antillas Holandesas 800 2,360 13 0.86 | | Arabia Saud 2,149,690 173,287 18 2.80 | | Argelia 2,381,700 53,009 33 1.90 | | Argentina 2,736,700 268,773 17 1.30 | +-------------------------------------------------------------+

1. 2. 3. 4. 5. 6. 7. 8. 9. 10.

En cambio, si antes de realizar ese mismo listado, se le hubiera cambiado el formato de un modo similar a ste: format %8.0g superficie pib tmi tascrec El resultado hubiera sido diferente en las variables superficie, pib y tascrec.
Ilustracin 25.- Listado formateado de casos (I)
+----------------------------------------------------------+ | pais superf~e pib tmi tascrec | |----------------------------------------------------------| | Afganistn 652090 4100 163 2.6 | | Albania 27400 4114 20 .4 | | Alemania 349300 1.9e+06 4 .3 | | Andorra 500 950 . . | | Angola 1.2e+06 9471 128 3.1 | |----------------------------------------------------------| | Antigua y Barbuda 400 640 16 1.4 | | Antillas Holandesas 800 2360 13 .86 | | Arabia Saud 2.1e+06 173287 18 2.8 | | Argelia 2.4e+06 53009 33 1.9 | | Argentina 2.7e+06 268773 17 1.3 | +----------------------------------------------------------+

1. 2. 3. 4. 5. 6. 7. 8. 9. 10.

En estos resultados, en los que se ha aplicado a todas las variables numricas el formato %8.0g11, se puede ver que hay casos de las variables superficie y pib Angola en la primera y Alemania en la segunda, entre otros- que son mostrados en notacin cientfica, pues de otro modo no cabran en los 8 espacios. Por otro lado, en la variable de la tasa de crecimiento se detecta otra de las peculiaridades del tratamiento del formato que hace Stata. Es de notar cmo, a pesar de que estn puestas en formato de cero decimales, Stata los muestra todos siempre y cuando estn as almacenados, sin efectuar operacin de redondeo como haran otras aplicaciones con los formatos de

Por defecto Stata asigna el formato %8.0g a todas las variables almacenadas como byte o integer, con %9.0g a las variables float, %10.0g a las double y %12.0g a las long.

11

30

Manual de Stata

presentacin. Por ello en el caso de las Antillas Holandesas aparecen dos decimales. En el caso de que hubiera algn pas sin decimales, obviamente no los mostrara. 2) Las variables textuales son tambin objeto de cambio en su formato. Pero, en lugar de utilizar los caracteres f, g o e, emplean s, abreviatura de string. Obviamente, en este caso, no han de aparecer cifras decimales; en cambio, es muy til utilizar la opcin del alineamiento a la izquierda, que se logra mediante el signo menos delante de la cifra que indica el nmero de posiciones necesarias para la presentacin del texto. De este modo, con las dos siguientes instrucciones, se mostrara los cinco primeros pases acompaados de su correspondiente tasa de mortalidad infantil: format %-24s pais list pais tmi in 1/5 Es preciso notar cmo en los prximos resultados, el tamao de la columna de la variable pas no contiene 24 columnas. A menos que se le especifique la opcin fast, el programa examina la longitud de los casos que va a mostrar y automticamente ajusta el tamao de la columna al mximo de caracteres.
Ilustracin 26.- Listado formateado de casos (II).
+------------------+ | pais tmi | |------------------| | Afganistn 163 | | Albania 20 | | Alemania 4 | | Andorra . | | Angola 128 | +------------------+

1. 2. 3. 4. 5.

3) Finalmente, hay que referirse a los formatos de variables de fecha (date). Como se dijo anteriormente, Stata almacena los datos relacionados con fechas como un nmero de tal modo que el 0 representa el 1 de enero de 1960. Todo nmero negativo es una fecha anterior a la mencionada y todo positivo, en correspondencia, posterior. As, como dicho ao fue bisiesto, el nmero 366 equivale al 1 de enero de 1961 y el nmero 365 representa el primer da del ao 1959. Todo ello es fcilmente apreciable utilizando la orden display, que muestra el contenido de una variable o constante con la posibilidad de aplicarle un formato temporal. De este modo, si se escribe la siguiente lnea en la ventana de rdenes. display %d -365, %d 0, %d 366 Se mostrar en la pantalla de resultados tres fechas consecutivas correspondientes a los primeros das de los aos 1959, 1960 y 1961.
Ilustracin 27.- Exposicin de fechas (I).
01jan1959 01jan1960 01jan1961

Como puede apreciarse, las fechas se muestran en ingls con dos dgitos para el da, seguidos por tres caracteres para el mes y cuatro dgitos para el ao. Esto tambin puede

31

Manual de Stata

ser cambiado al especificar el formato %d seguido con una lista formada por una combinacin las siguientes convenciones.
Tabla 2.- Formatos de fecha

c/C y/Y M/M l/L n/N D/D j /J W/W _.,:-/ !

Muestran el siglo sin/con ceros a la izquierda Muestran los dos dgitos del ao sin/con ceros a la izquierda. Muestra el mes en mayscula abreviado con 3 letras / sin abreviar Muestra el mes en minscula abreviado con 3 letras / sin abreviar Muestra el mes numricamente sin/con ceros a la izquierda Muestra el da del mes sin/con ceros a la izquierda Muestra el da del ao (1/366) sin/con ceros a la izquierda Muestra la semana (1/52) del ao sin/con ceros a la izquierda Caracteres permitidos directamente en el formato de fecha Prefijo para introducir cualquier otro carcter.

La misma instruccin anterior puede ser empleada con otros formatos para que la presentacin de cada una de las fechas sea totalmente diferente. El prximo ejemplo muestra tres formatos distintos en los que puede presentarse los primeros das de los aos 1959, 1960 y 1961. display %dd_M_cY -365, %dM/Y 0, %dCY-n-d 366
Ilustracin 28.- Exposicin de fechas (II).
1 January 1959 January/60 1961-1-1

Finalmente, es preciso aadir que Stata tambin puede considerar las fechas semanal, mensual, trimestral o semestralmente. En cualquier caso, siempre el punto de referencia es el 1 de enero de 1960 y la variable queda guardada como numrica; pero en estos casos el nmero en lugar de das, significa semanas, meses, trimestres o semestres. Y el modo en el que se advierten el significado de las cifras es en el formato con las siguientes equivalencias: %td significa que la variable temporal se refiere a das. Equivale, por tanto, a %d. %tw se refiere a semanas.

32

Manual de Stata

%tm, a meses. %tq a trimestres, %th a semestres e incluso %ty se emplea para referirse a aos. As la misma unidad significa distintas fechas segn el formato empleado. Un ejemplo con cada una de ellas ayuda a entender la mecnica con la que Stata trata a estas variables temporales. display %tdd/n/CY 1, %twd/n/CY 1, %tmd/n/CY 1, %tqd/n/CY 1, %thd/n/CY 1, %tyd/n/CY 1961 Ntese cmo el 1, salvo en el formato anual, significa una unidad (da, semana, mes, trimestre o semestre) despus del 1 de enero de 1960. Slo en el formato anual, el valor de la variable se equipara con el de la fecha y la base no es 1960. Por ello, para representar el uno de enero de 1961, hay que pone el valor 1961. A continuacin se muestran las fechas solicitadas en la instruccin anterior:
Ilustracin 29.- Exposicin de fechas (III)
2/1/1960 8/1/1960 1/2/1960 1/4/1960 1/7/1960 1/1/1961

Das könnte Ihnen auch gefallen