Introduction - Stata - ISMS PDF

REPUBLIQUE ISLAMIQUE DE MAURITANIE
(RIM)
Institut Supérieur de Métiers de la Statistique
Introduction à Stata
Celestin SEMEVO, Ingénieur Statisticien Economiste

Brice DONGMEZO, Ingénieur Statisticien Economiste & Ph.D
2019 - 2020
Sommaire
1 Environnement Stata .............................................................................................................. 4
1.1 Les fenêtre principales .................................................................................................... 4
1.2 Les autres fenêtres ........................................................................................................... 5
1.3 La barre des menus Stata ................................................................................................ 5
1.4 Les types de fichiers ......................................................................................................... 5
2 Paramétrage de la session de travail ..................................................................................... 6
2.1 Allocation de la mémoire ................................................................................................ 6
2.2 Repertoire ou environment de travail............................................................................ 6
2.3 Utilisation d’un fichier log .............................................................................................. 6
3 Lecture et sauvegarde d’un fichier de données ................................................................... 7
3.1 Ouvrir un fichier de données Stata (.dta) ..................................................................... 7
3.2 Lecture à partir d’une source externe ........................................................................... 7
3.3 Sauvegarde d’un fichier .................................................................................................. 8
4 Quelques éléments du langage Stata .................................................................................... 9
4.1 Les opérateurs .................................................................................................................. 9
4.2 Les données manquantes ................................................................................................ 9
4.3 Quelques variables système et constantes ................................................................... 10
4.4 Les commentaires dans Stata ........................................................................................ 10
4.5 Format de la base des commandes de Stata ................................................................. 10
5 Inspection de la base de données ........................................................................................ 11
5.1 describe........................................................................................................................... 11
5.2 Codebook ........................................................................................................................ 11
5.3 inspect............................................................................................................................. 12
6 Manipulation des variables ................................................................................................. 12
6.1 Renommer une variable ................................................................................................ 12
6.2 Réorganiser les variables dans la base ......................................................................... 12
6.3 Supprimer ou conserver des variables ........................................................................ 12
6.4 Définir des étiquettes de variables et de modalités ..................................................... 13
6.5 Recoder une variable ..................................................................................................... 13
6.6 Créer des variables ........................................................................................................ 14
7 Manipulation des données ................................................................................................... 15
Introduction à Stata [1]

7.1 La commande clear ....................................................................................................... 15
7.2 Trier les observations sort et gsort ............................................................................... 15
7.3 Filtrer les observations .................................................................................................. 16
8 Quelques commandes utiles ................................................................................................ 16
8.1 La commande summarize ............................................................................................. 16
8.2 La commande tabulate .................................................................................................. 16
8.3 La commande display .................................................................................................... 17
8.4 Quelques fonctions mathématiques ............................................................................. 17

Introduction
Stata est un logiciel statistique créé par StataCorp. La première version officielle de Stata date
de 1985. Stata est particulièrement utilisé par la communauté scientifique dans les domaines
de la médecine, la biologie, la sociologie et l’économie.
La version actuelle est la version 16 (Juin 2019).
Trois logiciels composent l'offre Stata pour une même version:
 Stata/MP : version utilisant les possibilités de calcul parallèle sur des machines multi-
processeurs
 Stata/SE : version professionnelle de Stata, avec des capacités de calcul sur des jeux de
données de grande taille
 Stata/IC : version standard, avec des restrictions sur la taille des matrices et des
données.
Ce support de cours est très basique et offre juste bref aperçu du logiciel Stata. Il a pour but
de familiariser le lecteur avec l’environnement Stata et non d’en faire un utilisateur avancé.
La version de Stata sur laquelle porte ce document est la version 13, portable.

1 Environnement Stata
1.1 Les fenêtre principales
Au lancement de Stata plusieurs fenêtres sont affichées via une fenêtre intégrée et compacte,
présentée dans la vue ci-dessous.
Dans cette vue, on distingue 5 fenêtres

La fenêtre Command : elle permet de saisir les commandes ou instructions qui devront être
exécutées par le logiciel. Après la saisie de la commande dans cette fenêtre, le lancement de
l’exécution se fait en tapant sur la touche « ENTREE » du clavier. Toutefois, cette fenêtre n’est
pas pratique pour élaborer et exécuter de gros programmes. Elle permet juste de travailler de
manière interactive en exécutant pas à pas des commandes.
La fenêtre Results : c’est dans cette fenêtre que sont affichés les résultats des commandes
exécutées. Dans cette fenêtre, chaque résultat est d’abord précédé de la commande l’ayant
généré. Les messages d’erreurs survenus au cours de l’exécution sont également présentés
dans cette fenêtre.
La fenêtre Review : elle donne la liste des commandes exécutées pendant la session de travail
en cours. Les commandes ayant généré des erreurs lors du processus d’exécution y sont
affichées en rouge. Pour exécuter une nouvelle fois une commande précédemment utilisée, il
suffit de cliquer sur celle-ci, ce qui la fera apparaitre dans la fenêtre Command. Il suffit dès
lors appuyer sur la touche « ENTREE » pour l’exécuter à nouveau.
La fenêtre Variables : elle affiche la liste des variables contenues dans la base de données ainsi
que leurs étiquettes appelées labels. Ces dernières sont utilisées pour donner des descriptions
des variables.

La fenêtre Propriétés : elle permet d’afficher les propriétés des variables présentes dans la
base. En effet, elle affiche les propriétés de la variable sélectionnée dans la fenêtre des
variables.
1.2 Les autres fenêtres

En plus des fenêtres présentées ci-dessus, Stata dispose d’autres fenêtres accessibles via le
menu windows. Nous ne les présenterons pas toutes ; nous nous attarderons plutôt sur
quelques-unes entre elles.
Le Viewer
C’est la fenêtre d’aide de Stata. Elle permet également d’afficher les fichiers log d’extension
« .scml » qui seront présentés plus bas
Le Data Editor
Il permet d’afficher les données de la base dans un tableur, avec en ligne les observations et
en colonnes les variables. Il peut être utilisé de deux façons. (i) On peut l’utiliser pour un
simple affichage des données (les données sont juste visualisées mais ne peuvent être
modifiées) ou (ii) pour une édition des données (la base de données peut être modifiée ou
éditée).
Do file editor
C’est la fenêtre qui permet la création des fichiers de syntaxe Stata (bien qu’on puisse utiliser
n’importe quel éditeur de texte). Elle permet de pourvoir rédiger et exécuter les lignes de
code. Les noms des commandes y sont automatiquement reconnus et apparaissent avec une
couleur de police particulière.
Pour les utilisateurs ayant une bonne connaissance de Stata, elle constitue l’une des
principales fenêtres car la façon appropriée de travailler dans Stata consiste à enregistrer les
commandes que l’on exécute dans un fichier de syntaxe (do-file) afin de pouvoir les réutiliser
ultérieurement.
1.3 La barre des menus Stata

Depuis la version 8 de Stata, l’essentiel des commandes est exécutable par les boites de
dialogues accessibles via les différents menus. En effet, les menus Stata (Data, Statistics,
Graphics, etc) sont très détaillés et regroupent un grand nombre de fonctionnalités. Toutefois,
pour une utilisation optimale de Stata, il est préférable de travailler en utilisant la syntaxe.
Ainsi, dans le cadre de ce document, nous ne nous étendrons par sur les menus graphiques.
Toutefois, il est important de noter que, les différentes boites de dialogues permettant
d’implémenter les diverses tâches possèdent un bouton de commande copy1, qui permet
d’inscrire les commandes correspondantes à ces taches dans un fichier de syntaxe.
1.4 Les types de fichiers

Au cours de l’utilisation de Stata, on est généralement amené à manipuler 5 types de fichiers.
Il s’agit des fichiers d’extensions :
1Sur ce bouton n’apparait explicitement pas l’étiquette « copy », il y a juste un symbole représentant deux feuilles
de papier superposées.

 .dta : fichier de données formatées pour Stata

 .do : fichier de syntaxe Stata (on parle également de do-file)
 .log : fichier de sortie des résultats
 .gph : fichier de sauvegarde des graphiques
 .wmf : fichier de graphique au format Windows metafile
2 Paramétrage de la session de travail
2.1 Allocation de la mémoire

Dans des versions antérieures de Stata, il était automatiquement nécessaire pour utilisateur
de (re)définir une nouvelle allocation mémoire, dès lors qu’il avait à utiliser une base de
données légèrement consistante. Par exemple, la version 9.0 de Stata ne disposait, par défaut,
que de 10 mégaoctets en mémoire. De ce fait, les bases de données de plus de 10 Mo ne
pouvaient être ouvert sans avoir au préalable alloué un espace mémoire conséquent. Ce cas
de figure est présenté pour ceux qui utilisent une version antérieure de Stata.
La commande utilisée dans ces cas est mem. Dans les exemples suivants, la première ligne
permet d’affecter 100 octects (bytes) et la seconde 100 mégaoctets
set mem 100b
set mem 100m
2.2 Repertoire ou environment de travail.

Définir un répertoire ou un environnement de travail peut être très pratique. En effet, au
cours d’une session, les fichiers créés seront sauvegardées par défaut dans ce répertoire et les
fichiers lus y seront également recherchés par défaut.
La commande cd permet de connaitre et de définir le répertoire de travail. Lorsque cd est
utilisé sans arguments, elle renvoie l’adresse du répertoire de travail en cours. Dans ce cas,
elle est équivalente à la commande pwd
cd
cd c :
cd "adresse de votre choix" /*définit un répertoire de
travail*/
2.3 Utilisation d’un fichier log

Un fichier log permet d’enregistrer tous les travaux effectués au cours d’une session Stata.
Dans ce fichier sont stockés toutes les commandes exécutées ainsi que les résultats générés
par celles-ci. Ainsi, le fichier log stocke toutes les informations affichées dans la fenêtre
Results au cours d’une session après son activation. Les fichiers log sont disponibles sous deux
différents formats : Les fichiers .txt et les fichiers SMCL (Stata Markup and Control Language).
Ce dernier type constitue le format par défaut. Il a l’avantage de conserver les polices ainsi
que les couleurs de police. Le format .txt par contre présente l’avantage d’être plus
transportable que le format SMCL.
log using “G:\nomfichier”, replace \* votre rep et non du fichier*\
log using “G:\nomfichier1”, replace text
log off \* fermeture temporaire du fichier log*\

log on \* reactivation du fichier log*\

log close \* fermeture definitive du fichier log*\
Il est possible de sauvegarder uniquement les commandes saisies au cours d’une session de
façon à pouvoir constituer un fichier de syntaxe (do-file). La commande utilisée pour cela
cmdlog. Par défaut, le fichier créé est un fichier texte d’extension .txt
cmdlog using nomfichier, replace
3 Lecture et sauvegarde d’un fichier de données
3.1 Ouvrir un fichier de données Stata (.dta)

La commande permettant d’ouvrir un fichier de données Stata d’extension « .dta » est : use.
use auto.dta
La commande ci-dessus permet de lire le fichier auto.dta présent dans le répertoire de travail.
Pour le cas où le fichier à lire se trouve dans un autre répertoire, il est nécessaire de spécifier
l’adresse du fichier comme ci-dessous.
use “c:\mes données\auto.dta”
Dans une session Stata, on ne peut avoir qu’une seule base de données ouverte à la fois. Ainsi,
s’il existe dans la session, une base de données précédemment ouverte (ayant subi des
modifications), il faut préalablement sauvegarder ces modifications et ensuite, fermer cette
base de données avant d’utiliser la commande use pour en ouvrir une nouvelle. Dans le cas
où les modifications ne doivent pas être sauvegardées, la commande use peut être utilisée
directement avec l’option clear. Cela permettra de fermer la base ouverte sans sauvegarder
les modifications.
use auto.dta, clear
3.2 Lecture à partir d’une source externe

Lecture des fichiers textes avec variables délimitées par un caractère particulier
L’usage des fichiers textes comme support pour stocker les données est très courant dans le
domaine de la statistique. Dans les fichiers textes, il est très commun d’utiliser un caractère
particulier (virgule, espace tabulation, etc.) pour séparer les variables. En général, les fichiers
d’extensions « .txt » utilisent comme séparateur la tabulation ou l’espace et les fichiers csv, la
virgule ou le point-virgule.
La commande Stata appropriée pour lire ce type fichier est la commande insheet. Elle s’utilise
comme suit :
insheet using mydata.txt, clear
L’option delimiter de cette commande permet de spécifier un autre délimiteur autre que la
tabulation ou la virgule. En effet, pour ces deux délimiteurs l’utilisateur n’a pas besoin de
préciser le séparateur, la commande peut l’identifier toute seule. Pour spécifier un autre
caractère le point-virgule par exemple on ajoute l’option delimiter(";")
insheet using mydata.txt, delimiter(";") clear

La commande insheet lit les fichiers textes pour lesquels chaque observation figure sur une
seule ligne et les variables sont séparés par un caractère particulier. Toutefois, il existe la
commande infile qui est bien plus puissante que insheet qui permet de traiter des cas
d’importations plus complexes.
Pour le cas particulier des fichiers textes avec variable séparés par des espaces, on peut utiliser
rapidement infile.
Par ailleurs, pour le cas des fichiers textes où aucun caractère particulier n’est utilisé pour
séparer les variables, l’on dispose des commandes infix et infile.
Remarque :
Dans Stata, l’indicateur de décimal c’est le point (.). Avant d’importer un fichier, notamment
les fichiers csv, Il est opportun de s’assurer que c’est le point (.) et non la virgule qui est utilisé
comme séparateur de décimal.
3.3 Sauvegarde d’un fichier

Après création, ou encore, lecture et modification d’un fichier de données, il peut s’avérer
nécessaire de sauvegarder ce dernier. La commande save tel que présentée ci-dessous permet
de réaliser cette action.
save nomfichier
save “C:/adresse…/nomfichier.dta”
save nomfichier, replace
Lorsque le chemin n’est pas spécifié, la base est stockée par défaut dans le répertoire actif
(l’environnement de travail). L’option replace est utilisée pour enregistrer les modifications
apportées à une base de donnée existante. Dans le cas de l’enregistrement d’une nouvelle base
de données, on n’utilise pas cette option.
Pour enregistrer les données dans format compatible avec les versions antérieures notamment
les versions 9 et 10, on utilise la commande saveold.

4 Quelques éléments du langage Stata

4.1 Les opérateurs
Au cours de l’utilisation de Stata, on est souvent amené à réaliser bon nombre d’opérations.
Le tableau ci-dessous présente quelques opérateurs dans le langage de programmation de
Stata.
Opérateur arithmétiques Opérateur de comparaison Opérateur logiques
+ addition > supérieur & et

- soustraction < inférieur | ou
* multiplication >= supérieur ou égal ! négation
/ division <= inférieur ou égal ~ négation
^ puissance == égale
~= différent
+ concaténation de chaines != différent
Il faut noter ici que l’égalité dans la syntaxe Stata est traduite par le symbole == et non le
symbole =. En effet ce dernier renvoie plutôt à l’affectation.
4.2 Les données manquantes

Par défaut, Stata représente les données manquantes numériques par le point (.). Elle est
considérée comme la valeur la plus numérique plus élevée. Cela implique des précautions
lors de création de conditions logiques utilisant des comparaisons.
Par exemple, la condition (age>21) sera vrai pour tous les individus âgés de plus de 21 ans
mais également pour les données manquantes puisque suivant le système de programmation
de Stata, 21 est inférieur à la valeur manquante (.). Ainsi, pour sélectionner les individus
âgés de plus de 21 ans, on pourrait utiliser la condition suivante
(age>21) & (age<.)
Ceci étant, les versions récentes de stata (11,12, ..) admettent 26 autres valeurs manquantes
numériques, désignées par « extended missing values »2 suivant la terminologie anglo-
saxonne. En effet, il peut par exemple être important lors d’une enquête de différencier les
données manquantes pour lesquelles l’interviewé ne connaissait pas la réponse à la question,
de celles issues de refus de réponse de ce dernier ou encore des cas où la question n’a
simplement pas été posée.
Pour ces valeurs manquantes, leurs symboles sont constitués du caractère point (.) suivi d’une
lettre de l’alphabet.
exemple : .a .b .c
2 La valeur manquante numérique par défaut (.) est appelé ‘system missing value’ (sysmiss)

Ces valeurs manquantes sont ordonnées et sont toutes supérieures à la valeur manquante par
défaut, à savoir le point (.) . Ainsi, on a l’ordre suivant :
Valeurs numériques < . < .a < .b < .c < … < .z
Concernant les chaines de caractères, c’est la chaine de caractère vide "" qui est considérée,
comme valeur manquante par défaut. Elle est la plus petite valeur pour les chaines de
caractères.
4.3 Quelques variables système et constantes

Dans la syntaxe Stata, il est défini un certain nombre de scalaires et variables standards que
le logiciel reconnait automatiquement. Ceux-ci, généralement appelés variable système,
possèdent des noms réservés. Ces noms commencent ordinairement par l’underscore (_). On
distingue notamment parmi ces variables :
_pi : la valeur de  (l’approximation machine de pi)
_N : le nombre d’observations dans la base
_n : le numéro de l’observation courante
_all : une chaine qui remplace la liste de toutes les variables dans la base.
4.4 Les commentaires dans Stata

Il existe trois façons principales façon d’insérer des commentaires dans un fichier de syntaxe.
(i) Le symbole * peut être placé uniquement au début d’une ligne signifiant que celle-
ci doit être ignorée durant l’exécution ;
(ii) Le symbole // peut s’utiliser en début de ligne ou à la fin d’une instruction. Dans
ce dernier cas, il doit être séparé de l’instruction par au moins un espace. Tout ce
qui se trouve après ce symbole est ignoré ;
(iii) Les symboles /* et */ peuvent être utilisés pour délimiter un commentaire. Tout ce
qui se trouve entre ces deux symboles est ignoré lors l’exécution
4.5 Format de la base des commandes de Stata

En général, dans Stata les commandes de syntaxe de base obéissent à la structure suivante.
[prefix :] command [varlist] [=exp] [if] [in] [weight] [using filename] [, options]
Les crochets encadrant certains éléments signifient que ceux-ci sont optionnels. En effet, il
n’est pas obligé que tous les éléments ci-dessus listés apparaissent dans une commande.
Nous intéresserons à cas particulier de ce format, celui où le préfixe fait intervenir
l’expression clé « by ». Le format se présente alors sous la forme :
[by varlist:] command [varlist] [=exp] [if] [in] [weight] [using filename] [, options]
4.6 Le système d’abréviation

Stata fournit une fonctionnalité intéressante, à savoir l’abréviation des commandes. En effet,
il n’est pas nécessaire de saisir intégralement les noms des commandes. Celles-ci sont

généralement identifiées par des mots clés constitués des premières lettres de leurs noms. En
référant à l’aide ou à la documentation pour une commande donnée, les premières lettres qui
constituent le mot clé pour celle-ci apparaissent soulignées. Par exemple pour la commande
use le mot clé c’est « u ». Ces mots clés représentent le nombre de caractères minimal
nécessaire pour identifier la commande. Ainsi les trois instructions ci-dessous sont toutes
identiques.
u auto.dta
us auto.dta
use auto.dta
Cette fonctionnalité peut permettre un gain temps significatif lors de l’élaboration d’un do-
file et elle diminue également les risques d’erreurs sur les noms des commandes.
Remarque : bien que cette fonctionnalité soit très pratique, il faut éviter d’en abuser. En effet
pour plus de lisibilité dans un fichier de syntaxe, il peut être opportun de conserver un
minimum de caractères (bien au-delà du mot clé) dans le nom de la commande. Par exemple,
dans le cas de la commande use. Ecrire la commande en toute lettre permet d’avoir une
meilleure clarté dans le fichier de syntaxe d’autant plus que le nom de la commande est assez
court.
5 Inspection de la base de données

5.1 describe
La commande describe donne des renseignements généraux sur la base de données. Elle
fournit entre autre le nombre d’observations, le nombre de variable, l’espace mémoire occupé
par la base, la liste des variables ainsi que leurs types et leurs étiquettes.
describe
describe peut également être utilisé en spécifiant une liste de variable que l’on veut décrire.
La commande ci-dessous décrit toutes les variables de la base de données dont le nom
commence par la lettre a
d a*
descrire possède une version simplifiée. Il s’agit de la commande ds (pour describe short en
anglais). Elle liste les noms des variables présentes dans la base.
ds a* /* nom de toutes les variables commençant par a */
5.2 codebook
codebook fournit pour chaque variable présente dans la base de données un certain nombre
de caractéristiques, notamment le nombre de données manquantes et des statistiques
descriptives. Pour les variables numériques, la plage des valeurs est présentée. Lorsque la
variable est discrète et a un faible nombre de modalités, un tableau des effectifs est produit.
Pour les variables de type chaine de caractères, un échantillon des modalités de la variable est
présenté.
Tout comme avec la commande describe il est possible d’appliquer codebook à un nombre
restreint de variable

codebook //entraîne la description de l’ensemble de la base
codebook v1 v2 //entraîne la description des variables v1 et v2
5.3 inspect
inspect fournit des éléments d’information pour chaque variable de la base tout comme
codebook. Toutefois, elle est moins performante que cette dernière. inspect renseigne
notamment sur le nombre de valeurs manquantes, le nombre de valeurs positives, négatives
et nulles. Il donne également un aperçu de la distribution des modalités.
6 Manipulation des variables

6.1 Renommer une variable
Il peut être utile de renommer des variables pour leur donner des noms plus appropriés. La
commande rename (abrégée ren) permet d’effectuer ces modifications. La commande ci-
dessous modifie le nom de la variable gender et la renomme en « sexe »
rename gender sexe
6.2 Réorganiser les variables dans la base

Pour réorganiser les variables dans la base, on utilise la commande order. Cette commande
permet de déplacer un ensemble de variables et de les positionner dans un endroit spécifié,
dans l’ordre dans lequel elles ont été listées. Lorsqu’aucune position n’est spécifiée, les
variables listées sont positionnées par défaut au début.
La commande ci-dessous repositionne les variables response_03 et response_01
respectivement comme première variable et deuxième variable de la base.
order response_03 response_01
order peut être utilisé pour redéfinir le positionnement global des variables dans la base. Il
suffit de toutes les listées dans l’ordre dans lequel on veut les voir apparaitre. On peut par
exemple l’utiliser pour classer les variables dans l’ordre alphabétique.
6.3 Supprimer ou conserver des variables

Les commandes keep et drop permettent de supprimer ou de conserver les variables. Ces deux
commandes se rapportent à la suppression des variables inutiles de la base de données. En
effet, la commande keep permet de spécifier ce qu’on veut garder (et tout le reste sera
supprimé) tandis que la commande drop indique ce que l’on veut supprimer.
Selon que l’on veut supprimer ou ne converser que des variables précises, il suffit les lister
après l’instruction drop ou keep.
drop sexe age
keep sexe age

La première commande ci-dessus supprime les variables sexe et age de la base de données,
alors que la seconde supprime toutes les variables de la base et ne conserve que les variables
sexe et age.
6.4 Définir des étiquettes de variables et de modalités

La commande label permet la gestion, la manipulation des labels (étiquettes) dans fichier de
données. On distingue principalement 3 types de labels :
(1) le label de la base de données : c’est une étiquette qui permet de décrire l’ensemble des
données tout entier. Pour le définir, on utilise la commande label data.
label data "base de données client"
(2) le label de la variable : pour une variable donnée, c’est une étiquette qui permet de décrire
le contenu de la variable. La commande utilisée est label variable
label variable ed "niveau d'éducation"
(3) le label des valeurs d’une variable : ce sont des étiquettes utilisées pour décrire les valeurs
ou les modalités prises par une variable donnée. Dans Stata, la prise en main des labels des
valeurs est un peu particulière car ceux-ci sont gérés de façon indépendantes par rapport
variable. Par exemple dans une base de données, on peut vouloir créer des labels des
valeurs pour la variable sexe qui prend les valeurs 1 et 2 correspondant à respectivement
« masculin » et « féminin ». Pour ce faire on va tout d’abord créé un label value qui décrit
les valeurs 1 et 2 comme étant masculin et féminin
label define masfem 1 "masculin" 2"feminin"
La commande ci-dessus crée un label de valeurs « masfem » dans la base, qui décrit les
valeurs 1 et 2 comme étant masculin et feminin. Toutefois ce label bien que présent dans
la base de données est indépendant de la variable sexe. Il peut être utilisé aussi bien avec
la variable sexe qu’avec n’importe quelle autre variable de la base. Pour utiliser ce label
pour décrire la variable sexe, on va l’appliquer à ce dernier.
label value sexe masfem
Il est également possible de voir le contenu d’un label de valeurs, de le modifier, de
l’associer à plusieurs variables et d’annuler une association qui a été faite.
label list masfem //voir le contenu
label value sexe . // annule l’association
Aussi, il est important de préciser qu’un label de valeur qui n’est rattaché à aucune variable
ne pourra être enregistré dans la base.
6.5 Recoder une variable

La commande replace
La commande replace permet de modifier ou de remplacer le contenu d’une variable.
replace var=1

La commande ci-dessus remplace toutes les valeurs de la variable var par 1

replace sexe= « m » if sexe== « masculin »
Cette commande recode la modalité « masculin » de la variable sexe en « m ».
replace peut également être utilisé pour modifier les données manquantes.
replace var=9 if var==.
La commande recode
Elle fournit un moyen pratique de faire des recodages ou des regroupements des modalités
d’une variable catégorielle.
recode region (1 2=1) (3=2) (4/6=3) (mis=9)
L’instruction ci-dessus permet, pour la variable région, (i) de regrouper les modalités 1 et 2
et de les coder en 1 ; (ii) de coder la modalité 3 en 2 ; (ii) de coder la modalité allant de 4 à 6
en 3 (iv) de coder les valeurs manquantes en 9.
recode est très utile et offre beaucoup d’options. Il est possible par exemple possible de
spécifier des labels pour les modalités créées ou encore d’utiliser des mots tels que min, max
et else qui simplifient son utilisation
recode region (min/4=1 “zone1”) (else=2 “zone2”)
Dans la commande ci-dessus, les modalités de la variable région allant de la plus petite à la
modalité 4 sont codées en 1 et le reste en 2.
Par défaut, recode modifie directement la variable concernée. Il est possible d’enregistrer les
modifications dans une nouvelle variable et de garder intacte la variable initiale. Pour cela,
on utilise l’option gen comme dans l’exemple suivant :
recode region (1 2=1) (3=2) (4/6=3) (mis=9), gen(zone)
Cette commande crée une nouvelle variable zone par transformation de la variable région.
6.6 Créer des variables

Les deux principales commandes pour créer des variables sont generate (abrégé gen) et
egenarate (abrégé egen). La première fonction (generate) est généralement utilisée pour créer
des variables à partir de simples combinaisons d’autres variables. egenerate (en anglais
extensions to generate) permet l’utilisation d’un certain nombre que de fonctions spécifiques
(notamment les fonctions statistiques) pour la création de nouvelles variables.
Exemples d’utilisation de gen
gen var = 1 /*crée une variable qui prend la valeur 1
pour toutes les observations
gen age2=age^2 /*crée la variable age2 qui correspond au

carré de l’âge de l’individu.*/
gen adulte=(age>=18) /*crée la valeur adulte qui prend la valeur

1 lorsque l’individu est agé de 18 ans ou

plus. Toutefois cette commande codifiera

les valeurs manquantes en 1.*/
gen adulte=(age>=18) if !missing(age) /*permet de ne pas codifier

les valeurs manquantes*/
gen var= (sexe==1) crée une variable qualitative qui prend 1

lorsque la variable sexe prend la valeur 1
et 0 sinon. ATTENTION aux valeurs
manquantes !!
gen id= _n créer qui indique le rang ou le numéro de

ligne de chaque observation.
Exemples d’utilisation de egen
egen revmoy=mean(income) /*crée une variable dont les valeurs pour
toutes les observations sont égales au
revenu moyen.*/
egen sexe=group(gender) /*créer la valeur sexe qui prend un numéro

différent pour chacune des modalités de la
variable gender */
egen var=diff(var1 var2) /*crée une variable binaire qui prend 1 pour
les observations pour lesquelles les
variables var1 et var2 sont égales et pour
les autres.*/
egen var= rmean(var1 var2) /*crée une variable qui pour chaque
observation prend la valeur obtenue en
faisant la moyenne des variables var1 et
var2./
7 Manipulation des données

7.1 La commande clear
La commande clear efface ce qui est stocke en mémoire. Cette commande peut être utilisée
pour fermer une base de données. Elle ne propose pas d’enregistrer les modifications.
7.2 Trier les observations sort et gsort

La commande sort (abrégé so) permet de classer les observations par ordre croissant par
rapport à une ou plusieurs variables. La commande suivante classe les individus suivant le
sexe et l’age.
sort sexe age
La variable sexe étant codifiée en 2 pour les femmes et 1 pour les hommes, ces derniers seront
placés dans les premières lignes de la grille des données. La commande classera d’abord les
hommes du plus jeune au plus âgé ensuite les femmes dans le même ordre.
Remarque : la commande sort classe les données manquantes toujours à la fin.

La commande gsort est plus générale que la commande sort. En effet, elle permet de prendre
compte les cas classement par ordre décroissant et offre des options quand la prise en main
des données manquantes. Avec cette commande, pour que le classement soit effectué dans
l’ordre décroissant pour une variable donnée, il suffit de la précéder du signe moins (-).
gsort sexe -age
La commande ci-dessus va d’abord classer les hommes, mais cette fois ci du plus âgé au plus
jeune et ensuite les femmes dans le même ordre.
7.3 Filtrer les observations

Les commandes keep et drop précédemment étudiées dans le cadre de la suppression des
variables, permettent également de filtrer les observations. Tout comme dans le cas précèdent,
la commande keep permet de spécifier ce qu’on veut garder (et tout reste sera supprimé)
tandis que la commande drop indique ce que l’on veut supprimer.
Plusieurs critères peuvent être utilisés pour les spécifier les observations que l’on veut garder
ou supprimer.
On a très souvent recours aux conditions logiques pour identifier ces individus.
keep if age<=4
L’instruction ci-dessus permet de garder que les individus âgés de 0 à 4 ans.
drop if sexe==2 | age>4
Cette instruction commande permet de ne retenir que les garçons de moins de 5 ans. (en
rappel la variable sexe est codifiée en 2 pour les femmes).
On peut également sélectionner des observations à partir de leurs numéros de ligne
drop in 3/10
Cette commande supprime les individus de la ligne 3 à la ligne 10
keep if _n<=100
Cette commande garde les 100 premières observations.
8 Quelques commandes utiles
8.1 La commande summarize

Abrégée sum, cette commande calcul des statistiques pour une ou plusieurs variables de la
base de données. Si aucune variable n’est spécifiée, les statistiques sont calculées pour toutes
les variables de la base. Summarize s’applique aux variables numériques et produit les
statistiques suivantes : le nombre d’observations, la moyenne, l’écart type, les valeurs
minimales et maximales de la variable.
8.2 La commande tabulate

Elle permet d’effectuer des tris à plat pour les variables qualitatives. Elle propose à cet effet,
plusieurs options pour la construction de ces tableaux d’effectifs.

Elle permet également la construction de tableaux de contingence en croisant plusieurs

variable qualitative.
8.3 La commande display

La commande display permet d’afficher dans la fenêtre results des chaines de caractères et les
résultats des expressions. Cette commande est très utile dans la mesure où elle permet à
l’utilisateur de pourvoir également utiliser Stata comme une calculatrice et de pourvoir
afficher les valeurs contenu dans des scalaires
display 1+1 // réalise l’opération et affiche 2
display sin(pi_/3)
display(_N) // affiche le nombre d’observation dans la

base.
8.4 Quelques fonctions mathématiques

Les fonctions mathématiques sont souvent utilisées lors de la création de nouvelles variables
le tableau ci-dessous présente quelques-unes qui peuvent être utile.
Commande Stata Description de la commande
abs (x) valeur absolue de x
ln(x) ou log(x) Logarithme népérien de x
log10(x) Logarithme de base 10 de x
floor(x) fonction partie entière
round(x) arrondi de x
mod(x,y) reste de la division entiere de x par y

Introduction - Stata - ISMS PDF

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Introduction - Stata - ISMS PDF

Hochgeladen von

Copyright:

Verfügbare Formate

REPUBLIQUE ISLAMIQUE DE MAURITANIE

Institut Supérieur de Métiers de la Statistique

Celestin SEMEVO, Ingénieur Statisticien Economiste

Introduction à Stata [1]

Introduction à Stata [2]

Introduction à Stata [3]

Dans cette vue, on distingue 5 fenêtres

Introduction à Stata [4]

1.2 Les autres fenêtres

1.3 La barre des menus Stata

1.4 Les types de fichiers

Introduction à Stata [5]

 .dta : fichier de données formatées pour Stata

2 Paramétrage de la session de travail

2.1 Allocation de la mémoire

2.2 Repertoire ou environment de travail.

2.3 Utilisation d’un fichier log

Introduction à Stata [6]

log on \* reactivation du fichier log*\

3 Lecture et sauvegarde d’un fichier de données

3.1 Ouvrir un fichier de données Stata (.dta)

3.2 Lecture à partir d’une source externe

Introduction à Stata [7]

3.3 Sauvegarde d’un fichier

Introduction à Stata [8]

4 Quelques éléments du langage Stata

Opérateur arithmétiques Opérateur de comparaison Opérateur logiques

+ addition > supérieur & et

4.2 Les données manquantes

Introduction à Stata [9]

4.3 Quelques variables système et constantes

4.4 Les commentaires dans Stata

4.5 Format de la base des commandes de Stata

4.6 Le système d’abréviation

Introduction à Stata [10]

5 Inspection de la base de données

Introduction à Stata [11]

codebook //entraîne la description de l’ensemble de la base

codebook v1 v2 //entraîne la description des variables v1 et v2

6 Manipulation des variables

6.2 Réorganiser les variables dans la base

6.3 Supprimer ou conserver des variables

Introduction à Stata [12]

6.4 Définir des étiquettes de variables et de modalités

6.5 Recoder une variable

Introduction à Stata [13]

La commande ci-dessus remplace toutes les valeurs de la variable var par 1

6.6 Créer des variables

gen age2=age^2 /*crée la variable age2 qui correspond au

gen adulte=(age>=18) /*crée la valeur adulte qui prend la valeur

Introduction à Stata [14]

plus. Toutefois cette commande codifiera

gen adulte=(age>=18) if !missing(age) /*permet de ne pas codifier

gen var= (sexe==1) crée une variable qualitative qui prend 1

gen id= _n créer qui indique le rang ou le numéro de

egen sexe=group(gender) /*créer la valeur sexe qui prend un numéro

7 Manipulation des données

7.2 Trier les observations sort et gsort

Introduction à Stata [15]

7.3 Filtrer les observations

8 Quelques commandes utiles

8.1 La commande summarize

8.2 La commande tabulate