Beruflich Dokumente
Kultur Dokumente
SAMBA MBAYE Enseignant Chercheur UGB - CERDI E-mail: sambambayeptci@yahoo.fr Avril 2011
Limites
Sa seule limite actuelle est la gestion de trs grosses bases de donnes.
Il faut toujours avoir un et un seul fichier pour chaque projet. Ce projet va contenir les donnes, les codes sources et les rsultats, ainsi que les rapports ventuels.
ANALYSE DESCRIPTIVE
Les commandes suivantes: inspect [nom de la variable] cette commande permet de faire des statistique sur le nombre des valeurs positives,ngative etc.. list[nom de la variable] affiche les valeurs prises. Codebook statistiques sur chaque valeur prise par les variables. La commande tabulate permet de crer des tableaux. La commande summarize (statistique descriptive,moyenne, cart type, )
La commande summarize
On peut aussi utiliser le diminutif sum ou su On peut faire suivre la commande sum, plusieurs variables. Cela permet de voir ltat global de la base de donnes. su nom de la variable, detail permet davoir toutes les informations sur la variable en question.
La commande if
if permet de nappliquer la commande quaux observations remplissant une condition particulire. Syntaxe : commande variable if condition. Exemple: sum eau if region == Dakar.
Exemple
N Amadou Boubacar Sophie Joseph Aminata Khady Alex Fatou Malick Abibatou Mamadou sexe 1 1 0 1 0 0 1 0 1 0 1 ressources 1 1 0 0 1 0 1 0 1 0 1 examen 6 9 14 11 10 13 15 16 13 12 10 mention
Labellisation
Pour labelliser une variable, on peut crire directement la commande suivante: label var nom de la variable puis le label (label var n Noms des personnes). Pour labelliser une variable avec plusieurs modalits, on doit procder comme suit: label define sexe 1 masculin 0 feminin label values sexe sexe Pour ajouter un label on procde comme suit: label define sexe 3 "perhaps", add label define sexe 3 "maybe", modify
label define ressources 1 Boursier 0 non boursier label values ressources ressources. bysort ressources : ta mention
Les graphiques
Faire des graphiques avec stata nest pas une chose simple. Nous prsentons les commandes nous permettant de faire des graphiques simples. Pour obtenir un graphique circulaire: graph. pie nom des variables Exemple: graph pie eau ecole_prim sante commerce route On peut afficher les graphiques par rgion aussi: Exemple: graph pie eau ecole_prim sante commerce route, by(region)
Autres exemples
twoway line age examen, title(volution des rsultats suivant lage) note(source: scolarit) ytitle(age) xtitle(notes) sort note
Fichier do ou do file
Pour crire un programme il faut ouvrir un fichier do. Donner un nom ce fichier.
Prambules
- #delimit Il permet de dlimiter les diffrentes instructions par un point virgule. version 9.1; clear; capture log close; - log using samba.log, text replace Il cre un fichier ou sera enregistr lensemble des rsultats du programme effectu. - set memory 100m Permet dallouer une mmoire vive stata. Cela permet douvrir des bases assez lourdes. - Set matsize 100 : permet de spcifier la taille de la matrice des donnes. - Use[nom de la base] permet dappeler la base utiliser pour effectuer le programme. Ici, il faut bien spcifier le le chemin (dans le cas contraire, le programme ne tournera pas). - A la fin de chaque programme faire un log close pour fermer le fichier log ( pas toujours ncessaires).
Objets de lconomtrie
Reprsentation de modles conomiques sous une forme empiriquement testable: la recherche de spcification empirique. Estimation et tests d'hypothse sur des modles partir de donnes observes: l'infrence. Utilisation de modles des fins de prvision ou d'analyse de politiques.
De faon schmatique
Thorie conomique
Modle empirique
Donnes
Estimations
Dangers de lanalyse
Utiliser la thorie seulement sans valuation empirique. d'analyser des corrlations empiriques sans rfrence la thorie conomique.
Les rgressions sont des outils qui permettent, entre autre, destimer leffet marginal de la variation dune unit de la variable indpendante sur la variable dpendante. On peut, par exemple, tester des thories conomiques, valuer limpact dune politique publique sur un chantillon de population ou mme de faire des prvisions
Maintenant la mthode consiste minimiser la somme des carrs du rsidu (lerreur), do le nom de moindres carrs. Ce programme de minimisation aboutit au rsultat suivant: b = (XX)-1 XY
dmonstration
La SCT permet de connatre la variabilit totale de la variable explique. Ceci est mesure par la distance qui spare les valeurs observes et leur moyenne.
N
SCT=
i !1
( yi y)
SCT peut-tre dcompose en deux parties: La variabilit des valeurs ajustes (SCE) ou variabilit explique et la variabilit des rsidus.
Dmonstration
En fait
( yi y ) ! ( yi y ) ( yi yi ) (yi y) ! (yi y) (yi yi)
Dmonstration
Variabilit totale = variabilit explique + variabilit rsiduelle
Qualit ajustement
Plus le SCE est proche de la SCT, meilleur est lajustement Plus le R2 est proche de 1, meilleur est lajustement . Cependant ce coefficient nest pas pertinent pour comparer le pouvoir explicatif plusieurs modles ne comprenant pas le mme degr de libert.
Qualit de lajustement
Se baser sur R carr pour apprcier le modle peut conduire lerreur. Par exemple un R carr faible peut-tre justifier par labsence de certaines variables explicatives. Il peut aussi tre biais la hausse si le nombre de variables indpendantes est lev. Il est prfrable dutiliser le R carr ajust. SCR ( N K ) 2 2 K 1 2 R !R (1 R ) ! 1 N K SCT ( K 1)
Qualit de lajustement
Le test de significativit globale du modle (significativit globale du modle F de Fischer). La formule du test de fisher: R / K 1) F[K 1, n K] ! 2 (1 R ) /(n K)
2
Qualit de lajustement
Le test de student.
Qualit ajustement
MSE : Mean Square Error : Il sagit de la valeur espre de lerreur au carr. Il permet de dterminer si le modle nest pas adapt au donnes utilises ou bien sil peuttre simplifi en enlevant certaines limites. Root MSE: cest la racine carr de MSE. En statistiques, l'erreur quadratique moyenne ou MSE d'un estimateur est une des nombreuses faons de quantifier la diffrence entre un estimateur et la vraie valeur de la quantit estime. Lidal cest davoir une EQM = 0 dans ce cas on a une prcision parfaite. Cependant dans la ralit cette situation narrive jamais.
Test dautocorrlation
En panel on utilise la commande xtserial pour faire le test dautocorrlation. Il sagit du test de wooldridge pour dtecter lautocorrlation.
Introduction
Les modles des variables qualitatifs sont dvelopps pour la premire fois par Berkson(1944,1951). Il sagit essentiellement des modles (probit et logit). Les premires applications taient faites dans le domaine de la biologie de la sociologie et de la psychologie. Les conomistes lutilisent vers les annes 70 avec les travaux de Daniel Macfadden(1974) et James Heckman(1976).
Le modle qualitatif
Supposons lexistence dun caractre qualitatif qui peut prendre K modalits distinctes Si k=2 on dit que la variable est dichotomique; si k>2 on dit que la variable est polytomique. Maintenant la question cest comment intgrer un caractre qualitatif dans un modle conomtrique?
exemples
Le type dtudes suivi par un tudiant: (universitaire,cole dingnieur etc) . La catgorie socio-professionnelle (ouvrier, employ, cadre .) . Le fait dtre ou non au chmage Comment doit on reprsenter ces diffrents caractres qualitatifs. La rponse naturelle consiste coder les diffrentes modalits.
Yi =0 si lvenement sest ralis pour lindividu i Yi=1 si lvenement ne sest pas ralis pour lindividu i
Ici on modlise non pas la variable dpendante y mais la probabilit quelle prenne la valeur 1 ou 0. Pour modliser cette probabilit, on suppose quil existe une variable latente y* telle que: y=1 si y*0 et y= 0 si y*0.
Les modles dichotomiques probit et logit admettent pour variable explique, non pas un codage quantitatif associ la ralisation dun vnement (comme dans le cas de la spcification linaire), mais la probabilit dapparition de cet venement, conditionnellement aux variables exognes: Ainsi, on considre le modle suivant :
La mthode destimation
La mthode destimation appropri est celle du Maximum de vraisemblance. La vraisemblance cest la probabilit dobserver un chantillon sachant les paramtres du modle qui ont engendr les observations. Maximiser la vraisemblance consiste alors chercher la valeur des paramtres telle que lobservation de lchantillon soit la plus probable.
applications
probit foreign weight mpg logit foreign weight mpg Quand par exemple la variable weight a un coef ngatif et significatif cela veut dire comme interprtation quil est peu probable que des cars lourds proviennent de ltranger.
Dfinitions
Un panel: Il sagit dobservations sur un ensemble dindividus plusieurs moments du temps Exemple: les enqutes mnage sur la pauvret: un chantillon de mnage observ sur plusieurs priodes.
Men2
X1,2
Men30
X1,30
X2,1
X2,2
X2,30
..
X17,2
.
X17,30
Inconvnients
Prsence dobservations aberrantes qui peut entrainer la perturbation de la qualit des estimations Observations non renseignes.
Crons un identifiant individuel et temporel soit ident lidentifiant individuel et temp identifiant temporel pour crer ident, on crit: egen ident = group(nom de lobservation individuelle) pour lidentifant temp il sagit juste de la variable temps.
Il faut maintenant dclarer les identifiants en faisant: tis nom de lidentifiant: pour lidentifiant temporel iis nom de lidentifiant : pour ce qui de lidentifiant individuel
Le test de Hausman
Le test de hausman nous permet de savoir entre les effets fixes et les effets alatoires, quel est le modle choisir? La syntaxe: xtreg, ., fe est store eq1 Xtreg, , re hausman eq1
Le test de Hausman
Si la probabilit obtenue est infrieure 10%, cela signifie que le modle effets fixes est prfrable au modle effets alatoires.