Beruflich Dokumente
Kultur Dokumente
Soit X=( , … , ) un vecteur aléatoire. Dans le cas Loi faible des Loi forte des
multidimensionnel, l’espérance scalaire est remplacée par un Théorème Central Limite
grands nombres grands nombres
vecteur << espérance>>.
Soit , … , une suite Soit , … , une suite Soit , … , une suite de
E(X)= ( ( ), … , ( ))
de variables aléatoires de variables aléatoires variables aléatoires
La variance unidimensionnelle est remplacée par la matrice indépendantes et de indépendantes et de indépendantes et de
de variance-covariance. Elle contient les variances en même loi telle que : même loi telle que : même loi telle que :
diagonale et les covariances ailleurs. On la note
( )= ( )= ( )= ( )= ( )= ( )=
généralement ∑ .
Alors : Alors : Alors :
( ) … ( , )
.
= ⋮ ⋱ ⋮ ∑ → ∑ → √ ( , )
( , ) ⋯ ( )
Statistique inférentielle
Echantillon / Estimateur Estimateur convergent Construction d’un estimateur
Le point de départ est un vecteur (ou un tableau
Un estimateur est dit convergent s’il Méthode du maximum de vraisemblance
dans le cas multidimensionnel) de données.
converge en probabilité vers le La méthode de maximum de vraisemblance consiste à affecter la valeur qui maximise la
Ces données peuvent être vues comme les paramètre à estimer : probabilité d’observer ( , , … , ) lorsque l’aléa du vecteur ( , , … , ) tombe. Sans trop
réalisations ( , ,…, ) d’une variable → rentrer dans la théorie de la vraisemblance, nous allons présenter un algorithme en cinq
aléatoire X qui dépend d’un certain paramètre étapes pour calculer cet estimateur (qui présente des propriétés assez séduisantes) :
En pratique, tout estimateur sans biais
que nous allons chercher à estimer.
et dont la variance tend vers 0 est Etape 1 : Calculer la fonction de vraisemblance :
convergent.
Pour ce faire, nous allons construire un ( , )= ∏ ( ) dans le cas continu, ou ( , ) = ∏ ( = ) dans le cas discret.
échantillon de cette variable. Un échantillon
( , , … , ) est un n-uplet de variables Estimateur optimal Etape 2 : Calculer le log-vraisemblance :
aléatoires indépendantes et qui suivent tous la Il s’agit de calculer un maximum, ce qui revient à dériver. Il s’agit ici d’un produit de n facteurs
même loi (celle de X). Qualité d’un estimateur
ce qui rend la dérivation assez coriace. La fonction logarithmique présente des propriétés
La qualité d’un estimateur est mesurée à assez sympas pour faciliter cette tâche.
Ceci dit, un estimateur de est une fonction = travers son erreur quadratique moyenne
( , , … , ) de notre échantillon de base et Etape 3 : Calculer la dérivée de la log-vraisemblance.
définie par :
dont on connaît la loi de probabilité. Etape 4 : Résoudre l’équation d’inconnue ∶:
=( , ) +
Lorsque l’aléa tombe, = ( , , … , ) est une (ln( ))
Comme nous cherchons tout le temps = 0 => =
estimation de . Le but de ce cours est de
construire le meilleur estimateur possible de . (presque) des estimateurs sans biais, il reste à
Etape 5 : Vérifier qu’il s’agit d’un maximum : effectivement en s’assurant que :
comparer les variances.
Un estimateur est meilleur que si : (ln( ))
Estimateur sans biais < ( )
< 0
Test d’hypothèses
En test d’hypothèse, nous cherchons à faire valoir une hypothèse en dépit d’une autre, qui lui est contradictoire.
On appellera la première (celle dont le rejet à tort sera le plus préjudiciable) « Hypothèse nulle » et la deuxième « Hypothèse alternative ».
Réalité
vraie fausse
Garder Risque de
1−
Décision deuxième espèce
Rejeter
1−
Les calculs qui se cachent derrière le choix de l’hypothèse à garder sont compliqués. Mais BONNE NOUVELLE, la machine fera tour à notre place. Il suffit
juste de suivre correctement la méthode :
Le tableau qui va suivre est à lire avec la plus grande des attentions.
Constructions d’Intervalles de confiance
´ ´
L’équation az²+bz+c = 0, où a, b et c sont Re (z) = Im (z) =
des réels (avec a ≠ 0) admet dans C deux est réel ⇔ = ; est imaginaire pur ⇔ = −
solutions (éventuellement confondues).
Soit ∆= ² − le discriminant de
l’équation. ∆ est un nombre réel.
Forme trigonométrique
Si ∆≥ 0, les deux solutions sont réelles
Dans le plan rapporté à un repère orthonormal, au nombre complexe z=a+bi,
√∆ √∆
= et = On peut associer le point M (a,b). z=a+bi est l’affixe de M.
Tout nombre complexe non nul z peut être écrit sous la forme
Si ∆≤ 0, on peut écrire ∆= ( ) ² avec
= ( + ) , avec ϵ R et r ϵ R*+
les deux solutions sont alors des nombres
C’est la forme trigonométrique de z.
complexes, (conjugués l’un de l’autre)
r est le module de z. r=| z | .
= et = Si = ( + ) alors :
Le trinôme az²+bz+c se factorise sous la = ( (− ) + (− ))
forme a(z- )(z- ) − = ( ( + )+ ( + ))
Programmation sous R
Avoir de l’aide Vecteurs Programmation
Accéder à l’aide Créer des vecteurs BOUCLE for BOUCLE for
?fonction : Accéder à l’aide d’une fonction. Commande Retour Commentaire for (variable in sequence) { while (condition) {
Rassembler des instructions} instructions}
Help.search(‘fonction’) : Chercher de
c(2,4,6) 246 éléments dans un
l’aide d’une fonction.
vecteur
Help (package = ‘MASS’) : Trouvez de 234 Créer une
2 :6
l’aide pour un package. 56 séquence d’entiers
Créer une
En savoir plus sur un objet 2.0
seq(2,3, séquence entre 2
2.5
Str (objet) : Avoir un résumé sur un objet. by=0.5) et 3 avec un pas de CONDITION if BOUCLE for
3.0
0.5
Class(objet) : Connaitre la classe de if (condition) { nom_de_fonction ← function (variable){
rep(1:2, 121 Répéter le vecteur
l’objet. instructions instructions
times = 3) 212 1:2 3 fois.
} else { return (nouvelle_variable) }
Répéter chaque
rep(1:2, 111 Instructions différentes}
élément du vecteur
Packages each = 3) 222
1:2 3 fois.
Créer des vecteurs
install.packages (‘MASS’) : Télécharger et
sort(x) : Trier le vecteur x.
installer un package.
rev(x) : Renverser le vecteur x.
library (‘MASS’) : Importer un package et table(x) : Compter les occurrences. Ecrire et lire les données
rendre toutes ses fonctions accessibles. unique(x) : Cherche les valeurs uniques.
Lecture Ecriture Description
MASS :: select : Utiliser une fonction Sélectionner les éléments d’un vecteur
particulière. df ← read.table (‘fichier.txt’) write.table (‘fichier.txt’) Lire / Ecrire un fichier.
Par position
data (iris) : Importer un dataset de R (ici iris). x[4] :Retourner le 4ème élément.
x[-4] :Retourner tout sauf le 4ème élément. Lire / Ecrire un fichier csv
x[2:4] :Retourner les éléments du 2ème au df ← read.csv (‘fichier.csv’) write.csv (df, ‘fichier.csv’) (comma seperated value). C’est
4ème. un cas particulier de read/write.
x[-(2:4)] :Retourner tout sauf les éléments du Lire / Ecrire un fichier avec une
Répertoire 2ème au 4ème . load (‘file.RData’) save (df, file = ‘file.RData’) extension .R C’est un type de
x[c(1,5)] :Retourner les 1ér et 5ème éléments. fichier particulier à R.
getwd () : Trouver le répertoire de travail . Par position
setwd (‘C://fichier/chemin’) : Changer le x[x == 4] :Retourner les éléments égaux à 10.
répertoire de travail courant. x[x<0] :Retourner les éléments négatifs.
x[x%in%c(1,2,5)] :Retourner les éléments Conditions
contenus dans la liste. a == b Est-ce que a est égal à b ? is.na(a) Y’a-t-il une valeur manquante dans a ?
Par nom
a != b Est-ce que a est différent à b ? is.null(a) Y’a-t-il du contenu dans a ?
Aller sur le menu (Projects) sur Rstudio x[‘apple’] :Retourner les éléments qui
s’appellent ‘apple’. a > b Est-ce que a est strictement supérieur à b ? a >= b Est-ce que a est supérieur ou égale à b ?
pour régler le répertoire de travail.
a < b Est-ce que a est strictement inférieur à b ? a <= b Est-ce que a est inférieur ou égal à b ?
Programmation sous R
Types Matrices Data Frames Facteurs
Commande Retour Commentaire m ← matrix ( x, nrows =3, ncols = 3) cut(x, breaks = 4)
Créer une matrice 3x3 à partir des éléments df ← data.frame (x= 1:3, y = c(‘a’,’b’,’c’) factor(x)
Retourne des valeurs Un dataframe est une liste particulière où
as.logical T, F, T de x. Transforme un
booléennes. tous les éléments ont la même longueur. Transforme x en vecteur numérique
Pour les valeurs facteur. en facteurs à 4
m[2,] : Sélectionner la 2ème ligne.
as.numeric 1, 0, 1 numériques (entières modalités.
Extraction (de listes)
ou réelles)
m[,1] : Sélectionner la 1ère colonne.
Chaine de caractères
as.character
‘1’, ‘0’,
(préférable aux
Statistiques
‘1’ df$x df[[2]]
facteurs) m[2,3] : Sélectionner le croisement de
lm(y ~ x, data = df) : Modèle linéaire.
Chaine de caractères la 2ème ligne et la 3ème colonne.
‘1’, ‘0’, glm(y ~ x, data = df) : Modèle linéaire
particulières avec généralisé.
‘1’ t(m) : Transposée de m.
as.factor des modalités summary : Avoir des informations sur un
levels : m%*%n : Multiplication matricielle. Mieux connaître le df
(fortement utilisées modèle.
‘1’, ‘0’ solve(m, n) : Résoudre l’équation mx = n.
en statistique) View (df) : Voir le dataframe. t.test(x, y) : Test de student sur la différence
solve(m) : Inverser m. Head (df) : Voir les 6 premières lignes. de moyenne.
Fonctions mathématiques nrow (df) : Nombre de lignes dans df. prop.test : Analyse de la variance.
ncol (df) : Nombre de colonnes dans df. aov : Test sur la différence de proportions.
log (x) : Logarithme de x. Listes dim (df) : Taille de la matrice df. pairwise.t.test : Test de student pour les
exp (x) : Exponentielle de x. lst ← list ( x = 1:5, y = c(‘a’, ‘b’)) données appariées.
max (x) : Plus grand élément de x. Une liste est une collection de données qui Extraction (de matrices)
min (x) : Plus petit élément de x. peuvent ne pas être du même type. Distributions
round (x, n) : Arrondit x à n décimales. lst[[2]] : Retourne le 2ème élément de lst.
signif (x, n) : Arrondit x à n valeurs significatives. lst[1] : Retourne une nouvelle liste avec le
corr (x, y) : Coefficient de corrélation entre x et y. 1er élément de lst. Fonction Fonction
Quantile
sum (x) : Somme des éléments de x. lst$x: Retourne l’élément x de lst. densité de rép.
median (x) : Médiane des éléments de x. lst[‘y’]: Retourne une nouvelle liste avec
Normale dnorm pnorm qnorm
quantile (x) :Quantiles. l’élément y de lst.
rank (x) : Rangs des éléments de x. Combinaison
Poisson dpois ppois qpois
var (x) : Variance des éléments de x. Chaînes de Caractères
sd (x) : Ecart-type des éléments de x. Binomiale dbinom pbinom qbinom
paste(x, y, sep = ’’ ) : Uniforme dunif punif qunif
Affectation des variables Joint les deux vecteurs x et y.
paste(x, collapse = ’’ ) : Student dt pt qt
Joint les éléments du vecteur x.
ls() : Liste toutes les variables de . Khi-deux dchisq pchisq qchisq
grep(pattern, x) :
l’environnement. Trouve les occurrences d’une expression
rm(x) : Supprime la variable x de dans x. Graphiques
l’environnement. gsub(pattern, replace, x) :
Remplacer les occurrences de «pattern» par
rm(list = ls() ) : Supprime toutes les variables de «replace» dans x.
l’environnement. toupper(x) : Transforme en majuscules.
tolower(x) : Transforme en minuscules.
Sur l’interface de Rstudio, nous pouvons utiliser
toupper(x) : Transforme en majuscules.
la rubrique «environnement» pour mieux le
nchar(x) :Compte le nombre de caractères
gérer.
dans une chaîne.
Programmation sous Python
Variables et Types Listes Librairie
a = ‘is’ Importer les librairies
Affectation
b = ‘nice’
my_list1 = [‘my’, ‘list’, a, b] import numpy Importe la librairie Numpy.
x=5
my_list2 = [[4, 5, 6, 7], [3, 4, 5, 6]] Import numpy as np Importer NumPy avec un nom Data Analysis Machine Learning
x
Extraire les éléments d’une liste raccourci.
>>> 5
Calculs my_list1[1] Extraire l’élément d’indice 1. Importation de fonctions particulières
my_list1[-3] Extraire le troisième dernier élément.
x+2 Addition my_list1[1:3] Extraire les éléments ’indices 1 et 2. from math import pi Calcul scientifique Graphiques en 2D
>>> 7 my_list1[1:] Extraire les éléments après l’indice 0.
x–2 Soustraction
>>> 3
my_list1[:3] Extraire les éléments avant l’indice 3. Installation de python
my_list1[:] Copier la liste.
x*2 Multiplication my_list1[1][0] Extraire le premier élément de la sous-
>>> 10 liste d’indice 1.
x ** 2 Puissance Opérations sur les listes
>>>25 my_list Concatène la liste deux fois.
x%2 Reste my_list * 5 : Concatène la liste cinq fois.
>>> 1 Opérations avancées
x / float (2) Division Par position Platforme ouverte dédiée Environnement de Application web pour le
>>> 2.5 my_list.index(a) Extraire l’indice d’un élément. aux sciences des données développement développement
Types et conversion my_list.count ( a ) Compter les occurrences d’un développée sous Python inclus dans Anaconda
str () Convertit en ch de caractères élément.
int () Convertit en entiers my_list.append ( ‘!’ ) Ajouter un élément.
my_list.remove ( ‘!’ ) Supprimer un élément.
Tableaux
float () Convertit en réels
bool () Convertit en booléens del ( my_list [0 : 1 ] ) Supprimer les éléments my_list = [1, 2, 3, 4]
d’indices 0 et 1. my_array = np.array (my_list)
my_list.reverse ( ) Renverser la liste ( sens inverse ). my_2darray = np.array ([1, 2, 3], [4, 5, 6])
Aide my_list.pop ( -1 ) Supprimer le premier élément. Extraction d’éléments
my_list.insert ( 0 , ‘!’ ) Ajouter un élément en première my_array[1] Extraire l’élément d’indice 1.
>>> help (str)
position. my_array[0:2] Extraire les éléments ’indices 0 et 1.
my_list.sort ( -1 ) Trier la liste. my_2darray[:, 0] Extraire les éléments d’indice 1 de chaque axe du tableau.
Opérations sur les tableaux
Chaînes de caractères my_array > 3 Tester si chaque élément du tableau est strictement supérieur à 3.
array([FALSE, FALSE, FALSE, TRUE]).dtype = bool )
my_string = ‘ThisStringIsAwesome’ my_string [3] my_array * 2 : Calculer le double de chaque élément du tableau.
my_string ‘s’ array([2, 4, 6, 8])
‘ThisStringIsAwesome’ my_string [4:9] my_array + np.array ([5, 6, 7, 8]) : Additionner les tableaux terme à terme.
‘String’ array([6, 8, 10, 12])
Opérations Méthodes Fonctions de tableaux
Par position
my_string * 2 my_string.upper Tranformer en majuscules. my_array.shape Retourne les dimensions du tableau.
‘ThisStringIsAwesomeThisStringIsAwesome’ my_string.lower Tranformer en miniscules. np.append (other_array) Ajouter de nouveaux éléments au tableau.
my_string + ‘Innit’ my_string.count (‘w’) Compter le nombre d’apparitions np.insert(my_array, 1, 5) np.delete(my_array, [1]) Insérer/Supprimer des éléments au tableau.
‘ThisStringIsAwesomeInnit’ du caractère précisé ( ). np.mean(my_array) np.median(my_array) np.std(my_array) Calculer la
‘m’ in my_string my_string.replace (‘e’, ‘i’) Remplacer des caractères. moyenne/médiane/écart type des éléments du tableau ).
TRUE my_string.strip Enlever des espaces. my_array.corrcoef () Calculer le coefficient de corrélation.
Traitements de données sous Python
Pandas Extraction Manipulations de Base
Pandas est une librairie basée sur Accéder à un élément Supprimer des éléments
NumPy. Elle fournit des structures e s[‘b’]
données faciles à l’usage et des outils s.drop([‘a’, ‘c’]) Supprimer une valeur à partir d’une ligne.
-5 s.drop(‘Country’, axis = 1) Supprimer une valeur à partir d’une colonne.
pour le traitement et la fouille des df[1:]
données. Trier & Ranger
Import pandas as pd Country Capital Pop df.sort_index() Trier en fonction des indices / labels.
1 China Pekin 1303171035 df.sort_values(by = ‘Country’) Trier en fonction des modalités de la variable ‘Country’.
Structure de Données 2 France Paris 87847528 df.rank() Affecter un rang à chaque élément.
Series
Ils équivalent les listes sous R. Extraire un élément Récupérer des données
Une série est une structure de df.shape Retourne le nombre de lignes et de colonnes.
données unidimensionnelle et df.iloc[[0], [0]] Extraire un élément par ses coordonnées.
df.index Retourne le vecteur des indices.
indexée qui supporte tous les ‘Belgium’
df.columns Retourne le vecteur des colonnes du dataframe.
types de données. df.iat[[0], [0]] Idem.
df.info() Retourne des informations sur le dataframe.
s = pd.series ([3, -5, 7, 4], ‘Belgium’
df.count() Compter le nombre de données non-manquantes.
index = [ ‘a’, ‘b’, ‘c’, ‘d’]) df.iloc[[0], [‘Country’]] Extraire un élément par son label.
Data frame ‘Belgium’
df.sum() Calculer la somme des valeurs.
data = {‘Country’ :[‘Belgium’, ‘China’, df.at[[0], [‘Country’]] Idem.
df.cumsum() Calculer les sommes cumulées des valeurs.
‘France’], ‘Capital’ : [‘Brussels’, ‘Pekin’, ‘Belgium’
df.min() / df.max Calculer la valeur minimale / maximale.
‘Paris’], ‘Pop’ df.idmin() / df.idmax Retourne l’indice de la valeur minimale / maximale.
:[‘11190846,1303171035,207847528]} df.ix[2] Extraire une ligne à partir d’une série de lignes.
df.describe() Retourne des statistiques descriptives de base.
df = pd.Dataframe(data, columns = df.ix[:, ‘Country’] Extraire une colonne à partir d’une
df.mean() Calculer la moyenne des valeurs.
[Country’, ‘Capital’, ‘Pop’]) série de colonnes.
df.median() Calculer la médiane des valeurs.
df.ix[1:,’Country’] Extraire un croisement ligne/colonne.
Country Capital Pop
s[-(s>1)] Extraire les séries où s n’est pas > 1. Fonctions
0 Belgium Brussels 11190846
1 China Pekin 1303171035 s[(s<-1)|(s>2)] Extraire les séries où s est < -1 ou > 2. f = lambda x : x*2
2 France Paris 87847528 df[df[‘Pop’]>12000000] Mettre un filtre au dataframe. df.apply ( f ) Appliquer une fonction.
df.applymap (f) Appliquer la fonction élément par élément.
s[‘a’] = 6 Régler a de la série s à 6.
Alignement en mémoire
Ecrire et lire les données
A un indice manquant dans un tableau, on affecte une valeur manquante (NaN)
Lire/Ecrire sur un csv Lire /Ecrire sur SQL
s3 = pd.Series ([7, -2, 3], index = [‘a’, ‘c’, ‘d’])
pd.read_csv(‘fichier.csv’, header = None,
s + s3
nrow = 5) from sqlalchemy import create_engine
a 10.0
df.to_csv(‘monDataFrame.csv’) engine = create_engine (‘sqlite :/// :memory:’)
b NaN
pd.read_sql(‘select * from my_table;’, engine)
c 5.0
Lire/Ecrire sur un excel pd.read_sql_table(‘my_table’, engine)
d 7.0
pd.read_excel(‘fichier.xlsx’) pd.read_sql_query (‘select * from my_table;’, engine)
L’utilisateur peut intervenir dans l’alignement en mémoire avec la méthode « fill »
pd.to_excel(‘df.xlxs’, sheet_name =’Feuil1’)
s.add (s3, fill_value = 0)
a 10.0
lire plusieurs feuilles du même fichier pd.to_sql (‘myDF’, engine)
b -5.0
xlsx = pd.ExcelFile (‘fichier.xls’)
c 5.0
df = pd.read_excel(xslx, ‘Feuille1’)
d 7.0
Programmation sous SAS
De base brute à base SAS Lecture des données à partir d’un fichier externe Sélection des colonnes
1. On commence par les données brutes, c’est-à-dire une collection Proc import Utiliser : proc import Sélection d’une colonne par nom Sélection d’une
de données qui n’a pas encore été traitée par sas. Datafile = “C:\file.csv” Data selected ; colonne par sa
Datafile est
2. On utilise un ensemble d'instructions appelé étape DATA pour Out = outdata Set sas.help.cars ; position
l’emplacement du fichier
obtenir vos données dans un jeu de données sas. Dbms = csv Keep model type ;
qu’on veut lire.
3. On pourrait ensuite traiter la base de données sas avec Replace; Supprimer d’une colonne par %Let to_keep(1:3) ;
DBMS : spécifie le type nom
différentes procédures. Getnames = yes; Pour sélectionner les
de la base à importer. Data selected ; variables de 1 à 3.
Lecture des données à partir de datalines Set sas.help.cars ;
Data names; Utiliser : étape data Drop model type ; %Let to_keep(1,3, 5) ;
Data names;
Infile “file-path” delimiter = ‘,’; Changer de label Pour sélectionner les
Infile datalines delimiter = ‘,’; Utiliser le infile pour
Length first last $25.; Data selected ; variables de 1, 3 et 5.
Length first last $25.; identifer le fichier externe
Input first $ last $; Set sas.help.cars ;
Input first $ last $; à lire par un input.
Run; Label model = ‘car model’
datalines;
Type = ‘car type’;
Amine,Ahmidouch
Narjisse,Cheddadi Lecture des données brutes Sélection des lignes
;run;
Informats : comment lire la data. Formats : comment afficher la data Ignore les N premières observations
Dans la code data, on pourrait rajouter : Data want ;
Infile : identifie un fichier externe à lire.
Informat first $15. last $15. birthday ddmmyy10.; Set sas.help.buy (firstobs = 5) ;
Input : spécifie les variables de la nouvelle base.
format birthday date9.; Limiter le nombre de lignes à lire
Length : précise le nombre de bytes pour stocker les variables
Exemples d’informats Data want ;
Datalines : indique que des lignes de données suivent.
$w. lit des chaînes de caractères de longueur w. Set sas.help.buy (obs = 5);
Run : exécute l’étape Data.
w.d lit des données numériques de longueur w avec d chiffres en Sélectionner les lignes avec les conditions if
décimales Data want ;
Différentes options de infile : delimiter, missover, dlm, firstobs
MMDDYYw. Lit des données date dans la forme 04-11-80 Set sas.help.buy;
If amount >= -1000;
Trier une base de données Conditions if Les boucles
Data titles ;
Affichage du contenu de la base
Utiliser la procédure proc Data df ;
Set names ; Data df ;
sort : Do x=1, 2, 3 ;
If name = ‘Ali’ then Do x=1 to 3 ; Afficher les 5 premières observations
y = x**2;
Proc sort data = Score out = do; y = x**2;
output;
Sorted; title = ‘Etudiant’ ; output; Proc print data = sashelp.class (obs = 5);
end;
By descending score; end; end;
run;
Run; else if name =’Karam’ then run; Table des fréquences
Si on ne précise pas l’ordre, do; Data df ; Data df ;
c’est croissant par défaut. title = ‘Professeur’; x = 1; Proc freq data = sashelp.class;
x = 1;
end; Tables sex/ plots = freqplot;
Do while (x<4); Do until (x>3);
else y = x**2; L’instruction end
La procédure Sort trie la base y = x**2;
Un résumé statistique de la base
title = ‘Salarié’; output; output; indique la fin de la
de données SAS par les
x = x+1; x = x+1; boucle, comme c’est
valeurs d’une ou de plusieurs SAS évalue la condition dans la end; visible dans les Proc means data = sashelp.iris n mean std min max q1
end;
variables numériques ou des condition if pour produire un run; exemples ci-après. Median q3;
run;
chaînes de caractères. résultat. Si la valeur est nulle ou
manquante, la condition est
considérée fausse.
Lien vers le QUIZZ :
www.docs.google.com/forms/d/e/1FAIpQLScIDASuaOW_yWV3mzvpDqAWBU60cPofCEfw0zya6NEoY5FhnQ/viewform?vc=0&c=0&w=1
Algèbre linéaire
Exercices d’applications
Exercice 1:
On considère les matrices suivantes:
2 1 −1 1 3
1 −2 5
= (1 2 3), = , = −3 0 , = , = −1 −4 0
−2 5 0
1 2 0 2 5
Quels sont les produits matriciels possibles? Quelles sont les matrices carrées et les matrices symétriques?
Exercice 2:
−1 1 1
1) Soit = 1 −1 1 . Montrer que =2 − , en déduire que A est inversible et calculer .
1 1 −1
1 0 2
2) Soit = 0 −1 1 . Calculer − . En déduire que A est inversible puis déterminer .
1 −2 0
Exercice 3:
Corrigé 2:
Corrigé 3:
1. Si A était inversible, on pourrait multiplier à gauche par les deux membres de l’égalité = , ainsi =
2. Posons = − , alors =( − ) = −2 + = − = . Donc d’après la question précédente, si ≠ alors B n’est pas inversible.
Autrement dit, si ≠ , alors − n’est pas inversible.
Fondements de probabilités
Exercices d’application
Exercice 1 :
Dans la salle des profs 60% sont des femmes; une femme sur trois porte des lunettes et un homme sur deux porte des lunettes : quelle est la
probabilité pour qu’un porteur de lunettes pris au hasard soit une femme ?
Exercice 2 :
Dans une entreprise deux ateliers fabriquent les mêmes pièces. L'atelier 1 fabrique en une journée deux fois plus de pièces que l'atelier 2. Le
pourcentage de pièces défectueuses est 3% pour l'atelier 1 et 4% pour l'atelier 2. On prélève une pièce au hasard dans l'ensemble de la production
d'une journée.
Déterminer :
- la probabilité que cette pièce provienne de l'atelier 1;
- la probabilité que cette pièce provienne de l'atelier 1 et est défectueuse;
- la probabilité que cette pièce provienne de l'atelier 1 sachant qu'elle est défectueuse.
Exercice 3 :
Soit F la fonction définie par :
⎧
0 <0 a- Vérifier que F est bien une fonction de répartition
⎪ 0,29 −1≤ ≤1 b- Soit X la variable aléatoire admettant F pour fonction de répartition ; quelle est
( )= 0,37 1≤ ≤7 la loi de X ?
⎨ 0,69 7 ≤ ≤ 11
⎪
⎩ 1 ≥0
Exercice 4 :
Exercice 5 :
Exercice 6 :
Le nombre X de kg de tomates récoltés dans un jardin en une semaine, est une variable aléatoire dont la loi de probabilité est la suivante :
Corrigé 2
Notons A l'événement ``la pièce provient de l'atelier 1'', B l'événement ``la pièce provient de l'atelier 2'' et D l'événement ``la pièce est
défectueuse''.
L'énoncé nous dit que les 2/3 des pièces produites proviennent de l'atelier 1. Donc P(A)=2/3.
On cherche P(A∩D)=PA(D)P(A)=0,03×23=150. On démontre de même que P(B∩D)=175 et donc que P(D)=P(A∩D)+P(B∩D)=130.
Ainsi, on a PD(A)=P(A∩D)P(D)=35.
Corrigé 3
1- F est croissante, de limite nulle en −∞, de limite égale à 1 en +∞ et continue à droite, il s’agit donc bien d’une fonction de répartition.
2-
x ∈ X(Ω) -1 1 7 11
Corrigé 4
E((1 + X) ) = ∑ (1 + k) e = ∑
( )!
!
= (∑ − 1) = e − 1 = (1 − e )/ λ
!
Fondements de probabilités
Corrigé des exercices d’application
Corrigé 5
Corrigé 6 :
b- Y étant la somme de 6 variables aléatoires. i.i.d. on a : E(Y) = 6E(X) = 8, 4 et Var(Y) = 6Var(X) = 3.84
Statistique inférencielle
Exercices d’application
Exercice 1 :
Soit X une variable aléatoire dont la densité de probabilité f est définie par : où θ est un paramètre réel strictement positif.
1 −
( )= − , <0
0, ≥0
1. Déterminer l’estimateur du maximum de vraisemblance de d’un r-échantillon de variable parente X.
2. Calculer l’espérance mathématique et la variance de .
Que peut-on conclure ?
3. Calculer la quantité d’information de Fisher.
4. En déduire que est efficace.
Exercice 2 :
Une entreprise fabrique des sacs en plastique pour les enseignes de distribution. Elle s'intéresse au poids maximal que ces sacs peuvent
supporter sans se déchirer. On suppose ici que le poids maximal que ces sacs peuvent supporter suit une loi normale d'espérance
mathématique 58 Kg et d'écart-type 3 Kg.
1. Sur 200 sacs reçus, une grande enseigne de distribution constate un poids moyen de 57,7 Kg.
1.1. Donner un intervalle de confiance bilatéral de la moyenne des poids sur un échantillon de taille 200, au seuil de risque 1 %. 1.2.
Quelle est votre conclusion sur le poids moyen constaté ?
2. Donner le poids moyen dépassé dans 97 % des cas, sur un échantillon de taille 200.
Statistique inférencielle
Corrigé des exercices d’application
Corrigé 1 :
On a :
E(X)= θ et V(X)= θ²
Considérons un r-échantillon de cette structure.
Sa fonction de vraisemblance est définie pour tout θ, θ > 0, et tout (x , … , x ) ∈ , tous strictement
positifs, par :
L( θ ; x , … , x ) = ∏ f(x )
∑
=
D’où :
∑
ln L( θ ; x , … , x ) = −lnθ +
²
il en résulte que :
∑
ln L( θ ; x , … , x ) = − +
²
D’où :
ln L( θ ; x , … , x ) = 0 ⇒ θ = ∑ x
²
Et comme ln L( θ ; x , … , x )<0
²
Alors :
( ) ²
E(θ) =E(X)= θ et V(θ) = =
On en déduit que θ est un estimateur sqns biais et convergent de θ.
=E [− + ]
Donc la quantité d’information de Fisher, I[ ,…, , ], concernant fournie par le r-échantillon est :
I[ ,…, , ]= r I[X, ]=
Calculons l’efficacité :
e[ ]= =1
[ ,…, , ] ( )
Donc optimal ou efficace.
Statistique inférencielle
On cherche P(58 – a ≤ ≤ 58 + a) = 0,99. Après avoir posé T = et lu sur la table de la loi normale centrée réduite, on
,
obtient a = 0,55.
Donc l'intervalle de confiance sur tout échantillon de taille 200, de la moyenne des poids, est [57,45 ; 58,55].
1.2. Le poids moyen constaté sur l'échantillon ci-dessus est conforme aux attentes (57,7 Kg appartient à l'intervalle).
2. On cherche P( > b) = 0,97 donc après calculs on obtient b = 57,6.
Donc le poids moyen dépassé dans 97 % des cas est 57,6 Kg.