Beruflich Dokumente
Kultur Dokumente
Mémoire de Projet de
Fin d’Etudes
Présenté en vue de l’obtention du
Diplôme National d’Ingénieur en Sciences
Appliquées et Technologie
Spécialité :
Électronique : Micro-électronique
Par :
Saida Saidi
À mes chers...
Saida
i
REMERCIEMENTS
C’est avec un grand plaisir que je réserve cette page en signe de gratitude et de profonde
reconnaissance à tous ceux qui m’ont aidé à la réalisation de ce rapport.
J’exprime toute ma gratitude à mon encadrante Madame Imène BEN AMEUR Bazine, Je
suis très reconnaissante envers elle d’être aussi patiente et compréhensive tout le long de cette
période. Sans oublier ses précieux encouragements et ses conseils fructueux.
Enfin, mes remerciements vont à tous les enseignants de l’ISIMM, pour la qualité de la formation
qu’ils m’ont fournie tout au long de mon cursus de formation d’ingénieur.
ii
iii
Résumé La finalité des travaux effectués est de mettre en place un système qui vise à assu-
rer la supervision à distance ainsi que le pilotage des équipements électriques dans un habitat
(lampes, portes, stores, température, . . .). Notre système comprend trois parties essentielles : En
premier lieu, le contrôle d’accès en utilisant un système à base de reconnaissance faciale. En
deuxième lieu, la supervision tout en adoptant un système de vidéo surveillance . Et en dernier
lieu, la commande vocale qui permet à l’utilisateur de consulter les informations requises et de
commander les équipements de son domicile.
Title Development of a Home Automation System with Facial and Voice Control
Abstract The purpose of work is to set up a system that aims to ensure remote supervision
and the control of electrical equipment in a home (lamps, door, window, temperature, . . .). Our
system includes three main parts : First, access control using a facial recognition-based system.
Second, supervision while adopting a video surveillance system. And finally, the voice control
that allows the user to view the required information and to order the equipment of his home.
Keywords Smart Home, Face recognition, Voice synthesis, Voice control, Supervision, Rasp-
berry pi 2, Python.
TABLE DES MATIÈRES
I NTRODUCTION GÉNÉRALE 1
iv
TABLE DES MATIÈRES v
C ONCLUSION GÉNÉRALE 25
B IBLIOGRAPHIE 30
L ISTE DES FIGURES
vi
L ISTE DES TALEAUX
vii
INTRODUCTION GÉNÉRALE
De plus, la croissance rapide des technologies, l’humanité ne cesse d’inventer des nouvelles
technologies qui modifient en profondeur les modes de vie. La domotique est un ensemble des
technologies avancées en électronique de l’information et télécommunications, utilisée dans les
domiciles pour donner naissance aux « maisons intelligentes » [Henry, ]. En effet, la domotique
vise à assurer des fonctions au service de l’humanité tout en favorisant l’automatisation.
C’est dans ce cadre que s’inscrit le présent projet de fin d’études dont l’objectif est de mettre en
place un système de contrôle et de supervision. Ce système permet le pilotage et la surveillance
des différents dispositifs disponibles dans la maison. Il s’agit d’un système qui permet de re-
connaître les ordres vocaux pour l’acquisition des mesures et la commande des équipements
électriques.
Dans ces travaux, nous supposons qu’il y a seulement une personne qui interagira avec le sys-
tème dans l’environnement. Les actions exécutées par notre système se produisent en réponse
aux commandes vocales prononcées par l’habitant ou de manière proactive (dans le contexte de
la surveillance) pour assurer sa sécurité et son confort.
1
Le premier chapitre est consacré à la présentation du cadre général de notre projet de fin d’études
à savoir la structure générale. Ce chapitre aborde une étude théorique sur les différents blocs
de ce projet tel que la reconnaissance faciale, la surveillance domotique et enfin la commande
vocale .
La réalisation de notre projet sera exposée dans le dernier chapitre dans lequel nous décrirons les
étapes de réalisation de notre système ainsi que les principaux aperçus graphiques de la solution.
Enfin, nous clôturons ce présent rapport par une récapitulation du travail accompli ainsi que les
perspectives d’améliorations.
2
CHAPITRE 1
1.1 Introduction
Les capteurs sont les éléments nécessaires pour faire le lien entre le monde physique et le monde
3
Chapitre 1. Contexte général du projet
virtuel (dans lequel le système effectue ses analyses), et pour que le système puisse agir d’une de
façon concrète sur l’environnement perceptif, il affecte donc directement la vie des personnes.
Par exemple, des habitants dans un appartement, ils verront leurs modes de vie influencés par
les technologies installées en ces lieux. Il est nécessaire d’utiliser les actionneurs qui sont des
éléments qui transforment l’énergie qui lui est fournie en un phénomène physique qui fournit un
travail, modifie le comportement ou l’état d’un système.
D’une manière générale, un environnement intelligent est issu du concept d’intelligence am-
biante (voir figure 1.1) dont sa vision est un avenir dans lequel les environnements prennent en
charge les personnes qui les habitent, il est basé sur du matériel miniaturisé, peu coûteux, four-
nissant des réseaux complexes d’appareils hétérogènes ou d’objets intelligents. Ceux ci, indivi-
duellement ou comme un ensemble, peuvent aider les utilisateurs dans des activités quotidiennes
ou exceptionnelles [env, ].
Étant donné l’utilisation de l’intelligence ambiante dans des lieux de vie, il est nécessaire de
considérer les aspects suivants :
4
Chapitre 1. Contexte général du projet
Les caméras de surveillance peuvent être utilisées dans les maisons intelligentes pour
détecter des situations de risque, quelques utilisateurs peuvent accepter de perdre une
partie de leur vie privée si cela permet de leur garantir une meilleure sécurité tandis que
d’autres n’acceptent pas que ces dispositifs seraient inclus dans leur vie quotidienne.
La sécurité :
En obtenant des données concernant les activités de vie quotidienne en les enregistrant
pour l’exploiter, Il est possible que ces données relatives aux maladies, à la situation des
personnes soient utilisées par des individus. Les implémentations des systèmes perceptifs
doivent donc garantir aux utilisateurs que leurs données ne seront pas utilisées pour des
buts non souhaités.
1.2.2 La domotique
La domotique est l’ensemble des technologies permettant d’automatiser les équipements d’un
habitat. Ce terme vient du mot latin domus qui désigne une demeure patricienne [def, 2016].
La domotique vise à apporter des fonctions :
— de confort (commandes à distance, gestion d’énergie),
— de sécurité (alarme),
— de communication (contacts et discussion avec des personnes extérieures).
Entre intelligence ambiante et domotique, il existe plusieurs similarité, mais il y a des points qui
permettent de les distinguer, car la domotique couvre les bâtiments intelligents (par exemple, la
maison, le bureau) alors que l’intelligence ambiante concerne une gamme d’applications plus
vaste comme la circulation des véhicules ou les espaces publics (une station de métro, un parc).
En plus, elle ne s’occupe pas seulement de l’automatisation mais de la surveillance, de l’ana-
lyse de comportement. Une autre différence importante est que la domotique ne nécessite pas
forcement l’utilisation des techniques de l’Intelligence Artificielle (IA)[QUISPE, 2013].
Les principales fonctions dans lesquelles s’appliquent les techniques de la domotique sont :
— La gestion de l’énergie.
— La commande des équipements.
— La communication entre les appareils.
— la compensation des situations de handicap et de dépendance.
5
Chapitre 1. Contexte général du projet
Une maison intelligente est une maison équipée d’un câblage structuré spécial pour permettre
aux occupants de contrôler ou programmer un ensemble de dispositifs électroniques à domicile
automatisé. Par exemple, un propriétaire en vacances, peut utiliser un téléphone à clavier pour
armer un système de sécurité à la maison, les jauges de température de contrôle, les appareils de
commutation ou hors tension, l’éclairage de contrôle, et effectuer de nombreuses autres tâches
[Henry, ].
CompanionAble - UE :
Le but est de concevoir un système d’assistance ayant pour base l’observation multimodale
et l’interaction homme-machine. Ce projet s’intéresse en particulier à inclure une interface
audio pour la communication entre le robot et l’habitat, le robot étant capable de se dépla-
cer et donc de s’approcher à une distance raisonnable de la personne [QUISPE, 2013].
6
Chapitre 1. Contexte général du projet
L’objectif était la mise en place d’un service d’assistance médicale à distance, permettant
le suivi des personnes âgées, ce projet se centre sur la surveillance des personnes âgées
atteintes de la maladie d’Alzheimer dans les établissements spécialisés [QUISPE, 2013].
1.4.1 Définition
La détection de visage dans l’image est un traitement indispensable et crucial avant la phase de
reconnaissance. En effet, le processus de reconnaissance de visages ne pourra jamais devenir
intégralement s’il n’a pas été précédé par une étape de détection efficace.
7
Chapitre 1. Contexte général du projet
La méthode de Viola et Jones consiste à balayer une image à l’aide d’une fenêtre de détection
de taille initiale 24px par 24px (dans l’algorithme original) et de déterminer si un visage y est
présent [GUILLOT, 2016]. Lorsque l’image a été parcourue entièrement, la taille de la fenêtre
est augmentée et le balayage recommence, jusqu’à ce que la fenêtre fasse la taille de l’image.
L’augmentation de la taille de la fenêtre se fait par un facteur multiplicatif de 1.25. Le balayage,
quant à lui, consiste simplement à décaler la fenêtre d’un pixel. Ce décalage peut être changé
afin d’accélérer le processus, mais un décalage d’un pixel assure une précision maximale.
Le module de reconnaissance exploite les caractéristiques du visage ainsi extraites pour créer une
signature numérique qu’il stocke dans une base de données. Ainsi, à chaque visage de la base
est associée une signature unique qui caractérise la personne correspondante. La reconnaissance
d’un visage requête est obtenue par l’extraction de la signature requête correspondante et sa mise
en correspondance avec la signature la plus proche dans la base de données. La reconnaissance
dépend du mode de comparaison utilisé : vérification ou identification.
8
Chapitre 1. Contexte général du projet
Le mode vérification :
c’est une comparaison « un à un », dans lequel le système valide l’identité d’une personne
en comparant les données biométriques saisies avec le modèle biométrique de cette per-
sonne stockée dans la base de données du système.
Le mode identification :
c’est une comparaison « un à N », dans lequel le système reconnaît un individu en l’ap-
pariant avec un des modèles de la base de données. La personne peut ne pas être dans la
base de données.
La méthode de reconnaissance faciale LBPH (Local Binary Patterns Histogram) consiste à vi-
sualiser la valeur d’un pixel (moyenne des trois composantes RGB) par rapport aux pixels voi-
sins. Pour commencer, l’image est divisée en groupe de pixels. Chaque groupe de pixels corres-
pond à une matrice carrée contenant les valeurs des pixels. Puis, le pixel placé au centre de la
matrice est choisi comme valeur de référence [Blin Sebastien, 2016]. Ensuite, toutes les valeurs
de la matrice sont remplacées soit par 0, soit par 1 en fonction de leur valeur.
Nous attribuons la valeur 0 si la valeur du pixel est inférieure à la valeur du pixel de référence,
1 sinon. Après cette opération, chaque pixel du groupe est pondéré avec un poids plus ou moins
fort (le pixel en haut à gauche a le poids le plus faible, tandis que le pixel en bas à droite a le
poids le plus fort). Ainsi, nous obtenons un nombre binaire qui donne une certaine valeur en
base 10. Tous les groupes de l’image sont soumis à ce processus pour finalement obtenir un
histogramme de l’image. Enfin, il ne reste plus qu’à faire la différence entre deux histogrammes
pour comparer deux images.
9
Chapitre 1. Contexte général du projet
Les Eigenfaces et les Fisherfaces sont deux méthodes fondamentales dans les approches propo-
sées pour la reconnaissance de visages. Toutes deux sont basées sur la décomposition de l’image
sur un sous espace réduit et sur la recherche d’un vecteur optimal de caractéristiques décrivant
l’image du visage à reconnaître.
La méthode de reconnaissance faciale Fisherfaces se base sur les travaux de Sir R.A. Fisher
[fis, ]. Cet algorithme a été introduit pour séparer au mieux trois espèces d’iris à partir de la
longueur et de la largeur des sépales, ainsi que la longueur et la largeur des pétales.
Il s’agit d’une évolution de l’algorithme Eigenfaces. Alors que l’algorithme Eigenfaces se base
sur l’Analyse des Composantes Principales (ACP), l’algorithme Fisherfaces utilise l’Analyse
Discriminante Linéaire (ADL ou plutôt le Fisher’s Linear Discriminant (FLD)) qui cherche le
meilleur sous-espace minimisant la distance entre les images d’une même classe (ici une classe
= un visage) en maximisant la distance inter-classe. On réfléchit donc non pas en images indé-
pendantes, mais en images regroupées par classe [Blin Sebastien, 2016]. L’algorithme se base
sur l’image moyenne de chaque classe, ainsi que les matrices de dispersion intra-classe et inter-
classe. Puis, on essaye de trouver la meilleure projection possible, celle où la distance inter-
classe est la plus élevée. Il suffit de projeter l’image capturée pour identifier la personne (en
regardant la classe la plus proche) [Anis CHAARI, 2008].
Globalement, cette méthode présente les mêmes avantages et inconvénients que la méthode
Eigenfaces. Cependant, elle est moins sensible à la lumière et à la déformation des visages
car elle ne se base pas sur des composantes discriminatoires.
Dans notre cas, on a utilisé la technique de Eigenfaces, car elle est considérée comme étant une
technique rapide, simple et populaire dans l’identification de modèle, c’est l’une des meilleures
techniques, les projections de l’ACP sont optimales pour la reconstruction d’une base de dimen-
sion réduite.
10
Chapitre 1. Contexte général du projet
Étant donné un ensemble d’images de visages exemples, il s’agit tout d’abord de trouver les
composantes principales de ces visages (voir figure 1.3), Ceci revient à déterminer les vecteurs
propres de la matrice de covariance formée par l’ensemble des images stockées dans la base
de données. Chaque visage exemple peut alors être représenté comme étant une combinaison
linéaire de ces vecteurs propres et pour construire la matrice de covariance, chaque image de
visage est transformée en vecteur (Chaque élément du vecteur correspond à l’intensité lumineuse
d’un pixel).
Dans le cas de notre projet, notre approche consiste à représenter un visage comme étant la
combinaison linéaire d’un ensemble d’images, ces dernières forment une base de référence.
Mathématiquement, cela revient à parvenir à l’équation :
M
Φi = ∑ pi di (1.1)
i =1
Nous allons chercher à trouver les visages propres ; tout d’abord, nous devons prendre un nombre
M de visages d’apprentissage. Chacune de ces images, qui sont en pratique des matrices N × N
sont alors transformées en un unique vecteur colonne de longueur N 2 .
Nous devons par la suite déterminer le visage moyen, déduit des M visages d’apprentissages.
11
Chapitre 1. Contexte général du projet
1 M
M i∑
Ψ= Γi (1.2)
=1
Ce visage moyen va servir dans l’analyse d’images, on soustrait en effet ce visage moyen aux
visages d’apprentissages, ce qui nous laisse alors les informations propres à ce visage, nous ré-
cupérons alors dans φi uniquement les informations qui sont particulières à ce visage d’appren-
tissage [Anis CHAARI, 2008]. Où φi représente le ieme visage auquel on a soustrait le visage
moyen.
φi = Γi − ψ (1.3)
1 M
M n∑
D= Φn Φtn = AAt (de dimension N 2 × N 2 ) (1.4)
=1
Nous devrions calculer les vecteurs propres di de la matrice. Mais cela représente pour nous N 2
vecteurs propres de dimension N 2 chacun. C’est à présent que nous allons réduire l’information
en limitant les composantes avec lesquelles nous travaillerons, en accord avec le principe de
l’analyse en composantes principales. Nous allons donc considérer la matrice E = A T A, dont
nous trouverons les vecteurs propres ei .
Cette matrice est de taille M × M, ce qui nous simplifiera donc les choses, étant donné que nous
aurons M vecteurs propres de taille M chacun. Le passage de la matrice D à la matrice E n’est
pas anodin, nous utilisons en effet le fait que les vecteurs propres de ces deux matrices sont liés
de manière assez proche. En effet, nous avons comme relation :
12
Chapitre 1. Contexte général du projet
Nous en déduisons donc qu’avec ei vecteur propre de la matrice E associé à la valeur propre λi ,
nous avons par conséquent Aei est un vecteur propre de la matrice C associé à la même valeur
propre λi .
di = Aei (1.8)
Ce sont les valeurs propres qui leur sont associées qui nous permet ensuite de classer les vecteurs
propres en fonction de leur capacité à caractériser les variations entre les images. Lorsque l’on
les visualise (ces vecteurs sont à l’origine des matrices de taille (N × N), les faces propres sont
ce que l’on pourrait appeler des images aux airs fantomatiques, qui sont les vecteurs propres de
la matrice de covariance des images d’apprentissage des visages.
Les M vecteurs propres que nous avons alors obtenus, nous permettrons donc d’approximer au
mieux les visages d’apprentissage en utilisant les visages propres de plus grande importance.
L’avantage de réduire le nombre de visages propres est d’une part de nécessiter de moins d’es-
pace mémoire, mais aussi de réduire les calculs, leur temps d’exécution ; cependant nous per-
dons sans aucun doute de l’information et donc l’information moins précise, mais les résultats
ne s’en verront pas vraiment modifiés, étant donné que nous ne nous donnons qu’une mission
d’identification.
Nous ne cherchons pas à reconstruire le visage du sujet à partir de visages propres, mais seule-
ment à le reconnaître. Parmi les M vecteurs propres trouvés, nous allons seulement conserver
un nombre L, qui seront les plus significatifs. Nous allons trouver maintenant le poids associé
à chacun des visages propres. Les images servant à l’apprentissage, auquel on a enlevé l’image
moyenne, sont en fait combinaison linéaire des visages propres.
L
φi = ∑ pi di (1.9)
i =1
Pour trouver le poids associé, nous faisons pour chacune des coordonnées correspondante à un
visage d’apprentissage :
pi = diT φi (1.10)
13
Chapitre 1. Contexte général du projet
Ce qui nous permet d’obtenir pour chacun des M visages d’apprentissages un vecteur Πi , où
i représente le ieme visage, et qui nous informe sur le coefficient appliqué à chacun des visages
propres.
p1
p2
Πi =
..
(1.11)
.
pL
Passons à présent au travail à effectuer pour la reconnaissance d’un visage d’un sujet. Une fois
l’image prise, l’image (vecteur colonne Γ obtenue est soustraite à l’image moyenne ψ :
φ = Γ−ψ (1.12)
Puis, nous trouvons les coordonnées de cette image dans l’espace réduit des faces propres.
pi = diT φi (1.13)
Il nous faut maintenant interpréter la projection de l’image à analyser. Nous cherchons donc :
m = min
Π − Πi
(1.15)
Puis, nous comparons la valeur de m trouvée à une valeur seuil ∆, qui aurait du être déterminée
à partir d’essais sur des images choisies aléatoirement, qui peuvent aussi bien représenter des
visages qu’autres choses, puis en comparant ces valeurs aux valeurs obtenues avec des visages
d’apprentissage, et décider du seuil que nous avons choisi. Mais le choix de ce seuil dépend
de trop nombreuses conditions (prise de vue des images, niveau de précision souhaité pour la
reconnaissance, etc).
14
Chapitre 1. Contexte général du projet
L’utilisation d’un seuil va nous permettre de déterminer si oui ou non l’image analysée corres-
pond à un visage présent dans la base de données. Si alors la valeur de m était inférieure à celle
du seuil, l’image correspond au visage qui a donné cette valeur la plus basse est reconnu. Dans
notre cas, le fait de ne pas choisir de seuil a eu pour conséquence que lorsqu’un visage non
présent dans la base de données était testé, il était tout de même reconnu par le programme.
1.5.1 Définition
15
Chapitre 1. Contexte général du projet
16
Chapitre 1. Contexte général du projet
L’enregistrement se fait sur des disques durs où les séquences sont numérisées et compressées de
manière à emmagasiner un maximum d’images, alors en passant par un enregistreur numérique
réseau, les images numérisées et compressées peuvent être transportées sur un réseau informa-
tique à des fins de surveillance sur PC distant.
Certains systèmes permettent à la fois la visualisation des séquences en direct et des séquences
enregistrées , d’autres se limitent aux images enregistrées. Sur certains systèmes, la surveillance
vidéo requiert en outre un client Windows spécifique, tandis que d’autres nécessitent un simple
navigateur web standard, plus flexible pour une visualisation à distance.
Une caméra réseau ou caméra IP est dédiée pour le domaine de surveillance, elle peut être défi-
nie comme l’association d’une caméra et une unité de traitement préprogrammée (figure 1.6). La
caméra IP capte, numérise, compresse puis transmet les images en direct sur le réseau utilisant le
17
Chapitre 1. Contexte général du projet
protocole internet. Pour l’enregistrement de la vidéo en local certaines caméras IP doivent être
reliées à un enregistreur vidéo numérique(DVR) et en cas d’enregistrement depuis le réseau,
un enregistreur vidéo en réseau (NVR) est utilisé. L’avantage des caméras IP est qu’elles per-
mettent aux propriétaires et aux entreprises de consulter leurs caméras depuis n’importe quelle
connexion internet via un ordinateur portable ou un téléphone 3G. Mais contrairement aux web-
cams USB, la compatibilité avec les logiciels de visioconférence n’est pas toujours garantie
[MAHMOUD, 2008].
Dans notre projet, on a adopté la solution suivante qui est composée d’une ou plusieurs caméras
installées à l’intérieur et/ou à l’extérieur d’un local. Ces caméras sont équipées de détecteurs
de mouvement. Si les caméras détectent une intrusion ou un mouvement suspect dans le lieu
surveillé, une vidéo sera enregistrée dont son nom est celle de la date d’intrusion pour une
meilleure précision ensuite une alerte est immédiatement envoyée par téléphone, SMS ou mail
à la personne concernée.
18
Chapitre 1. Contexte général du projet
1.6.1 Définition
L’homme peut communiquer avec la machine avec la parole, ainsi, on n’a plus besoin de regard
rivé à un écran et de mains affairées sur un clavier. Grâce à la reconnaissance vocale, un homme,
par exemple, peut se déplacer et se consacrer à sa tâche principale dans des secteurs comme
[BATTAULT, 1998] :
L’industrie :
La télématique :
La Bureautique :
19
Chapitre 1. Contexte général du projet
L’aide au médecin :
La Sécurité et la Justice :
Divers :
Les applications grand public concernent l’automobile (commande vocale d’équipements
annexes tels que climatisation, ...), le jouet (téléguidage vocal,...), les jeux électroniques
et l’appareillage domestique (commande des équipements,...)
1.6.3.1 Le spectrographe
Le spectrographe de la parole est un appareil inventé plus d’un demi siècle et commercialisé
plus tard sous le nom de Sonagraphe.
Historiquement, ce premier outil d’analyse pour les phonéticiens était composé d’un banc de
filtres analysant les différentes fréquences successivement (voir figure 1.7).
Une autre technique de cet appareil est basée sur le filtrage hétérodyne : on fait défiler le signal
vocal, modulé en amplitude par une sinusoïde variable en fréquence, sous un filtre fixe. On
recueille alors l’énergie pour chaque incrément de fréquence. Le signal évoluant dans le temps,
on obtient alors une représentation graphique à deux dimensions (fréquence et temps), nommée
sonagramme et dont l’intensité est représentée par une échelle de gris (figure 1.8).
20
Chapitre 1. Contexte général du projet
21
Chapitre 1. Contexte général du projet
L’objectif de reconnaissance de la parole est pour une machine de pouvoir « entendre, com-
prendre et agir sur l’information parlée ».
Les premiers systèmes de reconnaissance vocale ont d’abord été tentés dans les années 1950
chez Bell Laboratories. Le but de la reconnaissance automatique du locuteur est d’analyser,
extraire, caractériser et reconnaître des informations sur l’identité du locuteur [Khilari, 2015].
Tous les systèmes ASR fonctionnent en deux phases (voir figure 1.9). Tout d’abord, une phase
d’apprentissage au cours de laquelle le système apprend les modèles de référence représentant
les différents sons de la parole (par exemple, des phrases, des mots, des téléphones) qui consti-
tuent le vocabulaire de l’application. Chaque référence est appris à partir d’exemples parlés et
stockés soit sous la forme de modèles obtenus par une méthode ou des modèles moyenne pour
caractériser les propriétés statistiques du modèle. D’autre part, une phase de reconnaissance au
cours de laquelle un motif d’entrée inconnu est identifié en tenant compte de l’ensemble des
références.
22
Chapitre 1. Contexte général du projet
La reconnaissance vocale est la transformation d’un fichier-son contenant de l’oral en écrit nu-
mérique (figure 1.10). Les applications de cette technologie peuvent être nombreuses :
— Contrôle de machines par la voix.
— Transformation de l’oral, par écrit, pour stocker, traduire . . .
— Utilisation de la voix pour les systèmes de sécurité (la voix d’une personne comme un
code d’accès).
Le principe de fonctionnement de la reconnaissance vocale est simple : une voix audio est enre-
gistrée par le système de reconnaissance. Ce dernier, avec l’aide des données vocales, détermine
les mots ou les phrases prononcés.
23
Chapitre 1. Contexte général du projet
mais sans perte, ce qui signifie que l’audio est compressé en FLAC sans aucune perte de
qualité. Ceci est similaire à la façon dont fonctionne Zip, sauf qu’avec FLAC on obtient
beaucoup mieux de compression car il est conçu spécifiquement pour l’audio, et on peut
lire des fichiers FLAC compressés dans le lecteur préféré.
FLAC se distingue comme le codec audio sans perte le plus rapide, le plus largement pris
en charge, et le seul qui est à la fois non-propriétaire, a une implémentation de référence
open-source, a un format bien documenté, et a plusieurs d’autres implémentations indé-
pendantes.
Pour obtenir des données audio,le microphone doit écouter en continu dans la pièce et lorsque le
mot clé permettant de donner un ordre est entendu, on envoie une requête à Google. L’ordre de
l’utilisateur est envoyé à l’API sous forme de fichier-son FLAC, Le temps de réponse de l’API
est variable entre 1 et 4 secondes selon la longueur de l’ordre.
1.7 Conclusion
Au cours de ce chapitre sur l’état de l’art, nous avons exposé les concepts généraux permettant
de comprendre le domaine dans lequel nos travaux sont réalisés.
Une maison intelligente est un appartement équipé de systèmes informatiques pour faciliter la
vie de ses habitants. Les buts d’une maison intelligente sont principalement d’assurer la sécurité
et le confort. Pour cela, diverses tâches peuvent être mises en place : la vidéo-surveillance,
l’identification des personnes et l’assistance dans les activités de vie quotidienne (dans notre cas
par commande vocale).
Dans ce qui suit, nous entamerons la partie spécification et conception avant de se lancer dans la
partie réalisation.
24
CONCLUSION GÉNÉRALE
C E projet de fin d’études a pour objectif de réaliser un système domotique qui servira à
répondre à un ensemble de besoins qui spécifient précisément les services demandés et
attendus par l’utilisateur.
Afin de pouvoir structurer les idées et de définir les fonctionnalités du système réalisé, nous
avons scindé notre travail en trois parties principales :
Pour la première partie, nous avons commencé par une description générale de notre application
et une étude théorique sur des concepts basiques. Le deuxième chapitre contient une étude dé-
taillée du système avec ses éléments matériels et logiciels utilisés. Quant au dernier chapitre, il
était consacré à l’étude des technologies utilisées pour le développement du système domotique
ainsi qu’à la présentation de la phase de réalisation.
Enfin, ce projet a été une occasion pour affronter l’environnement professionnel de l’ingénierie
en micro-électronique et systèmes embarqués. Il nous a également permis de consolider nos
connaissances sur les différentes technologies.
25
En perspectives, nous pouvons signaler que ce travail n’est qu’une simple application dans le
domaine de la domotique, il peut être assez évolutif vu les progrès réalisés dans les domaines de
la technologie et de la communication à notre époque.
De plus, nous pouvons ajouter plusieurs équipements pour les commander vocalement. Par
exemple, nous pouvons envisager une solution de commande à distance avec un programme
combinant l’ouverture des volets le matin et leur fermeture le soir ou encore le démarrage auto-
matique du chauffage ou du climatiseur suite à la mesure de température dans l’habitat.
26
ANNEXE D
27
ANNEXE E
28
F IGURE 1.11 – Capteur PIR
29
BIBLIOGRAPHIE
[vnc, ] https://www.raspberrypi.org/documentation/remote-access/
vnc/. consulté en avril 2016.
[pyt, a] https://en.wikipedia.org/wiki/Python-28programming-language.
consulté en mars 2016.
[G, ] http://www.blaess.fr/christophe/2012/11/26/
les-gpio-du-raspberry-pi/. consulté en janvier 2016.
[num, ] http://wyolum.com/numpyscipymatplotlib-on-raspberry-pi/.
consulté en fÃ
vrier
c 2016.
[SMT, ] http://www.raspberry-projects.com/pi/software_utilities/
email/ssmtp-to-send-emails. consulté en janvier 2016.
[ffm, ] http://www.jeffreythompson.org/blog/2014/11/13/
installing-ffmpeg-for-raspberry-pi/. consulté en juin 2016.
[smt, ] http://raspberrypi.stackexchange.com/questions/12405/
how-to-set-up-smtp-and-send-emails. consulté en juin 2016.
30
Bibliographie
[tex, b] http://www.raspberrypi-spy.co.uk/2012/08/
sending-sms-text-messages-using-python/. consulté en avril 2016.
[pyc, ] https://www.raspberrypi.org/forums/viewtopic.php?t=25173.
consulté en juin 2016.
[pyt, b] http://pyttsx.readthedocs.io/en/latest/engine.
html-using-pyttsx. consulté en janvier 2016.
[ser, a] http://jmdefais.pagesperso-orange.fr/techn-jm/robot/
robot-pi/servo.htm. consulté en juin 2016.
31
Bibliographie
A
[Anis CHAARI, 2008] Anis CHAARI, Sylvie LELANDAIS1, M. S. (23 mai 2008). Compa-
raison d’approches pour la détection et l’identification de visages 2d. Colloque National de
la Recherche dans les IUT CNRIUT 2008. (Cité pages 10 et 12.)
B
[BATTAULT, 1998] BATTAULT, R. (15 juin 1998). La reconnaissance vocale. Mémoire de
pfe, Conservatoire National des Arts et Métiers de Tours. (Cité page 19.)
[Blin Sebastien, 2016] Blin Sebastien, Collin Pierre-Henri, L. A. (consulté en avril 2016). Com-
ment la reconnaissance faciale du conducteur peut-elle améliorer sa sécurité au volant ?
Rapport de travail d’initiative personnelle encadrée (tipe), Université de Rennes 1 Campus de
Beaulieu. (Cité pages 9 et 10.)
D
[DiCola, 2014] DiCola, T. (8 Aout 2014). Raspberry pi face recognition treasure box. Adafruit
Industries.
G
[GUILLOT, 2016] GUILLOT, P. (avril 2016). La méthode viola and jones. https:
//www.pierreguillot.fr/wordpress/wp-content/uploads/2013/03/
TPreconnaissancefaciale. consulté en avril 2016. (Cité page 8.)
H
[Henry, ] Henry, S. Maison intelligente. http://hnt.univ-lemans.fr/
attachments/programme-article/05-ST.pdf. consulté en juin 2016. (Cité
pages 1 et 6.)
32
Bibliographie
K
[Khefif, 2013] Khefif, B. (novembre 2013). Mise au point d’une application de reconnais-
sance faciale. Mémoire de master, Université Abou Bakr Belkaid-Tlemcen, FacultÃ
c des
Sciences. (Cité page 11.)
[Khilari, 2015] Khilari, P. (Vol. 4, Issue 7, July 2015). Implementation of Speech to Text Conver-
sion. PhD thesis, International Journale of Innovative Research in Science, Engineering and
Technology. (Cité pages vi, 21 et 22.)
M
[MAHMOUD, 2008] MAHMOUD, A. M. M. (juin 2008). Vidéo-surveillance, détection de
mouvement et envoie d’alerte sur un téléphone cellulaire. Mémoire de master, Ecole Supé-
rieure Polytechnique de Dakar. (Cité pages vi, 17 et 18.)
Q
[QUISPE, 2013] QUISPE, P. C. (mars 2013). Controle intelligent de la domotique à partir
d-informations temporelles multisources imprésises et incertaines. Thèse de doctorat, Labo-
ratoire d’Informatique de Grenoble (LIG). (Cité pages vi, 4, 5, 6 et 7.)
R
[Rosebrock, ] Rosebrock, A. Accessing the raspberry pi camera with opencv and python.
http://www.pyimagesearch.com/. consulté en mai 2016.
33