Beruflich Dokumente
Kultur Dokumente
Module :
Plan du cours
Introduction
Les
utilisateurs et leurs besoins Indexation Image numrique. Structures de donnes planes dimages. 1. Matrices.
2. 3.
1. 2. 1.
2.
Chanes. Cartes gnralises. Structures de donnes hirarchiques Arbre quaternaire (quad tree). Arbre R (R tree). Approches dindexation Approche globale. Approche spatiale
1. introduction
volution de la technologie des ordinateurs et des rseaux = production dimportants volumes dinformations naissance du multimdia Un document multi mdia est un document numrique qui permet de combiner de diffrents types de donnes (texte, image, audio, vido) lintrieur dun mme document. Passage de bases de donnes textuelles (celles qui stockent des textes) aux base de donnes multimdia (celles qui stockent des donnes multimdia dfinies en haut). La base de donnes qui contient uniquement des images est appele base de donnes dimages ou base dimages. La base de donnes qui contient uniquement des vidos est appele base de donnes vido ou base de vidos.
public PC familial multimdia Appareil photo numrique Magntoscope numrique Stockage de linformation Plus prenne que les bandes magntiques Accs linformation plus facile Exemple INA : 240 000 h de vidos numrises en 2006, 800 000 h en 2015. volution des rseaux de communication Internet. Tlvision numrique.
5
La recherche dimages tente aujourdhui dextraire les informations directement des images et dune manire automatique
Ce type de travaux est couvert par le terme indexation dimages base sur le contenu (ou CBIR pour Content Based Image Retrieval)
Structures de donnes
Des structures de donnes utilises en indexation dimages existent :
Structures de donnes planes dimages Matrices Chanes Structures de donnes topologiques Graphes Cartes gnralises Structures de donnes hirarchiques Arbre quaternaire (quadtree) Arbre quaternaire gnrique (AQG) Arbre R Arbre R gnrique
Matrice
Limage numrique est limage dont la surface est divis en lments de tailles fixes appels pixels, ayant chacun comme caractristiques un niveau de gri ou de couleurs. La numrisation dune image est la conversion de celle-ci de son tat analogique (distribution continue dintensits lumineuses dans un plan xoy) en une image numrique reprsente par une matrice bidimensionnelle de valeurs numriques f(x,y) o : X, y : coordonnes cartsiennes dun point de limage. F(x, y) : niveau de gri ou couleur en ce point. Un pixel peut avoir deux tats (1 bit), c'est--dire tre reprsent en noir ou en blanc ; ce type dimage est appel images binaires. Dans les applications graphiques, un pixel peut avoir plus de 16 millions de nuances de couleur (24 bits _ 8 bits pour chacune des trois couleurs primaires : RVB) avec une rsolution suprieure 10000 pixels.
10
Exemple :
Nous avons un rectangle de 6 x 5 pixels qui sont dfinis chacun par 3 couleurs. Nous avons "balay" ce carr ligne par ligne. Cela nous a donn la matrice de pixels suivante:
11
Approches dindexation
Approches globales
Cette approche considre limage dans son ensemble et la caractrise en utilisant des statistiques calcules sur limage entire (description globale). Dans le cadre dune recherche par lexemple, la dmarche est gnralement la suivante (voir figure 3). Phase prliminaire : calculer les descripteurs de chaque image de la base de donnes ; Phase en ligne : calculer les descripteurs de limage requte ; Phase de recherche : rechercher les images proches (images similaires) de limage requte dans lespace du (des) descripteur(s) utilis(s), cette recherche se base sur le calcul de distances (mtriques) de similarit entre les signatures dimages.
12
13
Aspect couleur
La couleur est srement le critre le plus important psychovisuellement parlant dans la vision dune image. Le premier regard port sur une image permet dapprhender trs rapidement sa couleur dominante et ses diffrentes teintes.
Lhistogramme
des couleurs permet davoir une information globale mais grossire sur la prsence des couleurs dans les images ; une image en couleur est une matrice dont chaque lment est un triplet (r, g, b) de valeurs entre 0 et 255, un triplet qui code les quantits de rouge, de vert et de bleu en chaque point.
14
Un
histogramme est une fonction de [0,255] dans N qui fait correspondre tout triplet (r, g, b) le nombre de pixels ayant ce triplet pour valeur. Dautre part, lhistogramme prsente linconvnient de perdre toute information spatiale sur les couleurs et ne rendre compte que de leurs distributions globales dans limage. La figure 4 prsente deux images de contenus visuels trs diffrents alors que leurs histogrammes sont trs similaires.
15
Histogramme couleur
Avantage : Robustes certaines transformations gomtriques de limage Limitations : Contenu visuel diffrent mais histogrammes similaires
16
Aspect forme
terme de forme, galement appel contours (ou shape), est plus souvent utilis pour caractriser les objets contenus dans une image plutt que limage elle mme. Il sagit dune caractristique significative dans de nombreuses applications, comme limagerie mdicale. La forme dun objet dans une image est dcrite par plusieurs caractristiques telles que la rgion, le primtre, ou les axes dorientation.
Le
Comme
signature numrique pour cet aspect, on peut citer : Descripteurs de Fourier Moments de Zernike Reprsentation CSS (Curative Scale Space)
17
Aspect texture
La texture, la diffrence de la couleur, nest pas un attribut de pixel mais une caractristique de rgion dimage. La segmentation permet de trouver les rgions dune image dont la texture est homogne. Comme signature numrique pour cet aspect, on peut citer : Fractales Transformes de Fourier. Transformes en Ondelettes. Morphologie Mathmatique. Filtre de Gabor. Remarque : Lensemble des caractristiques lies ces trois aspects est appel caractristiques visuelles.
18
Limitation des approches globales : Les approches globales mais ne permettent pas deffectuer des recherches fines au sein des images, notamment de rechercher des objets. Ainsi, pour pallier cette limitation, des techniques dites spatiales ont t mises en place depuis le dbut des annes 1990. Approche spatiale Dans ce type dapproches, limage est considre comme un ensemble dobjets et non plus comme une entit unique. Une fois limage segmente en plusieurs rgions, ces dernires peuvent tre caractrises de la mme manire que les images des approches globales. De cette faon, des dtails plus fins peuvent tre retrouvs au sein des images car les statistiques sont localises.
19
Ensuite dans le cadre dune recherche par lexemple, la dmarche est gnralement la suivante (voir figure 5). Phase prliminaire : segmentation des images de la base de donnes et calcul des descripteurs pour chaque rgion pour obtenir les reprsentations des images ; Phase en ligne : segmentation de limage requte et calcul des descripteurs des rgions pour obtenir la reprsentation de limage. Les rgions utiliser pour la recherche peuvent aussi tre slectionnes ; Phase de recherche : rechercher les images proches de limage requte en comparant les descriptions.
20
21
Indexation de vidos
Indexer des vidos consiste reprendre aux mieux les caractristiques essentielles de ces vidos dans un volume minimal afin de rechercher lexacte rplique de la vido requte ou un ensemble de squences similaires la requte.
La recherche de vidos base sur le contenu peut tre classe en trois catgories :
Recherche base sur les attributs visuels Recherche base sur les mots cls ou texte libre Recherche base sur les objets dintrts et leurs relations
22
23
1.
2. 3. 4.
Dcoupage en images : il sagit dans cette tape de dcouper une vido en une srie dimages individuelles, ces images nous permettront de dfinir par la suite des plans dimages. Application dun descripteur visuel des images (dfini prcdemment). Calculer une mesure de similarit correspondante au descripteur appliqu dans ltape prcdente. Segmentation temporelle : plusieurs techniques ont t proposes pour segmenter une vido en plusieurs units de base appeles "plans, nous pouvons citer: Diffrence pixel pixel Diffrence dhistogrammes Diffrence de mouvement Diffrence de blocs
24
Slection de limage clef: nous devons extraire dans cette tape les caractristiques visuelles de chaque plan, ces caractristiques sont dfinies dans une ou plusieurs images appeles "images clefs. Limage clef de notre approche est la premire image de chaque plan car ce dernier contient les images similaires cette image. Les images clefs sont les images les plus riches en informations par rapport aux autres images, lensemble de ces images forme ce que lon appelle "rsum vido".
5.
25
La recherche de lexacte rplique de la vido introduite par lutilisateur dans la base de vidos. Rechercher des vidos proches de la vido requte. Dtection des objets particuliers (visages, vhicules, btimentsetc.) dans les bases de vido. Rechercher dans la base une vido contenant lexacte rplique dune image requte ou bien un ensemble dimages similaires limage requte.
26
5. Exemple dapplication :
Plan 0 Plan 1 Plan 2 Plan 3 Plan 4 Plan 5 Plan 6 Plan 7 Plan 8 Plan 9 Plan 10
Segmentation en plans
Slection
de limage clef