Beruflich Dokumente
Kultur Dokumente
Rsum
Ce livre blanc dcrit une solution informatique haute disponibilit. Les technologies mises en oeuvre permettent daugmenter la abilit dun systme informatique de type Linux : elles maintiennent en permanence au moins une machine oprationnelle.
Avec les livres blancs dAlcve, bnciez de lexprience de la premire socit europenne dexpertise sur les logiciels libres.
Copyright
Alcve, tous droits rservs.
www.alcove.fr
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
153 Boulevard Anatole France 93200 Saint Denis , France, SA au capital de 44.549 SIRET 403 646 342 00028 722Z Tl. : +33 1 49 22 68 00, Fax : +33 1 49 22 68 01 E-mail : alcove@alcove.fr Toile : www.alcove.fr
www.alcove.fr
Administration systme
Utilisateurs
Services
Rseau
Donnes
Haute Disponibilit
Contraintes
Environnement Logiciels
Matriel
F IG . 1.1 Elments pouvant altrer la disponibilit dun systme informatique. Bien que les logiciels libres soient trs implants dans le monde du service Internet pour les entreprises (Apache est le premier serveur web de lInternet), ils se dveloppent aussi dans dautres domaines : serveurs dapplications, interrogation de bases de donnes, rseau priv virtuel (VPN 1 ), machine de contrle de processus industriels, scurit lectronique des btiments, etc. Les logiciels libres doivent donc proposer des systmes hautes disponibilits de qualit comparable ceux des diteurs propritaires.
VPN (Virtual Private Network) : Rseau priv qui utilise les infrastructures publiques de communication tout en maintenant la condentialit des donnes. Une entreprise peut utiliser cette technique pour construire un rseau intranet entre diffrents sites distants, sans utiliser de liaisons spcialises.
1
153 Boulevard Anatole France 93200 Saint Denis , France, SA au capital de 44.549 SIRET 403 646 342 00028 722Z Tl. : +33 1 49 22 68 00, Fax : +33 1 49 22 68 01 E-mail : alcove@alcove.fr Toile : www.alcove.fr
www.alcove.fr
1.2
Dnition du besoin
Une conguration haute disponibilit est fortement dpendante du besoin de lentreprise : de la distribution du travail entre plusieurs machines la duplication permanente des donnes dans des btiments gographiquement spars, la solution technologique, la mise en oeuvre et le cot sont diffrents.
Client
Loffre de services
service web
service mail
service donnes
Autre service
F IG . 1.2 Services exigeant une haute disponibilit. Une grappe dordinateurs (plus couramment appele cluster diffrents :
la construction dune machine de calcul parallle (cluster scientiques) ; la mise en place dun systme haute disponibilit ;
Il est frquent de demander un systme de proposer une rpartition de la charge de travail et, en cas de panne, davoir un comportement haute disponibilit. Ces deux derniers points seront donc souvent associs pour garantir une qualit de service optimale. En revanche, notre propos nest pas ici daugmenter la puissance de calcul mais de scuriser le systme : la mise en place dun agrgat de machines parallles, ddies au calcul, nest pas lobjet de ce livre blanc.
2 Cluster : Ordinateurs en grappe qui se partagent le travail et/ou peuvent prendre le relais les uns des autres. Une des ces machines constitue un noeud du cluster.
153 Boulevard Anatole France 93200 Saint Denis , France, SA au capital de 44.549 SIRET 403 646 342 00028 722Z Tl. : +33 1 49 22 68 00, Fax : +33 1 49 22 68 01 E-mail : alcove@alcove.fr Toile : www.alcove.fr
www.alcove.fr
Internet/ Intranet
Clients
Rseau de service
disque partag
F IG . 2.1 Terminologie.
En revanche, le matriel nous met en face dune toute autre problmatique : un composant physique du systme peut tomber en panne. La chute dune seule de ces ressources critiques (Single Point Of Failure) met
GNU (GNUs Not Unix (GNU Nest pas Unix)) : nom du projet initi par Richard Stallman en 1984 qui consiste reprogrammer un systme compatible Unix sous une licence qui en permet la libre distribution (GPL). 2 GPL (General Public License) : licence dutilisation des logiciels du projet GNU qui permet entre autre la libre distribution, et impose que le code source des binaires rendus publics doit tre accessible.
1
153 Boulevard Anatole France 93200 Saint Denis , France, SA au capital de 44.549 SIRET 403 646 342 00028 722Z Tl. : +33 1 49 22 68 00, Fax : +33 1 49 22 68 01 E-mail : alcove@alcove.fr Toile : www.alcove.fr
carte mre ;
alimentation ;
interface rseau ;
En faisant fonctionner plusieurs de ces lments au sein dun mme systme informatique, on supprime leur caractre critique. Lintrt de la redondance apparat alors pour viter larrt total du service. On peut, soit multiplier de tels composants lintrieur dun seul botier ou rack, soit former un ensemble de machines classiques communiquant entre elles. La seconde solution permet dutiliser un matriel standard donc bon march et aisment disponible ; elle permet aussi de modier une installation existante. Si le service peut tre rendu (simultanment ou non) par plusieurs machines, le problme darrt du systme ne se pose plus, pour des raisons de rparation, mise jour ou maintenance. Les autres machines du cluster prennent le relais en effectuant une commutation ou une nouvelle rpartition de la charge de travail. La synchronisation des donnes stockes doit alors tre prise en charge avec soin, cest un point dlicat rsoudre lors de la construction de clusters.
2.2
Outils et matriels
Cest sur larchitecture matrielle que peut se jouer lefcacit mais aussi le cot de la solution haute disponibilit sous GNU/Linux. Il est important de choisir une conguration de son systme adapte aux besoins. La combinaison des outils provenant de divers projets libres permet de rpondre au cas par cas chacune des exigences de lentreprise. On peut gnralement classer les outils et les architectures suivant trois grands axes : surveillance et rpartition de charge, mcanismes de redondance et tolrance aux pannes.
153 Boulevard Anatole France 93200 Saint Denis , France, SA au capital de 44.549 SIRET 403 646 342 00028 722Z Tl. : +33 1 49 22 68 00, Fax : +33 1 49 22 68 01 E-mail : alcove@alcove.fr Toile : www.alcove.fr
www.alcove.fr
Les outils disponibles dans le monde du logiciel libre prennent en charge cette rpartition diffrents niveaux : noyau du systme dexploitation (MOSIX 3 , LVS 4 ) ;
espace utilisateur (Mon 5 , GNUQueue) ; facilits proposes par certaines applications (Apache, Sendmail ).
Client
Serveur rpartiteur de charge (LVS) multiplexage des paquets entrants Rseau de service Trois serveurs effectifs (serveurs web Apache)
153 Boulevard Anatole France 93200 Saint Denis , France, SA au capital de 44.549 SIRET 403 646 342 00028 722Z Tl. : +33 1 49 22 68 00, Fax : +33 1 49 22 68 01 E-mail : alcove@alcove.fr Toile : www.alcove.fr
www.alcove.fr
Failover services : FOS). Le cluster se rsume alors une ou plusieurs paires de machines, principales et de secours. A laide dun systme de communication, chaque ordinateur surveille son ou ses jumeaux par lintermdiaire dun canal ddi. Il peut se prsenter sous la forme dun lien srie (avec ou sans protocole PPP 6 ), dun lien Ethernet ou simplement dune liaison spcialise (watchdog 7 ). Cette surveillance rapproche est la garantie de vie dune machine paire (pouls ou heartbeat). Si un noeud du cluster est amen tomber, son second prend le relais dans la seconde (ou mme plus rapidement), il sapproprie son identit et se charge dapporter le service demand par lutilisateur, sans laisser transparatre la faiblesse passagre du serveur matre. Il sagit ici de minimiser le temps de commutation. Lordinateur ayant subit la panne est rinitialis ou rpar pour reprendre, au plus vite, la surveillance attentive dun jumeau en service. On peut donc aisment comprendre que le temps de redmarrage dun serveur doit tre assez court et quune procdure de rcupration des donnes doit tre excute. Dans une redondance efcace, le partage des donnes stockes sur disque (sil y en a) est un point considrer attentivement lors du dveloppement de larchitecture matrielle. Deux solutions permettent de maintenir lunicit (intgrit) des donnes tout en permettant de les prserver si un incident survient : Partage du priphrique de stockage (RAID 8 , bus SCSI 9 partag pour une solution moindre cot) ;
Mise en reet (mirroring) des disques, cest dire copie de leur contenu intervalles rguliers.
Lexemple concret reprsente une paire de serveurs de mail (utilisant Sendmail) redondants. Le client sadresse en temps normal la machine principale. Si cette dernire tombe en panne, son pouls (heartbeat) cesse et la machine de secours sen aperoit. En effet, le processus Heartbeat 10 de la machine de sauvegarde interroge, travers la liaison srie, son processus pair. Ne rpondant pas, ladresse de la machine principale est attribue par Heartbeat la machine de secours via le processus Fake 11 , elle peut ainsi prendre le relais. Les donnes sont partages sur un disque NFS 12 mont alternativement par lune puis lautre des machines.
153 Boulevard Anatole France 93200 Saint Denis , France, SA au capital de 44.549 SIRET 403 646 342 00028 722Z Tl. : +33 1 49 22 68 00, Fax : +33 1 49 22 68 01 E-mail : alcove@alcove.fr Toile : www.alcove.fr
www.alcove.fr
Client
Machine de secours Sendmail + Fake (permet de prendre ladresse du serveur principal sil tombe, sur ordre de heartbeat)
Liaison de surveillance mutuelle, utilisation de heartbeat disque partag (NFS) sur liaison srie
F IG . 2.3 Exemple de mise en oeuvre de la redondance entre plusieurs serveurs de mail.
Les systmes tolrants aux pannes sont typiquement employs dans des applications critiques (transport, arospatiale, etc. ..). Certaines des techniques employes en haute disponibilit proviennent ces environnements. Il faut tout de mme garder lesprit que le cot matriel dun cluster haute disponibilit base de matriel standard est beaucoup moins cher quun serveur tolrant aux pannes. De tels systmes sont caractriss par : la mise en place de matriel spcialis (communications entre sites distants par bre optique, FDDI 13 , Fibre Channel 14 , systme de commutation rseau contrl par ligne srie 15 ) ;
En plus dune architecture massivement redondante, supprimant tous les points critiques du matriel, la mise en place dun systme de chiers rseau tolrant aux pannes est un composant essentiel dune telle solution. Bien que de tels systmes sous licence libre soient encore trs jeunes, ils apportent dj des services de haute qualit : copie conforme des donnes sur plusieurs serveurs ;
FDDI (Fiber-Distributed Data Interface) : Standard de transmission de donnes par bre optique sur un rseau local pouvant stendre sur 200 km. Le protocole FDDI est bas sur le protocole token ring. Il met en place deux anneaux qui peuvent tre employs en anneau primaire / anneau de secours ou conjointement, ceci augmentant le dbit jusqu 200 Mo/s. 14 Fibre Channel : Technologie de transmission de donnes entre ordinateurs haut dbit (jusqu 1 Go/s). Elle est particulirement employe pour connecter des units de stockages aux serveurs. On peut utiliser le Fibre Channel sur plusieurs supports physiques : bre optique (pour les grandes distances (10 km)), cble coaxial, paire torsade. 15 Ligne srie : Moyen de communication entre quipements lectroniques qui utilise un mode de transmission de donnes les unes la suite des autres (par opposition au mode de transmission en parallle). Sur un PC par exemple, la communication peut se faire par lintermdiaire du port srie suivant la norme RS-232.
13
153 Boulevard Anatole France 93200 Saint Denis , France, SA au capital de 44.549 SIRET 403 646 342 00028 722Z Tl. : +33 1 49 22 68 00, Fax : +33 1 49 22 68 01 E-mail : alcove@alcove.fr Toile : www.alcove.fr
connections/dconnections chaud ;
CodaFS 17 , ReiserFS, NFS, lutilisation de Enhanced Network Block Device 18 , de RAID mettent la disposition de la grappe de telles technologies. Le volume de stockage ainsi constitu est robuste et fournit de nombreuses facilits de gestion.
Client
Mon
Machine de secours
WDT
F IG . 2.4 Serveurs de chiers redondants tolrants aux pannes. Cet exemple met en oeuvre plusieurs techniques de tolrance aux pannes pour scuriser un ensemble de serveurs FTP 19 . La redondance agit ici comme dans lexemple prcdent : permettre de disposer dun serveur de secours si la machine principale tombe en panne. Dans cet exemple, la surveillance locale et de la machine paire est cone une carte spciale WatchDog Timer ICS WDT501-P qui se charge dalerter le systme en cas de panne. Le stockage est distribu sur un rseau Fibre Channel (carte Qlogic QLA2x00) et est gr par le systme de chiers Coda.
Systme de chiers journalis : systme de chiers assurant que toute mise jour des donnes est stocke dans un journal de transactions avant dtre crite sur le disque. Un tel systme de chiers permet de retrouver les donnes intactes, aprs un crash, et il rduit le temps de redmarrage du systme crash. 17 Coda File System : Systme de gestion de chiers rseau, distribu. Permet dimplmenter un volume de stockage tolrant aux pannes, redondant et scuris. 18 ENBD (Enhanced Network Block Device) : Module du noyau Linux permettant de voir un ensemble de blocs (disque dur, partition ou simplement chier) distants comme faisant partie de la machine locale. Les changes de donnes sont journaliss, peuvent tre scuriss et peuvent reprendre aprs une panne. 19 FTP (File Transfer Protocol) : Protocole standard de lInternet permettant dchanger des chiers entre machines. Cest un protocole applicatif qui utilise la pile TCP/IP.
16
153 Boulevard Anatole France 93200 Saint Denis , France, SA au capital de 44.549 SIRET 403 646 342 00028 722Z Tl. : +33 1 49 22 68 00, Fax : +33 1 49 22 68 01 E-mail : alcove@alcove.fr Toile : www.alcove.fr
www.alcove.fr
A. Rfrences
A Rfrences
Article prsentant une solution haute disponibilit dans Linux Journal (http://www2.linuxjournal. com/lj-issues/issue64/3247.html)
Article prsentant les diffrents types de cluster (http://www.linuxworld.com/linuxworld/ lw-2000-03/lw-03-clustering.html) HOWTO haute disponibilit (http://metalab.unc.edu/pub/Linux/ALPHA/linux-ha/ High-Availability-HOWTO.html) Projet mettant en oeuvre diverses conguration de serveurs haute disponibilit (http://ultramonkey. sourceforge.net) Guide dinstallation de Red Hat High Availability Server (http://www.redhat.com/support/ manuals/RHHAS- 1.0-Manual/) Linux Virtual Server (LVS) (http://www.linuxvirtualserver.org) Linux High Availability (http://www.linux-ha.org) GNU Queue (http://queue.sourceforge.net) Mon : Service Monitoring Daemon (http://mon.sourceforge.net/) Fake : Redundant Server Switch (http://fake.sourceforge.net/) Coda File System (http://www.coda.cs.cmu.edu/) ENBD (http://www.it.uc3m.es/~ptb/nbd/)
153 Boulevard Anatole France 93200 Saint Denis , France, SA au capital de 44.549 SIRET 403 646 342 00028 722Z Tl. : +33 1 49 22 68 00, Fax : +33 1 49 22 68 01 E-mail : alcove@alcove.fr Toile : www.alcove.fr