You are on page 1of 4

Viernes, 28 de junio de 2013

Registrarse/Entrar

Cluster de alta disponibilidad
Buscar:
Página Discusión Ver código fuente Historial

Navegación Página Principal Ayuda ¿Cómo buscar? Portal del colaborador Políticas de Moderación Artículos de referencia Artículos destacados Artículos certificados Notificar error o fusión Esquina de dudas Blog EcuRed En Facebook En Tw itter Biblioteca Foro de EcuRed Árbol de Categorías Plantillas recomendadas Actualidad Cambios recientes Página aleatoria Solicitudes Artículos requeridos Artículos a normalizar Artículos a fusionar Artículos huérfanos Artículos a validar Herramientas Lo que enlaza aquí Cambios relacionados Páginas especiales Versión para imprimir Enlace permanente Denunciar vandalismo

¿No sabes por donde empezar? Ayúdanos normalizando artículos. ¿Tienes experiencia? Crea alguno de estos artículos requeridos.

Cluster de alta disponibilidad (HA). En la actualidad las organizaciones dependen cada vez más de sus sistemas de información, y como es obvio se desea que estos sean seguros y permanezcan disponibles el mayor tiempo posible. Para cualquier empresa, una interrupción de sus sistemas de información supone un serio problema. Contenido [ocultar] 1 Efectos por la interrupción de un sistema de información 2 Tipos de cluster 3 Disponibilidad 4 Cálculo de la disponibilidad 5 Las razones para implementar un cluster de alta disponibilidad son 6 Configuraciones de alta disponibilidad 7 Funcionamiento de un cluster de alta disponibilidad 8 Elementos y conceptos básicos en el funcionamiento del cluster 8.1 Recurso y Grupos de Recursos 8.2 Intercomunicación 8.3 Heartbeat 8.4 Escenario Split-Brain 8.5 Monitorización de Recursos 8.6 Reiniciar Recursos 8.7 Migración de Recursos 8.8 Dependencia entre recursos 8.9 Preferencia de nodos 8.10 Comunicación con otros sistemas 8.11 Fencing 8.12 Quorum 9 Fuentes

Cluster de alta disponibilidad

Efectos por la interrupción de un sistema de información
Costes directos asociados a la reparación del sistema de información (piezas a reparar o sustituir, portes, servicios técnicos, etc.). Horas de trabajo adicionales para el departamento de sistemas que tiene que reparar la avería. Perdidas de productividad o incluso horas de trabajo perdidas por los empleados que dependen del sistema. Pérdida de ingresos, por las ventas o servicios que se han dejado de realizar. Costes indirectos: satisfacción de los clientes, perdida de reputación, mala publicidad, desconfianza de los empleados, etc. La disponibilidad es una medida relativa a la preparación para su utilización de un sistema informático, mientras que la fiabilidad es una medida relativa a su capacidad para mantenerse operativo en el tiempo sin ningún tipo de fallo. Los fallos potenciales de un sistema son los errores de componentes hardware, los errores o bloqueos del sistema operativo, los errores de las aplicaciones. Un Cluster de alta disponibilidad es un conjunto de dos o más máquinas que se caracterizan por mantener una serie de servicios compartidos y por estar constantemente monitorizándose entre sí.

Tipos de cluster
1. Alta disponibilidad de infraestructura: Si se produce un fallo de hardware en alguna de las máquinas del cluster, el software de alta disponibilidad es capaz de arrancar automáticamente los servicios en cualquiera de las otras máquinas del cluster (failover). Y cuando la máquina que ha fallado se recupera, los servicios son nuevamente migrados a la máquina original (failback). Esta capacidad de recuperación automática de servicios nos garantiza la alta disponibilidad de los servicios ofrecidos por el cluster, minimizando así la percepción del fallo por parte de los usuarios. 2. Alta disponibilidad de aplicación: Si se produce un fallo del hardware o de las aplicaciones de alguna de las máquinas del cluster, el software de alta disponibilidad es capaz de arrancar automáticamente los servicios que han fallado en cualquiera de las otras máquinas del cluster. Y cuando la máquina que ha fallado se recupera, los servicios son nuevamente migrados a la máquina original. Esta capacidad de recuperación automática de servicios nos garantiza la integridad de la información, ya que no hay pérdida de datos, y además evita molestias a los usuarios, que no tienen por qué notar que se ha producido un problema.

converted by Web2PDFConvert.com

La disponibilidad se mide por la percepción de una aplicación del usuario final. Su tiempo de vida es una sucesión de MTTFs y MTTRs. es reparado o sustituido por un nuevo componente.9999% es una tarea compleja y a la par supone un aumento exponencial del coste total del sistema. En caso de defectos. La monitorización del estado del entorno de trabajo requiere un software fiable. se dice que la disponibilidad de un sistema es la relación entre la duración de la vida útil de este sistema y de su tiempo total de vida. Por ejemplo. Si este nuevo componente falla. Los usuarios finales experimentan frustración cuando sus datos no están disponibles. Es importante determinar qué tipo de fallos pueden ocurrir en su entorno de alta disponibilidad y la forma de recuperarse de estos fallos en el tiempo que satisface las necesidades comerciales. a medida que este va fallando y siendo reparado. el sistema va de funcionando en modo reparación. Actividades como mover una tabla de un lado a otro dentro de la base de datos. podemos decir que el sistema tiene durante su vida. todos los servidores del cluster pueden ejecutar los mismos recursos simultáneamente. servidores web y aplicaciones. Si bien es posible que pueda recuperarse rápidamente de un corte de luz. continuas operaciones y detección de errores son características de una solución de alta disponibilidad. 2. es importante tener en cuenta si en la medición de MTTF son vistos como fallas las posibles paradas planificadas. ¿qué medidas adoptarías para recuperarla? ¿Su arquitectura ofrece la capacidad de recuperarse en el tiempo especificado en un acuerdo de nivel de servicio (SLA)? 3. por muy pequeño o inexistente que sea el tiempo de caída del sistema. Las razones para implementar un cluster de alta disponibilidad son Aumentar la disponibilidad Mejorar el rendimiento Escalabilidad Tolerancia a fallos Recuperación ante fallos en tiempo aceptable Reducir costes Consolidar servidores Consolidar el almacenamiento Configuraciones de alta disponibilidad Las configuraciones más comunes en entornos de clusters de alta disponibilidad son la configuración activo/activo y la configuración activo/pasivo. Es decir. y así sucesivamente. de dicho componente es esencial en la recuperación de un posible fracaso inesperado. uno de los componentes pueden ser considerado en uno de estos estados: Funcionando o en Reparación. si se lleva a otros 90 minutos para descubrir el problema. o incluso añadir nuevas CPU's a su hardware debe ser transparente para el usuario final en una arquitectura HA. una media de tiempo para presentar fallas (MTTF) y un tiempo medio de reparación (MTTR).Disponibilidad La disponibilidad es el grado en que una aplicación o servicio está disponible cuándo y cómo los usuarios esperan. En la actualidad. Fiabilidad: Los componentes hardware fiables de una solución de HA. El estado funcionando indica que el componente está operacional y el en reparación significa que ha fallado y todavía no ha sido sustituido por un nuevo componente. Esto puede ser representado por la fórmula de abajo: Disponibilidad = MTTF / (MTTF + MTTR) En la evaluación de una solución de Alta Disponibilidad. es la parte crítica de una implementación de una solución de alta disponibilidad. si falla uno de los componentes. Por lo tanto. es relativamente sencillo diseñar un sistema con una disponibilidad del 98% del tiempo. Configuración Activo/Activo En una configuración activo/activo. el software fiable. si una tabla importante es eliminada de la base de datos. es sustituido por otro. para ver de forma rápida y notificar al administrador de bases de datos (DBA) un problema. El componente fijo se considera en el mismo estado que un nuevo componente. eligiendo correctamente el hardware y software adecuados. Recuperación: Puede haber muchas opciones para recuperarse de un fracaso si ocurre alguno. Continuas operaciones: El continuo acceso a sus datos es esencial. Pero el paso del 98% al 99% y de aquí al 99. 4. 1. Fiabilidad. Detección de errores: Si un componente en su arquitectura falla. Durante su vida útil. El tiempo de vida útil del sistema es la suma de MTTFs en ciclos MTTF + MTTR ya vividos. En forma simplificada. entonces usted no puede satisfacer su SLA. y cuando se hace la sustitución volverá al estado funcionando. valorización.com . Cálculo de la disponibilidad En un sistema real. entonces la rápida detección. los servidores poseen los mismos recursos y pueden acceder a estos independientemente de los otros converted by Web2PDFConvert. En la práctica se alcanza un compromiso entre la disponibilidad pretendida y el coste abordable. para llevar a cabo las tareas de mantenimiento. incluida la base de datos. y ellos no entienden o son capaces de diferenciar los complejos componentes de una solución global.

Estos recursos serán los scripts de arranque del servicio.servidores del cluster. etc. lo que puede causar daños a dichos recursos. Este escenario ocurre cuando cada servidor en el cluster cree que los otros servidores han fallado e intenta activar y utilizar dichos recursos. sus recursos siguen estando accesibles a través de los otros servidores del cluster. su carga de trabajo pasa a los nodos restantes. tiempo de cpu. Los clientes acceden al servicio o recursos deforma transparente y no tienen conocimiento de la existencia de varios servidores formando un cluster. una desventaja de esta configuración es que los servidores pasivos no proporcionan ningún tipo de recurso mientras están en espera. pero no los activan hasta que el el propietario de los recursos ya no este disponible. El administrador puede configurar la periodicidad de estos monitores así como las acciones a llevar a cabo en caso de fallo. etc. Y por otro lado administra los servicios ofrecidos por el cluster. Monitorización de Recursos (Resource Monitoring) Ciertas soluciones de clustering HA permiten no solo monitorizar si un host físico esta disponible. cada nodo informa periódicamente de su existencia enviando al resto una "señal de vida". memoria. Las ventajas de la configuración activo/pasivo son que no hay degradación de servicio y que los servicios solo se reinician cuando el servidor activo deja de responder. un sistema de ficheros. Pero además. que no se pueda ver afectada por problemas de seguridad o rendimiento. Otra desventaja es que los sistemas tardan un tiempo en migrar los recursos (failover) al nodo en espera. proporcionando un mismo servicio a los diferentes usuarios. Elementos y conceptos básicos en el funcionamiento del cluster Recurso y Grupos de Recursos Tradicionalmente se entiende como servicio a un conjunto de procesos que se ejecutan en un momento dado sobre un servidor y sistema operativo. también pueden realizar seguimientos a nivel de recursos o servicios y detectar el fallo de estos. el software de cluster realiza dos funciones fundamentales. tiene que mantener continuamente entre estos una visión global de la configuración y estado del cluster.com . una dirección IP. Heartbeat El software de cluster conoce en todo momento la disponibilidad de los equipos físicos. el resto conoce que servicios se deben restablecer. El software de cluster permite definir grupos de recursos. De esta forma. Si un nodo del sistema falla y deja de estar disponible. interfaces de red. el software de cluster. en una configuración activo/pasivo. es habitual utilizar un canal especifico como una red IP independiente o una conexión serie. abstrae e independiza a los servicios de un host concreto. Sin embargo. En la siguiente figura se muestra como ambos servidores están activos. teniendo la capacidad de migrar dichos servicios entre diferentes servidores físicos como respuesta a un fallo. En un cluster de alta disponibilidad. Funcionamiento de un cluster de alta disponibilidad En un cluster de alta disponibilidad. Ya que la comunicación entre los nodos del cluster es crucial para el funcionamiento de este. Posibilitando que estos se desplacen entre diferentes servidores de forma trasparente para la aplicación o los usuarios. Este último provee a los procesos de los recursos necesarios para realizar su tarea: sistema de ficheros. haciendo que la solución sea menos eficiente que el cluster de tipo activo/activo. Intercomunicación El software de cluster gestiona servicios y recursos en los nodos. Por un lado intercomunica entre sí todos los nodos. La ventaja principal de esta configuración es que los servidores en el cluster son mas eficientes ya que pueden trabajar todos a la vez. consiste en un servidor que posee los recursos del cluster y otros servidores que son capaces de acceder a esos recursos. monitorizando continuamente su estado y detectando fallos. cuando uno de los servidores deja de estar accesible. mas de un servidor o aplicación pertenecientes a un mismo cluster intentan acceder a los mismos recursos. lo que produce una degradación del nivel global de servicio ofrecido a los usuarios. Sin embargo. Configuración Activo/Pasivo Un cluster de alta disponibilidad. Escenario Split-Brain En un escenario split-brain. El funcionamiento es sencillo. que son todos aquellos recursos necesarios por el servicio. gracias a la técnica de heartbeat. Reiniciar Recursos converted by Web2PDFConvert. ante el fallo de un nodo.

4. Esta última tiene limitaciones de distancia y actualmente ha quedado en desuso. Documento: LinuxHa . De este modo el tiempo de inactividad por el posible fallo es mínimo. memoria ram) y nos interese que. la primera medida que toman las soluciones de cluster es intentar reiniciar dicho recurso en el mismo nodo. Artículo: Clusters de alta disponibilidad (HA) . Un método simple para conseguirlo. Para evitar que el nodo corrompa recursos o responda con peticiones. Migración de Recursos (Failover) Cuando un nodo ya no esta disponible. 3. Lo que supone detener una aplicación o liberar un recurso y posteriormente volverlo a activar. Fuentes 1. Fencing En los clusters HA existe una situación donde un nodo deja de funcionar correctamente pero todavía sigue levantado. Tradicionalmente se implementa utilizando los llamados quorum devices. que habitualmente son un volumen de almacenamiento compartido exclusivo (disk heart beating). lo que se conoce como grupo de recursos. Categorías: Ciencias informáticas | Informática Términos y Condiciones Aviso legal Acerca de EcuRed Política de protección de datos converted by Web2PDFConvert. Consultado: 5 de diciembre de 2011.org". Preferencia de nodos (Resource Stickiness) En configuraciones de cluster con múltiples nodos. El software de cluster tiene que permitir definir estas dependencias entre recursos así como entre grupos.linuxidx.wikipedia. Dependencia entre recursos Habitualmente para que el cluster proporcione un servicio. Disponible en: "www. switch. Además puede que los servidores tengan características hardware diferentes (cpu. para un estado ideal del cluster. también debe de comprobar que. proceso). es verificar que cada nodo tiene accesible el router o puerta de enlace de la red de usuarios.com".com". Disponible en: "es. Disponible en: "www. Disponible en: "images. 2.org". La función principal del Fencing es hacerle saber a dicho nodo que esta funcionando en mal estado. Comunicación con otros sistemas El cluster tiene que monitorizar no solo que un servidor y sus servicios están activos. etc. Esto puede llegar a demorar bastante para servicios como las bases de datos. También existen implementaciones que utilizan una conexiones de red adicional o una conexión serie. sistema de ficheros. algunas implementaciones de cluster HA introducen un canal de comunicación adicional que se emplea para determinar exactamente que nodos están disponibles en el cluster y cuales no. y lo que realizan es un reinicio completo de todo un grupo de recursos (servicio). Artículo: Clustering de alta disponibilidad . sus recursos tienen que activarse en el orden apropiado ya que unos dependen de otros.lintips.Cuando un recurso falla. dicho servidor no queda desconectado de la red por el fallo de un latiguillo.com . los clusters lo solucionan utilizando una técnica llamada Fencing. Este comportamiento se define mediante la preferencia de nodo en la definición de cada recurso. de cara a los usuarios. el software de cluster reacciona migrando el recurso o grupo de recursos a otro nodo disponible en el cluster. Quorum Para evitar que se produzca un escenario de Split-Brain. determinados servicios se ejecuten siempre en un determinado servidor. Algunas implementaciones no permiten reiniciar un único recurso. Consultado: 5 de diciembre de 2011.ibiblio. retirarle sus recursos asignados para que los atiendan otros nodos. accediendo a ciertos recursos y respondiendo peticiones. es común distribuir los servicios a proporcionar entre los diferentes servidores. Consultado: 5 de diciembre de 2011. Por lo tanto el software de cluster debe comprobar que los nodos son alcanzables. Cuando se arranca o detiene un servicio. son necesarios no solo un recurso si no varios (ip virtual. y dejarlo en un estado inactivo. o cuando un recurso fallido no se puede reiniciar satisfactoriamente en un nodo. Consultado: 5 de diciembre de 2011. Artículo: Cluster de alta disponibilidad . y el cluster seguirá proporcionando el correspondiente servicio.