Sie sind auf Seite 1von 20

Gestin de Continuidad...

Gestin de Continuidad
Alejandro Teruel Versin 1.1 16 de febrero 2011
Versin previa: 27 de septiembre a 1 de octubre 2010

Introduccin
Vivimos en un mundo imperfecto donde lamentablemente ocurren eventos dainos. Si su impacto es relativamente menor podemos tratarlo como un incidente, en caso contrario podemos estar en presencia de un desastre. Algunos de estos eventos son de origen natural mientras que otros, denominados antropognicos, son causados o potenciados por personas, en forma intencional o no. La posicin de los muy optimistas es que estos eventos nunca le pasarn, la posicin de los muy pesimistas es que ocurrirn pero que no vale la pena hacer nada al respecto. Si tomamos en cuenta adecuadamente la posibilidad que ocurran estos eventos, podemos tomar medidas antes, durante y despus de estos eventos para reducir la posibilidad de que ocurran, la severidad de los daos que puedan causar o el esfuerzo y tiempo que necesitamos para recuperarnos parcial o totalmente de ellos. Defensa Civil (denominada oficialmente en Venezuela como Proteccin civil y administracin de desastres) es un interesante modelo a seguir para el administrador de servicios informticos. El postulado bsico de Defensa Civil, a nivel internacional, es salvaguardar la vida de las personas, sus bienes y el entorno (Wikipedia). Podemos distinguir: Acciones a realizar antes del evento; Acciones a realizar durante el evento; Acciones a realizar despus del evento. Acciones preventivas de corto, mediano y largo plazo que buscan evitar la ocurrencia de los eventos dainos o aminorar el impacto que pudieran tener. Acciones de vigilancia y alerta.

Las acciones previas incluyen:

Las acciones a realizar durante la ocurrencia del evento, es decir durante la emergencia, pueden ser de coordinacin, de atencin y de mitigacin de impactos. Estas acciones pueden ser reactivas y/o proactivas. Las acciones que se realizan despus del evento incluyen acciones de reanudacin, recuperacin, reconstruccin y evaluacin. El administrador de servicios informticos debe prepararse para contingencias de variada ndice, a ttulo personal, familiar, profesional y ciudadano. Esto incluye prepararse para enfrentar posibles dilemas debidos a las responsabilidades asociadas con estos diferentes roles. Qu hacer si una descarga elctrica daa un servidor crtico bajo la responsabilidad directa del administrador cuando debe ir a buscar su hijo de dos aos a la guardera porque est enfermo?

Gestin de Continuidad...2 La mayora de las metodologas de gestin de servicios informticos como ITIL se centran en el problema de la continuidad de funcionamiento del sistema de recursos (informticos) en el contexto de la continuidad de los procesos crticos de continuidad organizacional (o de negocios). Sobresimplificando, qu hago por los recursos informticos, para que el proceso crtico del negocio o siga funcionando o vuelva a funcionar en un tiempo aceptable al menor costo y esfuerzo posible? El modelo de servicios centrado en procesos sugiere que podemos crear un mapa o matriz de acciones a realizar para lograr tal continuidad e incorporar tales compromisos en los acuerdos de niveles de servicio: Acciones previas Acciones durante la emergencia Prestador Cliente Insumos Beneficios Contraprestaciones Sistema de recursos Puntos de contacto Integracin Valores Acciones posteriores

Ejemplos
Considere los siguientes eventos y determine si pueden considerarse como desastres,as como las acciones a realizar en las tres etapas: 1. A final de la dcada de 1980, el centro de computacin de la Fuerza Area venezolana en la base de La Carlota se inund debido al desborde de una quebrada cercana a ella. 2. En los deslaves de Vargas en diciembre 1999, las oficinas de admisin y control de estudios de lo que se conoca como el Ncleo (actualmente Sede) del Litoral de la Universidad Simn Bolvar quedaron destruidas. 3. En el valle de Sartenejas, donde se encuentra otra de las sedes de la Universidad Simn Bolvar, caen rayos, la sobrecarga correspondiente ha daado, entre otros, a servidores y enrutadores. 4. A pocos das de un evento electoral importante, un contratista que usaba un martillo hidrulico para acelerar la remocin de una vieja y deteriorada capa de impermeabilizante, atraves la placa del techo y cort el cable que alimentaba una sala de totalizacin de votos. 5. Un administrador descubre indicios de acceso no autorizada a datos confidenciales, especficamente a un computador que contiene un examen departamental, horas antes que est previsto hacerle el examen a ochocientos estudiantes. 6. Debido a imprevistos, un equipo de desarrollo de software se da cuenta, el 30 de octubre, que es sumamente probable que no pueda culminar el sitio de comercio electrnico en la fecha

Gestin de Continuidad...3 acordada con el cliente (30 de noviembre), ltima fecha en que puede hacerse el lanzamiento a tiempo para las ventas navideas. 7. Una hora antes de abrir el proceso de inscripcin/publicacin de resultados del examen de admisin, usted, como director(a) de Admisin y Control de Estudios, se da cuenta que el sistema no logra iniciarse porque un mdulo de autenticacin no funciona. El nico tcnico que puede revisar y corregir este problema (a) no se localiza o (b) se encuentra hospitalizado. 8. Usted es el responsable del resguardo de documentos y archivos de su institucin que se consideran crticos desde el punto de vista legal o histrico. El jefe de un departamento que no est a su cargo, inconsultamente decidi que requera espacio para archivos y destruy documentos que l consideraba duplicados, obsoletos o sin importancia. 9. Cmo respalda usted los archivos digitales personales que considera importante? La informacin de su tesis se vol de su computador y (a) no tiene respaldo, (b) tiene respaldo, pero al intentar recuperar los datos en l, se daa el archivo del respaldo, (c) tiene respaldo, pero al intentar el proceso de recuperacin se da cuenta que es un respaldo demasiado viejo, (d) tiene respaldo pero se cuenta que ya no cuenta con una mquina capaz de leer los datos del respaldo (Se report que el Museo Britnico perdi los esfuerzos de varios aos de digitalizacin de su material por esta razn).

Objetivo clave
Toda institucin lleva a cabo actividades que son crticas para sobrevivir y para cumplir su misin. Son crticas en cuanto a que dejar de llevar a cabo tales actividades ms all de un cierto perodo, producen prdidas inaceptables para la institucin. La gestin de la continuidad institucional (que se suele denominar gestin de la continuidad del negocio) se encarga de planificar y ejecutar las acciones necesarias para que las actividades crticas no sean interrumpidas o, en todo caso, se minimicen las prdidas inaceptables. Un servicio informtico o informatizado puede contribuir a las actividades crticas de la organizacin prestadora del servicio o a las actividades crticas de la institucin del cliente. La gestin de continuidad de servicios informticos ( informatizados) planifica y ejecuta las acciones necesarias para que las actividades crticas institucionales puedan continuar en un plazo aceptable a pesar del dao o las fallas que pueda presentar el servicio. La gestin de disponibilidad de servicios planifica y ejecuta acciones que atienden incidentes que pueden ser controlados antes que impactos a las actividades crticas institucionales, mientras que la gestin de continuidad de servicios lidia con eventos catastrficos cuyo alcance potencialmente sobrepasa el mbito netamente informtico. En la prctica, la frontera entre gestin de disponibilidad y gestin de continuidad es bastante fluida, por lo que ambas funciones deben trabajar de manera integrada. La falla de un servidor es un evento relativamente predecible y por ende una buena gestin de disponibilidad debera lograr resolverla, evitando que la falla escale a nivel que el evento necesite considerarse y tratarse como catastrfico. Un incendio, inundacin, sismo u otro evento capaz de destruir o hacer fallar mltiples recursos informticos y no informticos de un servicio e impactar la continuidad institucional pertence al alcance de la gestin de continuidad informtica e institucional. Dado el rol clave de los desastres, el objetivo clave de la gestin de continuidad es evitar, en la medida de lo posible, desastres prevenibles y aminorar el impacto de los desastres sobre la disponibilidad de servicios crticos institucionales. Aminorar tal impacto implica:

Gestin de Continuidad...4 Garantizar la pronta recuperacin de los servicios crticos de tecnologa informtica tras un desastre. Establecer polticas y procedimientos que eviten, en la medida de lo posible, las consecuencias negativas de un desastre o causa de fuerza mayor en las actividades crticas institucionales del prestador o el cliente.

Formalmente: El objetivo de la Gestin de Continuidad de los Servicios de Tecnologa Informtica es proporcionar el soporte necesario a la Gestin de Continuidad de la Organizacin (Business Continuity Management) asegurando que los servicios requeridos de infraestructura y servicio de TI puedan ser reestablecidos en un mximo prestablecido de tiempo despus de la ocurrencia de un desastre. Bon et al [2005]

Sntomas de gestin inadecuada de este proceso


[Dejar que estudiantes sugieran, inicialmente y luego repasar y completar al final de la clase.] 1. No hay planes de contingencia. 2. Los incidentes escalan fcil y frecuentemente a desastres. 3. Las emergencias son frecuentes. 4. Nadie sabe qu hacer en una emergencia o impera la confusin e inconsistencias de acciones. 5. No se localiza a personal clave. 6. No hay ejercicios de contingencia (emergency drills). 7. No se revisan y actualizan los planes de contingencia. 8. En caso de emergencia no se encuentran componentes requeridos o se encuentran pero no funcionan adecuadamente.

Reto ms significativo
Dedicar tiempo, esfuerzos y recursos a la planificacin y ejercitacin de acciones ante contingencias. En la prctica la urgencia e inercia de lo cotidiano incide en el descuido de este tipo de actividades. Como muestra basta un botn: el descuido de los respaldos personales por parte de muchos usuarios y profesionales de la computacin... Tambin es importante que el responsable de los planes de contingencia no pierda credibilidad al exagerar las amenazas o insistir en la produccin de planes sobre-elaborados y poco factibles.

Gestin de Continuidad...5

Actividades de la Gestin de Continuidad Identificacin de servicios crticos


Determinar, desde el punto de vista de la organizacin, cules son los servicios que se consideran crticos? Con la ayuda de la base de configuracin e informacin sobre la capacidad de los recursos y procesos, se pueden identificar los componentes crticos de estos servicios.

Evaluacin de riesgos
Una vez identificados los activos o componentes crticos (assets), se analizan las amenazas a esos componentes se estima la vulnerabilidad (alta, media y baja) de esos componentes crticos ante tales amenazas. En teora, los riesgos se estiman tomando en cuenta el producto de la probabilidad de ocurrencia de la amenaza por un estimado del impacto que los componentes dejen de funcionar o funcionen mal como se esperara, en ambientes de negocio, es usual utilizar como medida de impacto un estimado de prdida monetaria. En la prctica podemos aplicar un doble umbral, es decir slo proceder a analizar los componentes de alto impacto crtico que a la vez sean muy o medianamente vulnerables. Los riesgos menores pueden considerarse responsabilidad de la Gestin de Incidentes, la Gestin de Problemas y la Gestin de Disponibilidad. Es usual tambin recurrir a una lista de amenazas y riesgos, algunas de las cules sern especficos al negocio. OGC[2001] presenta las siguientes listas, que ha sido ligeramente adaptada a nuestro medio: Riesgo Prdida de recursos internos de TI Incendio Falla o dao elctrico Vandalismo Inundacin Impacto vehicular (carro, avin...) Fenmeno climtico (p. ej. huracn) Terremoto Desastre ambiental Ataque terrorista Sabotaje o ataque hacker Falla tcnica Dao accidental Software de baja calidad (!) Calor y humedad Manejo inadecuado de sustancias peligrosas Operacin inadecuada Amenaza

Gestin de Continuidad...6

Riesgo Prdida de sistemas externos

Amenaza Cualquiera de las anteriores Demanda excesiva de servicios Ataques, incluyendo por negacin de servicio Falla tcnica

Prdida de datos o archivos

Falla tcnica Error humano Ataque

Prdida de servicios de red

Daos o negacin en acceso a servicios de red Prdida de servicio debido a problemas en el proveedor Ataque

Personal clave no est disponible Paro Negacin de acceso a instalaciones Renuncia Accidente/enfermedad Dificultades de transporte Incomunicado (celular sin pila, apagado, ....) Atiende otra falla crtica Falla de proveedores Falla empresarial (e.g. bancarrota) Negacin de acceso a instalaciones Personal del proveedor no est disponible Incumplimiento de acuerdo de servicio Si bien los medios tienden a reportar los daos causados por las grandes fuerzas de la naturaleza como huracanes, inundaciones y terremotos, Schliesser[2002] recuerda que la mayora de las interrupciones catastrficas de servicios se deben a incidentes relativamente pequeos y localizados: una tubera de agua que se revienta o la falla elctrica de un dispositivo1.

1 Hinds[2010] entrevist al experto ambiental venezolano Juan Carlos Snchez quien indic que ...en Venezuela ocurrieron 14 catstrofes naturales de origen hidrometereolgico entre 1987 y 2008, lo cual arroja una frecuencia de 1 cada 18 meses. La Fundacin Venezolana de Investigaciones Sismolgicas (Funvisis) considera que los eventos hidrometereolgicos son responsables del 87% de los fallecidos y 98% de las viviendas destruidas por desastres naturales en Venezuela. El mismo artculo menciona que adems de los catorce sucesos que se consideraron catstrofes por su magnitud, en el mismo perodo en Venezuela ocurrieron 1,429 sucesos de menor escala, o sea 65 eventos hidrometeorolgicos por ao.

Gestin de Continuidad...7 Figura 1: Diagrama de Ishikawa de Actividades Claves en la Gestin de Continuidad

Gestin de Continuidad...8

Medidas preventivas
Se deben desarrollar actividades preventivas para reducir las vulnerabilidades ms marcadas ante las amenazas ms probables. Un grupo de actividades preventivas tiene que ver con intentos de reducir la probabilidad o evitar que se presente la amenaza, otro grupo con reducir o eliminar la vulnerabilidad, mientras que un tercer grupo de actividades tiene que ver con prepararse para identificar lo antes posible la ocurrencia de una amenaza y estar listo para reaccionar adecuadamente cuando se presente. Por ejemplo: Ubicar el sistema de recursos computacionales de un servicio informtico en una zona de menor riesgo ssmico, reduce la probabilidad de daos ssmicos; Desconectar un sistema de administracin de bases de datos de la red evita que sea vulnerable a ataques por la red; Instalar pararrayos puede reducir la vulnerabilidad de sistemas informticos ante rayos; Instalar, mantener y ejercitar sistemas adecuados contra incendios permiten reaccionar rpidamente y sofocarlos antes que causen extensos daos.

Una estrategia costosa pero vlida para ciertos servicios crticos, est basada en el enfoque de fortaleza, valga decir en blindar extensivamente las instalaciones y recursos informticos. Instalar generadores elctricos propios blinda a una instalacin contra cadas del suministro elctrico, as como lo hace la instalacin de recursos espejos, capaz de entrar en funcionamiento en caliente, cuando las circunstancias lo demanden. Paradjicamente concentrarse en blindar una instalacin puede ser contraproducente o incrementar las vulnerabilidades relacionadas con el acceso a esos recursos: en un servicio Internet, podemos reforzar los servidores en una instalacin blindada, pero si falla la conexin a Internet de esa instalacin, el servicio deja de prestarse2. En la prctica tendremos que balancear las inversiones en acciones de prevencin contra las inversiones en contencin y recuperacin. Las medidas de prevencin incluyen la ejercitacin de los planes de contingencia y atender que todo el personal pertinente sepa cmo actuar en una emergencia. Schliesser[2002] menciona que la rotacin de los operadores de los turnos nocturnos es muy alto y ms de un operador novato o temporal desconoce un aspecto tan bsico como a quin llamar en caso de emergencia.

Medidas de recuperacin y restauracin de servicios


Schliesser[2002] advierte que debe distinguirse conceptualmente entre la restauracin de un servicio y la recuperacin despus de un desastre. La gestin de continuidad enfatiza la importancia de restaurar servicios crticos en el menor tiempo de posible, as sea trasladando todas las operaciones del servicio a otra localidad; la recuperacin del desastre puede incluir las reparaciones necesarias para recuperar las 2 Es anlogo a lo que le pas a los franceses entre las dos guerras mundiales cuando se dedicaron a construir la lnea
Maginot, un sistema de ms de cien fortalezas, numerosos fortines y 400 kilmetros de galeras cuyo objetivo era detener o retrasar cualquier posible avance alemn en una guerra de trincheras como lo haba sido la Primera Guerra Mundial. En 1940, los alemanes invadieron Francia. Utilizaron una concepcin estratgica radicalmente distinta a la guerra de trincheras y se apoyaron en la movilidad de las divisiones Panzer, bombardeos areos y tropas aerotransportadas, meticulosamente evitando las fortalezas de la lnea. El 13 de mayo de 1940 el ejrcito alemn cruz la frontera con Francia; para el 15 de mayo ya haba dejado atrs la lnea Maginot...

Gestin de Continuidad...9 instalaciones daadas y lgicamente puede llevar ms tiempo. Algunas opciones de recuperacin incluyen: 1. Improvisacin, se ver qu se pueda hacer cuando ocurra el desastre evidentemente una opcin poco profesional. Los grandes msicos de jazz saben que se requieren desarrollar habilidades de improvisacin y que tal desarrollo se logra combinando inspiracin con prctica. 2. Proporcionar el servicio manualmente. Esta opcin puede funcionar por un tiempo limitado en el contexto de algunos servicios, mientras que para otros servicios prescindir de recursos informticos es quedarse sin servicio. 3. Recortar el servicio. Por ejemplo, al caerse una de las localidades adscritos a un servicio distribuido, la operacin puede continuarse en las otras localidades (pero, sin acceso al inventario en la localidad que est fuera de lnea). Otra opcin es continuar operaciones de consulta sobre una copia local de una base de datos distribuida pero suspender operaciones que modifiquen esa base de dato, o acumular tales solicitudes para ser procesadas al reestablecerse el servicio. 4. Acuerdos de reciprocidad, con otra empresa. Hace aos dos de las filiales de Petrleos de Venezuela llegaron a tal acuerdo; si el centro de computacin de una de las filiales quedaba inoperativa el acuerdo era que las operaciones se trasladan a la otra filial. Afortunadamente, un tiempo despus decidieron hacer una prctica de contingencia, es decir simularon una falla catastrfica para poner a prueba el plan de recuperacin. En la prctica detectaron que los dos dos centros haban divergido en sus configuraciones y equipamiento, y que, por ende, los sistemas crticos de una filial no corran en el centro de computacin de la otra filial. Este tipo de acuerdo implica que ambas empresas deben mantenerse compatibles y, adems requiere prcticas y auditoras peridicas para cerciorarse que la compatibilidad requerida se mantiene y que el personal involucrado sabe qu hacer y lo hace eficientemente. Algunas de estas experiencias se han visto entorpecidas por cuanto se le ha negado el acceso a instalaciones a miembros claves del equipo de traslado de operaciones. 5. Acuerdos con proveedores para que suministren equipos o capacidad de procesamiento en caso de emergencia en un perodo bien definido. Ntese que esto constituye una recuperacin en fro pues debe pasar un tiempo apreciable tiempo (medido en horas o das) para volver a poner en marcha al sistema. Algunos proveedores ofrecen instalaciones fijas o mviles desde los cuales el prestador de servicios pasa a operar sus servicios.En contraposicin la recuperacin en caliente, implica la existencia de facilidades espejo o de recursos redundantes que entran en operacin al poco tiempo (mximo segundos) despus de detectada la falla. En todo caso, una recuperacin exitosa puede darse slo si existen los respaldos apropiados de datos, software, equipo, personal y cualquier otro componente de configuracin que pueda ser relevante. La poltica de respaldos debe elaborarse con el debido cuidado y es crucial que los respaldos se realicen con la periodicidad adecuada y que se tomen las precauciones necesarias para salvaguardarlos. Esto implica al menos un respaldo localizado en la misma institucin y otra fuera de la institucin. Ejercicio (en clase) 1. Uno de los Secretarios previos sugiri que la infraestructura informtica de los servicios crticos de la Universidad deba ser replicada en cada sede de la Universidad, de modo que cualquiera de las sedes pueda funcionar como espejo de cualquier otra. Qu opinin le merece la idea?

Gestin de Continuidad...10 2. Toda institucin debera mantener una lista de contactos para cada uno de sus miembros (por qu?) Hoy en da, la tasa de rotacin de nmeros de telfonos celulares o direcciones de correo electrnico es tan alto que las listas se vuelven obsoletas rpidamente. Qu mecanismo sugiere para mantener actualizadas tales listas?

Alertas
Los planes de continuidad pueden incorporar niveles de vigilancia y alerta (tpicamente verde, naranja/amarillo y roja) cuando hay posibilidades de hacerle seguimiento a potenciales eventos. La Universidad Simn Bolvar ha diseado e implantado un sistema de alerta temprano de inundaciones para la Sede del Litoral.

Diseo de gestin de continuidad


Se ha sugerido que los requerimientos necesarios para manejar bien la continuidad del servicio debe tomarse en cuenta durante el proceso de diseo del servicio y no constituir una actividad llevada a cabo a posteriori. Evidentemente es ms eficiente localizar, desde el principio, a una sala de servidores en un primer piso, fuera del alcance de las aguas, que inventar cmo reducir la vulnerabilidad de esa misma sala a inundaciones una vez colocada en un stano. La prxima figura resume una agrupacin posible de actividades, basada en el modelo ITIL (OGC[2001]) :
Analizar impacto sobre el negocio

Evaluar riesgos

Acordar estrategia de continuidad

Actividades/Procesos (basado en el modelo correspondiente ITIL)

Planificar organizacin e implantacin Implementar Implementar Desarrollar planes medidas de reduccin facilidades de respaldo de recuperacin de riesgos Desarrollar procedimientos Entrenar y concientizar Revisar y auditar Gestin de cambios

Pruebas

Evaluar

Gestin de Continuidad...11

Relaciones con otros procesos


Gestin de disponibilidad Estrechamente vinculado con la gestin de continuidad. La gestin de disponibilidad monitorea el servicio y dispara los procesos de restauracin diseados por la gestin de continuidad. Gestin de configuracin Es la base necesaria para analizar las vulnerabilidades de recursos, indicar la localizacin de recursos redundantes, almacenar los planes de contingencia, proporcionar informacin crucial para localizar proveedores,clientes y personal necesario para la gestin de continuidad. Gestin de capacidad La gestin de recuperacin debe tomar en cuenta los resultados de la gestin de capacidad. Si no lo hace, el plan de contingencia puede resultar insuficiente ante el crecimiento en el volumen de operaciones. Gestin de incidentes La deteccin y reporte de ciertos incidentes claves pueden ser invalorables para la gestin de continuidad, al igual que para la gestin de disponibilidad Gestin de problemas, cambios y versiones Cuando se detectan y resuelven problemas y se llevan a cabo cambios en ls infraestructura de un servicio, se toma nota de ellos para la infraestructura de gestin de continuidad? Por otro lado, la institucin se cerciora que no se lleven a cabo cambios irrelevantes en una situacin de alerta amarillo? Gestin de seguridad Los planes de contingencia deben incluir su impacto sobre la gestin de seguridad. Una institucin, sus servicios y su infraestructura puede estar mucho ms vulnerable durante una emergencia: es responsabilidad de la gestin de seguridad de que esto no sea as, en la medida de lo posible. Por otro lado, la insistencia en mantener los procedimientos usuales de seguridad durante una emergencia puede comprometer seriamente la recuperacin del servicio. Esto es particularmente crtico en situaciones de ataque intencional. Desde hace mucho tiempo se sabe que los ataques informticos pueden crear situaciones de emergencia para facilitar su proceso de penetracin, acceso, expoliacin o destruccin de datos electrnicos (Fugueras, 2004). Gestin de nivel de servicios A nivel del cliente, la continuidad como atributo se esconde tras la disponibilidad. El cliente busca disponibilidad, el prestador es quien se preocupa por la continuidad necesaria para cumplir con la

Gestin de Continuidad...12 disponibilidd. Sin embargo, la continuidad no debe ser invisible en los acuerdos de servicio. No es slo que detrs de la punta del acuerdo del tiempo mximo de interrupcin de servicio est el resto del tmpano de guardias, respaldos, repuestos, recursos e instalaciones espejo y mecanismos de arranque en fro o en caliente que son materia de una buena gestin de continuidad. Tambin es precisar cmo y cundo se reporta la prdida de continuidad al cliente, pues si el prestador es responsable de la continuidad de su servicio, el cliente es quien sufre las consecuencias de esa falta de continuidad. Esto es particularmente cierto cuando el cliente a su vez ofrece un servicio que se monta sobre el servicio informtico de menor nivel. Esto se puede ver claramente en la Universidad, donde la Direccin de Admisin y Control de Estudios (DACE) es quien atiende al cliente ltimo, valga decir a los estudiantes o aspirantes a estudiantes en los procesos de admisin, inscripcin trimestral, retiro, y certificacin de notas entre otros, pero depende a su vez de, entre otros, la Direccin de Servicios Telemticos quien administra los servidores y la red. Si estos recursos provocan una falla de continuidad, quien da la cara ante los miles de usuarios es DACE; es cuestin de respeto y solidaridad bsica que el DST mantenga informada sobre una situacin de falla de continuidad, incluso que la apoye buscando una salida urgente para reestablecer parcialmente el servicio lo ms pronto posible (por ejemplo se aceptan solicitudes manuales a transcribir poteriormente). El acuerdo de servicio puede incluir clusulas de penalizacin para fallas de continuidad, o de estmulo si se rebasa un umbral mnimo. En otros contextos, es importante incluir en el acuerdo el modo y circunstancias de corte o suspensin del servicio. Si bien el acuerdo de servicio puede indicar claramente que el servicio se cortar si no se ha pagado para una fecha lmite dada, lo considerado es al menos notificar al cliente oportunamente del riesgo de corte. Tan importante como el procedimiento de corte es el procedimiento de reestablecimiento de servicio despus de un corte. A ttulo de ejemplo considere la situacin de una pareja de personas de la tercera edad, uno de los cuales est senil yencamado y la otra de las cuales requiri unos das de hospitalizacin. Ahora imagnese el impacto y consecuencias de un corte de luz intempestivo, por falta de pago y un procedimiento que obligue al usuario a trasladarse a una oficina especial para solicitar un reestablecimiento d servicio en 72 horas... Gestin financiera Es importante determinar el costo de la continuidad, el balance entre la inversin en prevencin y la inversin en restauracin y recuperacin del servicio, y el asegurar tener la disponibilidad de fondos necesarios para afrontar ciertos tipos de emergencia.

Factibilizando el alcance
Una posible estrategia de gestin de continuidad es comenzar por planificar e implantar las acciones de prevencin para evitar y contener los mayores riesgos de continuidad, extendiendo tal planificacin a cada vez ms componentes del proceso y del sistema de recursos que lo sustenta. Se trata entonces de una estrategia sistemtica que desarrolla planes de prevencin y contingencia cada vez ms detallados, a nivel de proceso, a nivel de componente y a nivel de subcomponente (qu hago si se quema la fuente de poder de la laptop del vendedor en la mitad de una presentacin a clientes potenciales?). De esta manera, la estrategia parece apuntar a la elaboracin de un sistema experto en el que la gestin de la continuidad se reduce a un algoritmo y una base de datos. Varias caractersticas atentan contra la factibilidad ltima de esta estrategia.

Gestin de Continuidad...13 Primero, los planes deben factibilizarse en cuanto a costos; es poco probable que se cuente con un presupuesto que le permita a cada vendedor andar con una laptop de respuesto, por ejemplo. Segundo, si bien es cierto que algunos eventos y sus consecuencias son (parcialmente) previsibles y que en algunos casos podemos preveer lo que previamente era un imprevisto, siempre quedarn eventos imprevistos. Todo prestador de servicios con experiencia tiene sus cuentas de lo imprevisible que resultan las acciones de algunos de sus clientes y usuarios. Al fin y al cabo, la gestin de continuidad tiene que tratar imprevistos3. Como punto de comparacin, podemos considerar a los bomberos. El bombero est entrenado para afrontar, en detalle, cada contingencia posible? Al bombero se le entrena para afrontar cierto tipo de contingencias, a manejar bien sus herramientas, a trabajar en equipo, a identificar situaciones de riesgo, a identificar situaciones en la que puede requerir asistencia especializadaa, a enfrentarse a lo imprevisto. El bombero no se la pasa apagando incendios, se la pasa preparndo mental y fsicamente para apagar incendios. Por ende el bombero dedica una buena parte de su tiempo al entrenamiento, imaginndose, viviendo y resolviendo simulacros del tipo qu hacer si ocurre X. El profesional en servicios informticos debe hacer lo mismo; una parte de su tiempo debe pasarla entrenndose para enfrentar contingencias previsibles (entrenamiento para reparar un servidor, para reinicializar un servidor, para desalojar una sala de servidores) pero otra parte de su tiempo debe dedicarla a plantearse contingencias tipo qu hacer si ocurre X?, y desarrollando una actitud (mindset) para actuar efectiva y oportunamente cuando se presenta una emergencia debido a un imprevisto. Es importante tambin involucrar al cliente en algunos de estos ejercicios. A veces uno se olvida que, muchas veces, la persona ms angustiada durante la interrupcin de un servicio y la que puede estar incurriendo en mayores prdidas, es el cliente. Esconderle la noticia, hacerle opaca la situacin puede ser contraproducente, porque dejas a tu cliente sin informacin cierta, le reduces su margen de maniobra y lo haces sentirse ms desvlido. Si un servidor se cae y no hay forma de reestablecer el servicio antes de dos horas, lo tico, lo responsable, repetuoso y honesto es avisarle esto claramente al cliente, en vez de: 1. no decirle nada, ni responderle sus llamadas por miedo a que te distraiga o te grite 2. avisarle que estar listo en un ratico o que ya estamos trabajando sobre ello, o la tautolgica e indefinida el servicio se reestablecer cuando logremos reestablecerlo. Tenga paciencia. Recuerdo haber ledo de un caso donde un avin de pasajeros sufri un desperfecto en pleno vuelo. El capitn inform inmediatamente a los pasajeros que el avin tena un desperfecto y se comprometi a reportar el estatus de la nave, cada cinco minutos, as no hubiera cambio en la situacin. Mantener al cliente informado de lo que est pasando es un mnimo necesario. Hay tcnicas sobre cmo y cundo dar malas noticias que el profesional de servicio debe dominar. Una excelente introduccin al tema
3 Easterly[2006] presenta una tipificacin similar entre lo que denomina planificadores y buscadores: ...planners announce good intentions but do not motivate anyone to carry them out; searchers find things that work and get some reward. Planners raise expectations but take no responsibility for meeting them; searchers accept responsibility for their actions. Planners determine what to supply; searchers find out what is in demand. Planners apply global blueprints; searchers adapt to local conditions. Planners at the top lack knowledge of the bottom; searchers find out what the reality is at the bottom. Planners never hear whether the plan got what they needed; searchers find out if the customer is satisfied. A planner thinks he already knows the answers; he thinks of poverty as a technical engineering problem that his answers will solve. A searcher admits he does not know the answers in advance; he believes that poverty is a complicated tangle of political, social, historical, institutional, and technological factors. A searcher only hopes to find answers to individual problems by trial and error experimentation. A planner believes outsiders know enough to impose solutions. A searcher believes only insiders have enough knowledge to find solutions, and that most solutions must be homegrown.

Gestin de Continuidad...14 puede encontrarse en Foster[1997] o Buckman[1992], aunque en este ltimo caso deber adaptar sus recomendaciones, hechas para el profesional de la salud, al contexto de servicios informticas. Tambin es importante tomarse el tiempo para hacer los reportes post-facto de una emergencia, y de las pruebas o ejercicios del plan de continuidad, para evaluar la contribucin de las medidas tomadas para prepararse, atender y recuperarse de la situacin causada y sugerir mejoras. Finalmente es importante establecer y conservar la credibilidad del responsable de la gestin de continuidad. La literatura y el cine ha retratado personajes poco motivadores, enamorados del detalle burocrtico de planes de contingencia que, en la realidad, resultan inoperantes4

Indicadores de gestin
Steinberg[2006] propone mtricas anlogas a las mtricas usadas en la gestin de disponibilidad: porcentaje de servicios para los que existan planes de continuidad, tiempo entre prueba, ejercitacin o auditora de los planes de continuidad por servicio, porcentaje de incidentes relacionados con continuidad del servicio, horas y costos (planificados vs no planificados) dedicados a la continuidad. Son propuestas sensatas pues ayudan a: enfocar la atencin en la importancia de ampliar la cobertura de los planes de continuidad, mantener actualizado los planes, ponerlos a prueba, y entrenar y ejercitar al personal ante las contingencias, evaluar los compromisos entre inversiones en actividades proactivas y en actividades reactivas, identificar servicios, procesos o componentes que deban ser sujeto de mejoras en los planes de continuidad.

Sin embargo, hay un problema de fondo con la gestin del rea, pues podemos verlo como una inversin de esfuerzos y recursos para que ciertas cosas no se den. Cuntas fallas de continuidad evitamos por cambiar los procedimientos en los planes de continuidad? Por mantener un inventario de repuestos? Siempre habr la tentacin para el gerente apegado al bottom-line, de recortar en esos gastos cuyos beneficios contantes y sonantes no siempre se ven. Si hubo incidentes en los que los repuestos tuvieron que ponerse en funcionamiento por cinco das mientras se reparaba el que fall, es fcil calcular cunto ahorramos por tener el respuesto y por ende haber evitado una falla de cinco das en la continuidad. Pero, y si no hubo incidentes de esa ndole y los repuestos no se movieron del almacen? Es el mismo problema de evaluar el rendimiento de la inversin en seguros. Cmo podemos saber si la inversin hecha realmente contribuira a la continuidad5?
4 El mundo del cine ha sido ms bien hostil a la administracin o la planificacin (a menos que sea de un crimen). Lee[2001] estima que slo 20 pelculas de aproximadamente 24,000 pelculas que se mercadean tienen un hroe que es burcrata o administrador pblico. Vale la pena citar, a modo de excepciones, la pelcula Ikiru (Vivir en Castellano, 1952) del realizador japons Akira Kurosawa, en la que un burcrata lucha por lograr la creacin de un parque en un vecindario pobre y Fat Man and Little Boy (Creadores de Sombras, Proyecto Manhattan, 1989) que narra algunos aspectos del dilemtico proyecto de desarrollo de las primeras dos bombas atmicas. Es ms usual que figure un plan burocrtico inefectivo o de proporciones absurdas como el delicioso planteamiento de The Mouse that Roared (El Rugido del Ratn, 1959) en que el plan de un pequeo pas de declararle la guerra a Estados Unidos para ser derrotado y ayudado financieramente la Plan Marshall- se desbarata cuando, inesperadamente, ganan la guerra, y la an ms satrica Wag the Dog (Cortina de Humo, 1997) en que se escenifica una guerra imaginaria para distraer la atencin pblica en vspera de elecciones. 5 La sabidura sufi incluye muchos cuentos sobre un disparatado personaje llamado el Mul (maestro) Nasrudn. Tras el humor de sus aparentes disparates hay siempre una invitacin a la reflexin. El problema de estar seguro de que sean

Gestin de Continuidad...15

Evaluacin de madurez del proceso


Schiesser[2002] presenta un cuestionario para evaluar la madurez del proceso de gestin de continuidad. Es anlogo al que presenta para el caso de la gestin de disponibilidad.

Ergonoma de las emergencias


Don Norman: cmo salgo por las puertas de vidrio? DII: la palanca de pnico en Ulab en sistema de control de acceso. En una emergencia, pienso y reacciono igual? Cmo escribir un manual para emergencias. Checklist: cmo apagara un incendio en un centro de cmputo? Con qu?

Preguntas abiertas
1. Terminologa y psicologa Discuta en clase las diferencias e implicaciones de los siguientes trminos: a) Gestin de continuidad en contraposicin a recuperacin de desastres o gestin de discontinuidad. b) Proteccin civil c) Administracin de desastres e) Administracin de emergencias f) Planificacin de contingencias g) Administracin de riesgos h) Manejo de situaciones excepcionales 2. Cmo comunicar malas noticias Adapte el protocolo de Buckman[1992] al rea de servicios informticos. Preste particular atencin al rol del acuerdo de servicio, el tiempo en que es conveniente/importante comunicar la noticia, entre otros. 3. Inversin en seguros Cmo se evalan los beneficios de invertir en seguros? Desarrollar ms la analoga entre inversiones
realmente tiles las inversiones en planes de continuidad recuerda uno de estos cuentos. Un da un amigo va a visitar al Mul Nasrudn y lo encuentra esparciendo migajas de pan alrededor de su casa. Qu haces, Mul? le pregunta el amigo. Espanto tigres responde el Mul. El amigo suelta una carcajada: Mul, pero si aqu no hay tigres! El Mul se detiene, mira fijamente a su amigo y le dice Te das cuenta de lo efectivo que resulta? Ms cuentos sobre el Mul Nasrudn pueden encontrarse en http://www.personarte.com/nasrudin.htm .

Gestin de Continuidad...16 en planes de continuidad e inversiones en seguros. Cul es el rol de los seguros en los planes de continuidad? Deben formar parte de los acuerdos de nivel de servicio? 4. Planificacin inefectiva Se puede aprender de xitos y se puede aprender de los fracasos. En la web se pueden encontrar algunos casos y artculos sobre planes de contingencia que no fueron efectivos; estudiarlos para extraer las lecciones relevantes al planificador de contingencias. (Vase la seccin correspondiente de referencias)

Referencias bsicas
Jan Van Bon, Mike Pieper, Annelies van der Veen (editores): Foundations of IT Service Management, based on ITIL. ITSMF-NL, 2005. Rich Schiesser: IT Systems Management: Designing, implementing, and managing world-class infrastructures. Prentice-Hall, 2002.

Referencias complementarias
Alejandro Hinds: Una catstrofe natural ocurre cada 18 meses en el pis. El Nacional, seccin Ciudadanos, Viernes 1 de octubre de 2010. Ramn Alberch Fugueras y Jos Ramn Cruz Mundet: La Aventura de la Informacin: De los manuscritos del Mar Muerto al imperio Gates. Alianza Editorial 2004. Ameno libro escrito desde el punto de vista de la Archivstica; en particular recomiendo los captulos titulados Perder los papeles: el oscuro placer de eliminar documentos y Slvese quien pueda!: algunos desastres informticos. William Easterly: Planners versus Searchers in Foreign Aid. Asian Development Review, Vol 23-2 2006. http://www.adb.org/Documents/Periodicals/ADR/ADR-Vol23-2.pdf Consultado 30/09/2010. [Pendiente por revisar con mayor cuidado] Office of Government Commerce: Best Practice for Service Delivery. ITIL: The Key to Managing IT Services. The Stationery Office [2001] Quint Wellington Redwood: Fundamentos de ITIL. Versin 06B, 2005. Mordecai Lee y Susan C. Paddock: Strange but true tales from Hollywood: The Bureaucrat as Movie Hero. Public Administration & Management: 6, 4, 2001. http://www.spaef.com/file.php?id=294 Consultado 30/09/2010 Defensa Civil Wikipedia. Proteccin civil. http://es.wikipedia.org/wiki/Protecci%C3%B3n_Civil Consultado 27/09/2010 Wikipedia. Defensa Civil.

Gestin de Continuidad...17 http://es.wikipedia.org/wiki/Defensa_Civil Consultado 27/09/2010. Menos completo que el artculo sobre Proteccin Civil Cmo comunicar malas noticias Charles Foster: Theres something I have to tell you: How to communicate difficult news in tough situations.Harmony Books,1997 Robert Buckman: How to break bad news: A guide for health-care professionals. The John Hopkins University Press, 1992. http://books.google.co.ve/books? id=5rO_lay4MhMC&printsec=frontcover&dq=robert+buckman&source=bl&ots=gNSaaNa_z&sig=MzgEXZCABwvIJ9ZUQPuTzgKqZfc&hl=es&ei=BJjTKbDFYKclgfKs9CqBA&sa=X&oi=book_result&ct=result&resnum=9&ved=0CEQQ6AEwCA#v=o nepage&q=robert%20buckman&f=false Consultado 29/09/2010. La direccin electrnica contiene parte del libro. Muy orientado a la medicina. Douglas Stone, Bruce Patton, Sheila Heen, Roger Fisher: Difficult Conversations. Penguin Books, 2000. Libro muy recomendado en la literatura del tema cuyos autores incluyen reconocidos especialistas en el arte de la negociacin. . Proponen que al comunicar una mala noticia debemos estar conscientes que se estn dando al menos tres niveles de conversacin: el qu ocurri enfocado sobre hechos, responsabilidades e intenciones, el nivel emocional enfocado sobre las emociones que sienten las partes y el nivel perceptual enfocado sobre cmo el conflicto resultante afecta cmo cada parte se percibe a si misma y a la otra. Recomiendo el siguiente video (con subttulos en Castellano) donde uno de los autores del libro resume algunas de sus recomendaciones sobre cmo escuchar en una situacin difcil: http://www.youtube.com/watch?v=YWt8ZcKNwFw Consultado el 29/09/2010 Manuel Marin. Cmo dar malas noticias en la emergencia extrahospitalaria. Sin fecha. http://reanimovil.com/dochumanizacion/Como%20dar%20malas%20noticias.ppt Consultado 29/09/2010. Una presentacin en Powerpoint con un excelente resumen del proceso propuesto por R. Buckman, en el contexto mdico. Liliana Moya: Cmo dar malas noticias a nuestro equipo? Sin fecha. http://www.materiabiz.com/mbz/capitalhumano/nota.vsp?nid=43546 Consultado 29/09/2010. Breve artculo en el contexto gerencial. Vernica Dussel y Gabriela Medin: Cmo dar malas noticias: Un protocolo de seis pasos. Hospital Nacional de Pediatra Juan P. Garrahan, Buenos Aires Argentina. http://www.zonapediatrica.com/escritorio/como-dar-malas-noticias.html Consultado 29/09/2010. Un resumen del protocolo de R. Buckman adaptado a la pediatra. Planificacin inefectiva Benedict F. Malele: The contribution of ineffective urban planning practices to disaster and disaster

Gestin de Continuidad...18 risks accumulation in urban areas: the case of former Kunduchi quarry site in Dar es Salaam, Tanzania. JMB: Journal of Disaster Risk Studies, Vol. 2, No.1, March 2009 http://acds.co.za/uploads/jamba/vol2n01/malele.pdf Consultado 30/09/2010. Bobby Rivenbank: Symptoms of Ineffective Planning. Rx Today, August 2010. http://www.lce.com/Symptoms_of_Ineffective_Planning_346-item.html Consultado 30/09/2010 Tim Kister: Avoid the Misguided Application of the Maintenance Planner Scheduler. Plant Engineering, September 2006. http://www.lce.com/Avoid_the_Misguided_Application_of_the_Maintenance_Planner_Scheduler_38item.html Consultado 30/09/2010.

Gestin de Continuidad...19

Apndice A
Informacin adicional sobre Proteccin Civil

El smbolo de proteccin civil


El resto de esta seccin es una cita textual de Wikipedia. El Emblema Internacional de Proteccin Civil, tal como se define en la constitucin de la Organizacin Internacional de Proteccin Civil.

En el ao de 1949, justo cuando la Liga de Sociedades de la Cruz Roja y Media Luna Roja (Actualmente Federacin Internacional de Sociedades de la Cruz Roja y de la Media Luna Roja), debata por la implementacin de las tareas de Proteccin Civil, a travs de un cuerpo de carcter civil y ya contemplado en el postulado bsico de la misma, se lanza una convocatoria para buscar un distintivo que permitiera el reconocimiento de esta disciplina a nivel mundial. Muchas naciones participan y es la de Israel la que gana con el smbolo de la Estrella de David enmarcada en un crculo de color anaranjado dentro de un cuadrado de color amarillo.,como no cumpla con el requisito de representar a un organismo neutral, apoltico y laico, sufre algunas modificaciones, las que a continuacin se detallan: La Estrella de David se modific, ya que slo representaba a un pueblo, y lo ms importante, a una religin, cosa que Proteccin Civil no puede admitir por ser imparcial. Por esta razn es modificada, dejando slo el tringulo superior. Los colores y la simbologa representan lo siguiente: Triangulo de Color Azul: simboliza la prevencin, ya que el azul es un color que proporciona tranquilidad y proteccin (de ah que los cuerpos policiacos lo utilizen), al mismo tiempo el tringulo en todas las religiones representa al ser supremo o energa protectora, por lo que los pases con una fuerte influencia religiosa dentro de su vida cotidiana, no opusieron inconveniente alguno en aceptarlo. Cada lado del triangulo representa a cada fuerza (en el Distrito Federal) que reviene o atiende una emergencia, es decir, el Gobierno, los grupos voluntarios y la poblacin en general, siempre en la base, ya que se rebasar la capacidad de respuesta de cualquier organismo por el simple hecho de estar en el lugar de la contingencia. Por lo que es la principal inquietud de Proteccin Civil el orientarlos para que adopten medidas de autoproteccin que al mismo tiempo nos ayuden a las instituciones para brindar una mejor atencin a la ciudadana. Crculo Anaranjado: este color representa la aceleracin del metabolismo y mantiene en alerta a la

Gestin de Continuidad...20 persona, adems de proporcionar a quien lo porta visibilidad, impidiendo accidentes por falta de la misma. Este color representa al DURANTE.

Das könnte Ihnen auch gefallen