El costo promedio por minuto de caída de un centro de datos ronda los $7000 el minuto, y el costo máximo promedio de hasta $17244 por minuto, según el estudio más reciente “Cost of Data Center Outages” realizado por Ponemon Institute y publicado en enero 2016.

Estos costos se basan en un rango de gastos en el que incurre la organización para responder a la interrupción del centro de datos, incluyendo el costo de recuperación, productividad, costo de oportunidad de negocios, daño de imagen o prestigio, pago de proveedores o consultores, entre otros. 

Gráfico DCC

Recientemente hemos leído abundante información sobre la interrupción provocada por error humano en la aerolínea British Airways a finales de mayo 2017, la misma tuvo una afectación total del centro de datos durante tres días lo que representó pérdidas en el orden de $102 millones (un aproximado de $23.611,11 por minuto), según declaraciones oficiales del CEO Willie Walsh a CNN[1].

“Alguien desconectó el switch equivocado”, dijo Willie Walsh.

Este evento fue provocado por error humano de un técnico del proveedor que estaba autorizado a estar en el cuarto de Carrier, mas no estaba autorizado a realizar la maniobra de operación que desconectó el sistema de energía eléctrico.

Las organizaciones deben esforzarse por crear un caso de negocio que les permita concientizar la dependencia de la tecnología, así como del valor financiero de la disponibilidad de la información para su organización. Este caso de negocio puede realizarse mediante estos simples pasos:

1.       Puede iniciar con un ejercicio mediante el método “¿What if…?” donde se formula una lista de preguntas que comienzan con “¿Qué pasa si…?” ¿…un sistema específico, aplicación o servicio de TI no se encuentra disponible? ¿… si la integridad de los datos y confiabilidad se ven impactados para su uso? El objetivo es identificar aquellos eventos, sistemas, aplicaciones, y servicios de TI que podrían provocar consecuencias de significativa importancia para los ingresos de la organización.

2.       Cuantifique la respuesta a estas preguntas mediante horas hombre no productivas, cantidad de productos sin vender o despachar, cantidad de transacciones sin procesar, etc.

3.       Determine el tiempo de no productividad asociado a la interrupción no planificada de los servicios de TI dependientes del centro de datos.

4.       Determine el costo oportunidad o valor actual de los ingresos que podría dejar de percibirse durante el tiempo de interrupción de los servicios de TI.

5.       Cuantifique los costos directos e indirectos de la interrupción, incluya como mínimo: daño a datos críticos, daños a equipo de TI, costo de detección (diagnóstico y escalamiento), mano de obra de recurso humano involucrado en la falla, costos de contención o estabilización de la operación, costos de restauración y recuperación, materiales, consultoría, costos de multas o penalidades de clientes, etc. 

6.       Defina el costo total por una interrupción no planificada del centro de datos. Divida este costo entre la cantidad de minutos definidos en el punto 4 y determine el costo por minuto de una interrupción total no planificada del centro de datos.

La implementación apropiada de protocolos de gestión y mantenimiento no solo aseguran la disminución significativa de la probabilidad de fallo de los equipos electromecánicos, sino que predice estos fallos basados en la condición del equipo y en su desempeño con el entorno de la infraestructura. Así mismo, prepara a la organización a responder de manera natural a las emergencias o fallos de los equipos y de la misma manera entrena a los operadores el cómo actuar ante situaciones no esperadas (múltiples fallos o riesgos detonados simultáneamente).

Una analogía que puede ilustrar lo anterior es el caso de una persona diabética que no ha sido diagnosticada profesionalmente y por lo tanto no tiene los controles, los cuidados cotidianos, el tratamiento adecuado ni el monitoreo constante de su condición. Esta persona al ignorar su padecimiento y desconocer los síntomas que anuncian su enfermedad o inclusive podría estar conviviendo con su enfermedad de manera asintomática o silenciosa, eventualmente presentará un colapso repentino en su salud con consecuencias graves que comprometen su calidad de vida. Así mismo, la ausencia de procedimientos que permitan la detección temprana de la condición y salud de los equipos electromecánicos conllevan a interrupciones inesperadas en sistemas de UPS. La apropiada implementación de buenas prácticas de operación y gestión le permitirá evitar estos fallos de manera anticipada optimizando así el costo de operación y aumentando la confiabilidad de su centro de datos y primordialmente del negocio.

DCC Mission Critical cuenta con un equipo de expertos que pueden ayudarle por un lado a determinar el valor económico que una interrupción no planificada representa para su organización, pero sobre todo a optimizar los recursos requeridos para mantener el centro de datos disponible, seguro y confiable desarrollando una estrategia de Operación y Mantenimiento alineada con las mejores prácticas del mercado (Sostenibilidad Operativa, Management & Operation del Uptime Institute).

Por: Lorraine Lopez

Directora Departamento de Gestión y Proyectos


Sobre DCC:

Empresa Latinoamericana líder en diseño, diagnóstico, auditoría y certificación de Centros de Datos, así como en la instalación de ambientes de misión crítica. En los últimos nueve años se ha consolidado como una empresa de gran experiencia en la industria, con más de 40 centros de datos que han alcanzado alguna certificación o reconocimiento internacional en diversos países de la región.

Contacto:

DCC

www.datacenterconsultores.com

[email protected]

Facebook: datacenterconsultores

Teléfono Ofic. CR: (506) 2525-0808



 

[1] CNN Money London | 6 junio 2017