Artículo escrito por Beth Whitehead, ingeniera asociada en sostenibilidad en la compañía Operational Intelligence

Las mayores barreras para reducir el riesgo en el centro de datos son:

- La falta de conocimiento (tanto general como específico de la instalación)

- La falta de procesos para compartir este conocimiento

- La falta de experiencia específica de la instalación

- El desconocimiento o ignorancia

- Una mala actitud hacia las personas y hacia el aprendizaje

Si una instalación es compleja, y hay una mala actitud hacia el aprendizaje, el riesgo es invariablemente alto.

Complejidad de diseño

Antes de tener en cuenta la complejidad del diseño, es necesario considerar que para un sistema resiliente –sin puntos únicos de falla (SPOF)–, una falla debe ser, por definición, el resultado de dos o más eventos simultáneos. Estos pueden ser fallas en los componentes o una intervención incorrecta, por ejemplo hacer cambios sin comprender cómo reaccionará el sistema.

Se podría considerar la configuración 2N del sistema como el requisito mínimo para lograr una instalación libre de SPOF. Para simplificar, asumiremos que nuestro sistema 2N comprende los sistemas eléctricos y mecánicos A y B. El análisis de árbol de fallas (FTA) resaltará combinaciones de eventos que resultan en fallas; sin embargo, es muy difícil modelar el error humano en un FTA. Los datos utilizados para modelar el error humano siempre serán subjetivos y existen muchas variables.

Si los sistemas en este ejemplo 2N están físicamente separados, entonces cualquier acción en un sistema no debería tener impacto en el otro. Sin embargo, no es raro que se introduzcan mejoras que toman el sistema simple 2N y que agregan otros componentes, como enlaces de recuperación de desastres y depósitos de almacenamiento comunes, que acaban conectando los dos sistemas.

En diseños a gran escala, esto da lugar a la implementación de un sistema de control automático (SCADA, BMS) en lugar de simples enclavamientos mecánicos. Los principios básicos de 2N se han visto así comprometidos y la complejidad del sistema ha aumentado exponencialmente, como también se han incrementado las habilidades requeridas por el equipo de operaciones.

Una revisión del diseño aún mostraría que se ha conseguido un diseño 2N; sin embargo, la complejidad resultante y los desafíos de operabilidad socavan el requisito fundamental de un diseño de alta disponibilidad.

Las investigaciones han demostrado que, a menudo, la secuencia particular de eventos que conduce a una falla es imprevisible, y hasta el momento en que ésta se produce no había conocimiento de que tendría lugar. En otras palabras, estas secuencias de eventos son desconocidas hasta que se conocen. Por lo tanto, no formarían parte de un FTA.

El físico austriaco Ludwig Von Boltzmann desarrolló una ecuación para la entropía que se ha aplicado a las estadísticas y, en particular, a la información que falta o que no se conoce. En esta teoría, se establece una cuadrícula de casillas –por ejemplo, 4x2 o 5x4–, y se coloca una moneda en una de las casillas. La teoría permite al usuario determinar el número de preguntas necesarias para concretar en qué casilla, en esta cuadrícula definida, se coloca la moneda.

Si sustituimos las casillas por los componentes del sistema y las monedas por los eventos de falla desconocidos, podemos ver cómo la disponibilidad del sistema está comprometida por la complejidad. Se puede observar que con menos eventos de fallas desconocidas, se reduce el número de modos en que un sistema puede fallar. El aumento del conocimiento detallado de los sistemas y el descubrimiento de eventos desconocidos, por lo tanto, reducirán las combinaciones por las cuales el sistema puede fallar, lo que minimizará al mismo tiempo el riesgo.

El elemento humano

Las investigaciones muestran que cualquier sistema con una interfaz humana eventualmente fallará debido a las vulnerabilidades. Una vulnerabilidad es cualquier posible punto débil en una instalación que podría contribuir a una falla. Las vulnerabilidades en un centro de datos pueden tener que ver con la infraestructura de la instalación o con la operación de la instalación.

La infraestructura en concreto comprende los equipos y sistemas, y en particular:

- La confiabilidad mecánica y eléctrica

- El diseño de la instalación, la redundancia y la topología

Por otra parte, las operaciones están relacionadas con el elemento humano e incluyen el error humano tanto a nivel individual como a nivel de gestión. Los fallos en esta parte tienen que ver con:

- La resiliencia del equipo de operaciones

- Cómo reacciona el equipo ante una vulnerabilidad

Cuanto más complejo es el sistema, más vulnerable se vuelve el "elemento humano" y más capacitación/aprendizaje se requiere para operar la instalación. Esta formación no se aplica solo a las personas de forma individual, sino también a la organización. El aprendizaje organizacional se caracteriza por la madurez y los procesos (que se muestran en el siguiente diagrama como experiencia acumulada), por ejemplo, en torno a estructura y recursos, mantenimiento, gestión de cambios, gestión de documentos, comisionamiento y operabilidad y mantenibilidad.

El aprendizaje individual es una combinación de conocimiento, experiencia y actitud (lo que se muestra en el diagrama como profundidad de la experiencia). Un entorno donde se desarrollan tanto el aprendizaje organizacional como el individual ayuda a reducir la tasa de fallas y dota a los operadores de los conocimientos para reducir el desperdicio de energía de manera más efectiva.

Es importante comprender que nunca se puede llegar a cero fallas, ya que la relación entre falla y experiencia sigue una curva exponencial. Las instalaciones con buenos procedimientos y operadores experimentados aún pueden ser vulnerables a la complacencia y experimentar fallas derivadas de una secuencia de eventos previamente desconocidos.

Formación, la clave

El riesgo en el centro de datos se puede reducir proporcionando un entorno de aprendizaje, en el cual el conocimiento organizacional e individual pueden verse mejorados. Si bien un operador maduro tiene experiencia que puede reducir la tasa de fallas, un diseño excesivamente complejo, si se implementa sin una capacitación adecuada, aún puede generar fallas.