MentaliTI: La crisis al pasar el umbral

Servidores al límite del umbral, crisis inminente.

Una lección corporativa que amplió mi mentalidad.

Un día como cualquiera, el café huele fuerte, las pantallas brillan, y el centro de datos virtual sigue operando normalmente. Pero mientras reviso las métricas, algo no cuadra.

La bomba de tiempo oculta

Los departamentos de nuevos negocio y de proyectos siguen aprovisionando nuevas máquinas virtuales (vm´s), al cruzar los datos y compararlo con los recursos computacionales disponibles, mi alarma interna se enciende:

En menos de dos meses, la memoria RAM podría estar al 90% de su capacidad, justo el umbral configurado para que el NOC envíe alarmas y sinónimo de llamadas a medianoche, caídas de servicios y usuarios molestos.

Apuro el análisis y lo reviso de nuevo, lo presenté al coordinador, y…. mientras lo está leyendo, su cara lo dice todo. “William…. el ciclo de procura tarda como mínimo cuatro meses.”

Después del susto

Hoy, cada vez que puedo, les cuento a los administradores y líderes de departamentos de TI el susto que pasé para que miren más allá de los dashboard´s, incorporen alertas predictivas, reuniones periódicas con los departamentos involucrados y crear calendarios de capacidad para mantener los componentes computacionales en márgenes seguros y así evitar crisis operativas.

La lección más allá de los Byte´s

A continuación el proceso de aprendizaje y las lecciones aprendidas para que la nueva generación esté informada y prevenida.

Esa noche no dormí bien.

Visualizaba decenas de usuarios sin poder trabajar, sistemas lentos, aplicaciones colgándose. El costo no era solo dinero, era también reputación.

Se inició reuniones de emergencia. Procura, infraestructura, proyectos y finanzas en la misma sala.

Se mapeó cada paso del proceso: requisición, aprobaciones, cotizaciones, órdenes de compra, importación, recepción, instalación entre otros.

Aunque la acción fue tratar de acelerar la compra, lo que llevó a tener que reunirnos, explicar varias veces y buscar apoyo, también se activó un proceso de identificar qué servidores virtuales podrían apagarse para minimizar el consumo al pasar el umbral del 90% y coordinar con los departamentos que solitaban la creación de vm´s cuales podrían retrasarse de manera razonable.

Lo primero que entendí es que no era cuestión de ir a la tienda. Es una corporación, en aquellos tiempos una TELCO de 15.000 empleados directos: validaciones, presupuestos, aprobaciones, cotizaciones…. todo con sus propios tiempos.

Y mientras eso ocurre, la carga sobre el centro de datos no se detiene.

Aprendí que la operación es dinámica; la procura no lo es. Tenía que planificar proactivamente.

Aprendí que tenía que ampliar mi visión, integrar las proyecciones de crecimiento con los procesos administrativos, como los ciclos de procura en este caso.

dicho de otra manera, cruzar el dinamismo de la operación con la realidad de los procesos internos, para que “lo urgente” no se convierta en “lo imposible”.

A nivel de liderazgo, aprendí que es bueno establecer puentes con departamentos como Finanzas, Compras o Logística. Entender sus procesos es vital.

Los líderes de ambientes productivos no solo gestionan recursos. Gestionan tiempo.

Entendí que la arquitectura invisible incluye previsión. Y en ambientes corporativos, eso puede marcar la diferencia entre la continuidad… y el colapso silencioso.

Definitivamente, cuidar estos detalles puede significar la diferencia entre un día común y un desastre anunciado. La próxima vez que pienses en escalabilidad, mira también hacia adentro. Conocer el ciclo de compra y su impacto en la operación, es un paso más hacia un liderazgo técnico más estratégico y preparado.

La experiencia

Cambiar a una mentalidad corporativa me permite recomendar:

Tener mapeado los «tiempos reales» de cada eslabón (desde la solicitud hasta la instalación).

Creamos un «semáforo de capacidad» con tres niveles:

  • Verde: «Podemos aprovisionar».
  • Amarillo: «Alerta: comprar ahora para usar en X meses».
  • Rojo: «Congelar nuevos proyectos».

Educar a los líderes con datos crudos: «1 hora de downtime = $X pérdidas».

Otros artículos Increíbles

Comparte este artículo a la vCommunity VMware para que la información pueda ayudar a otros colegas:

LinkedIn

Otros artículos que pueden interesarte