Caída del LDAP Contacto Conócenos Historia Crear post

Las incidencias con amigos son menos incidencias

alt text

Cuando sucede una incidencia en el servicio, lo primero que se hace es determinar el impacto. En Telefónica (igual que en muchos sitios grandes) existe una escala de severidad que va aumentando en función del impacto de la incidencia y del tiempo que lleva sin resolverse. Cuanto más alta es la severidad, más "sube" en el escalafón y va escalando a jefes, jefes de jefes, responsables de servicio, directores y así.

La severidad más alta que yo he vivido (cuando curraba para Telefónica Móviles) dejó todas las Islas Canarias sin 3G durante un fin de semana entero. Esa incidencia llegó hasta severidad 7. Para que os hagáis una idea, en una severidad 7 hay que avisar a Presidencia de Gobierno.

En realidad, es impresionante ver el despliegue de recursos (tanto humanos como materiales) según las severidades van subiendo. Comites de crisis, turnos para hacer dobles y triples guardias, GMOs en todo el país esperando para desplazarse a donde les digas, multiconferencias de más de 3 días con cientos de personas en las que algún iluminado pregunta si la causa puede deberse a una mariposa batiendo las alas en el himalaya y te duermes escuchando a técnicos discutiendo sobre zoologia.

Y a las dos horas de repente alguien te despierta preguntándote "Tú tienes acceso ahí, no? Que hacemos? Lo paramos y por lo menos descartamos que sea eso?", y no te queda otra que responder "-El qué? Perdón? No me ha quedado claro... Te importaría repetir?"

Por suerte, los servicios que prestabamos en Terra eran muchísimo menos críticos. Lo peor que podía pasar era que los usuarios de pago (al principio vía módem y posteriormente vía ADSL) se quedasen sin conexión, o que los usuarios se quedasen sin poder leer el correo, las páginas personales o las news (que entonces es cuando venía Carmen a echarte la bronca porque se habían caído las news). Pero aún así, sí hemos sufrido incidencias graves. Unas cuantas.

Una de las incidencias más graves que recuerdo fue la caída del primario de LDAP. En Terra teníamos el segundo LDAP más grande de toda Europa (el primero era el de BT con 7 millones de usuarios). No voy a entrar en mucho detalle técnico para no aburrir al respetable, pero para quienes no sepan lo que es un LDAP, se puede decir que es una base de datos que contiene datos de usuarios. Algo así como unas páginas amarillas; tu buscas a una persona y te dice su dirección y su teléfono. Pues parecido.

El principal servicio que dependía de esa base de datos era el correo. En esa época usabamos el LDAP de iPlanet y lo teníamos configurado como un único maestro para escritura y seis réplicas para lectura. Pero lo más importante de todo (y ahora es cuando debería sonar un trueno, por favor -o en su defecto un redoble de tambores-) es que el filesystem que contenía los datos del LDAP se montaba por NFS (se masca la tragedia!). En otro artículo os hablaré de porqué teníamos configuraciones tan exóticas en Terra.

La cuestión es que la incidencia comenzó un viernes por la mañana. En realidad, yo ni siquiera sabía que había una incidencia, ya que implicaba de lleno las áreas de aplicaciones, sistemas y correo, pero no a mi área. Así que el viernes por la tarde al finalizar la jornada me fui a mi casa. Sin embargo, me dejé en la oficina un CD de música para una amiga, pero como iba muy justito de tiempo, pense "bueno, no pasa nada; mañana sábado me acerco por la oficina antes de comer con ella, recojo el CD y se lo llevo".

Asi que el sábado fui a la oficina con la férrea intención de coger el CD y marcharme, pero cuando crucé la puerta de la oficina, me llevé una enorme sorpresa al ver todas las luces encendidas y encontrarme a todo el mundo en su sitio de trabajo como si fuese un dia normal de entre semana. Estaba hasta Mae!

Intenté hacerme el sueco. Primero con un "no, si yo solo he venido a recoger un CD", y luego con un "pero oye, sueltame, que yo ni siquiera estoy de guardia!", pero no coló. Me atraparon como si estuviese en una película de zombies. Me tocó quedarme en la oficina el sábado entero, la noche y medio domingo. Y claro, quedé un poco mal con mi amiga la que era mi amiga.

La verdad es que no recuerdo exactamente la causa de esa incidencia. Creo que fue un problema de sincronización del NFS, pero no estoy seguro. Habría que preguntarle a la gente de sistemas que fueron los que se comieron de lleno la incidencia. A mí sólo me pilló de refilón y "me cazaron" para que les diese soporte desde mi grupo.

Fue una experiencia dura, pero gracias a que el equipo de trabajo era tan magnífico y tan agradable, fue una incidencia muy llevadera. Recuerdo que nos pedimos varias pizzas para cenar, y ya que era sábado noche, varios telecubatas.