Dans la partie 1 de cette série, nous avons examiné les pannes récentes de centres de données et les raisons pour lesquelles ces “contes de prudence” est arrivé à passer. Maintenant, discutons des astuces pratiques pour minimiser le risque de pannes dans les infrastructures critiques..

Dépasser les idées fausses

Les erreurs humaines et / ou les pannes d’équipement sont souvent citées comme la cause fondamentale de nombreuses pannes de systèmes d’ingénierie, mais la plupart du temps, ces éléments ne provoquent pas à eux seuls des catastrophes majeures. Ce sont plutôt les symptômes d'un problème plus vaste - mauvaises pratiques de gestion et d'exploitation.

Les décisions et les priorités en matière de leadership entraînent un manque de personnel et de formation adéquats, une culture organisationnelle dominée par “exercices d'incendie,” ou des réductions budgétaires qui réduisent la maintenance nécessaire, pourraient entraîner des défaillances généralisées allant du sommet vers le bas.

Même si une erreur de l'opérateur de première ligne peut parfois sembler provoquer un incident, une seule erreur (tout comme une défaillance d'un composant de centre de données) ne suffit généralement pas à mettre un système complexe robuste à genoux - à moins que le système vacille déjà. bord de défaillance critique en raison de nombreux facteurs de risque sous-jacents.

Il est vrai que les vulnérabilités sont présentes même dans les centres de données les mieux conçus. Les entreprises dotées de systèmes informatiques complexes luttent contre le risque d’échec avec plusieurs couches de protection et de sauvegarde. Encore une fois, lorsque des défaillances informatiques surviennent, ce n'est pas dû à un manque de systèmes de sauvegarde ou à un problème en particulier, mais bien à une mauvaise gestion..

Des incidents catastrophiques dans les centres de données, tels que ceux observés en 2017, sont évitables si les organisations conçoivent leur infrastructure conformément aux normes de l'industrie, avec redondance et autres mesures préventives, et implémentent des meilleures pratiques de gestion et d'exploitation strictes..

Toutes les entreprises doivent effectuer des analyses approfondies des défaillances et appliquer les enseignements tirés lors de l’élaboration et du perfectionnement de leur programme, afin que les installations essentielles à leur activité soient résilientes et performantes à long terme. La réactivité, la familiarité et le respect des procédures documentées de chaque organisation sont essentiels pour évaluer les performances..

Considérations pratiques pour minimiser les risques

Au cours des 20 dernières années, Uptime Institute a réalisé des évaluations d'opérations sur des centaines de centres de données et a identifié des lacunes clés en matière de gestion qui augmentent les risques..

De nombreux programmes de centres de données - même des opérations rigoureuses qui ont réussi - sont soumis à divers risques et peuvent être améliorés par une évaluation et un développement continus.

Prenez un moment pour examiner votre programme avec un oeil objectif; Si vous pouvez répondre oui à l’une des questions suivantes, vous rencontrez peut-être une crise de la rigueur de gestion:

· Les boîtes vocales du personnel du centre de données sont-elles pleines, les emails ne sont-ils pas répondus, la taille limite de la boîte de réception est dépassée?

· Des réunions critiques sont-elles manquées ou régulièrement annulées??

· Votre équipe de centre de données signale-t-elle un manque de temps pour la formation??

· Y a-t-il des rumeurs sur une éventuelle pénurie de personnel qualifié??

· Certains membres de l'équipe effectuent-ils un travail en dehors de leurs compétences??

· Votre personnel connaît-il un taux de roulement élevé??

· La maintenance a-t-elle dépassé son budget? Qu'en est-il des estimations de coûts d'énergie?

· Est-ce que l'arrière de vos serveurs ou de vos chemins de câbles ressemble à un pot de spaghettis??

· Votre équipement et votre câblage manquent-ils de systèmes d'étiquetage clairs??

Il peut être relativement facile de déterminer d’autres facteurs de risque sous-jacents qui ne sont pas surveillés par la direction. Parcourez votre établissement et posez-vous ces questions pour vous assurer que les processus et la documentation appropriés sont en place:

· Y a-t-il des matériaux combustibles sur le sol surélevé, dans la salle des batteries ou dans les salles électriques? Tous les équipements entrants doivent être débarrassés de leur emballage en dehors de l'espace critique..

· Est-ce que les articles non liés (mobilier de bureau, étagères, outils) sont stockés dans un espace critique? C'est un problème d'incendie, de sécurité et de contamination.

· Des extincteurs sur les lieux portent-ils des étiquettes périmées??

· À quand remonte la dernière fois que vous avez examiné les politiques d’entretien et la documentation procédurale??

· Si l'installation exploite un plancher surélevé, quel est l'état du plénum sous plancher? Cette zone doit être nettoyée régulièrement - demandez à voir l'horaire.

· Combien d'employés ont accès à l'espace critique? Votre organisation a-t-elle même une politique d'accès pour le personnel??

· Les personnes non contrôlées sont-elles autorisées dans des zones critiques? Demander à voir les conditions d'enregistrement et de formation du vendeur; les individus non contrôlés ne devraient jamais être autorisés.

· Les panneaux, les tableaux de distribution et les vannes sont-ils étiquetés pour indiquer “Ordinaire” positions d'opération?

· L'étiquetage des cendres en arc est-il installé sur tous les panneaux et PDU??

Pendant plus d'une décennie, les pratiques de refroidissement des centres de données ont préconisé l'isolation du flux d'air: l'air frais est acheminé à l'avant d'un rack d'équipements informatiques et l'air chaud est évacué à l'arrière.

Dans un environnement de plancher surélevé, des rangées d'équipements sont généralement disposées dans une configuration d'allée chaude - allée froide, dans laquelle les tuiles perforées fournissent de l'air froid aux entrées froides du couloir ou du serveur..

Lors de la révision des procédures de refroidissement de votre organisation, prenez en compte les indicateurs suivants de mauvaise gestion du flux d'air de dérivation. Ces facteurs peuvent entraîner un risque accru, des inefficacités réduites, un gaspillage d'argent et un manque de respect des meilleures pratiques de gestion clés:

· Il y a des panneaux râpés ou perforés dans l'allée chaude.

· Il y a des découpes non scellées dans le plancher surélevé.

· Il y a des lacunes non couvertes dans les racks entre le matériel informatique.

Voici plusieurs autres étapes clés pouvant vous aider à identifier les éléments de votre centre de données qui constituent des procédures de gestion médiocres et un risque accru de temps d'arrêt:

· Demander à voir les enregistrements et les calendriers des activités de maintenance sur les batteries, les générateurs de moteurs et les systèmes mécaniques.

· Examiner des taux de documentation des effectifs en heures supplémentaires supérieurs à 10% peut entraîner une augmentation des erreurs humaines, ce qui peut augmenter le risque de panne. Les rôles et responsabilités sont-ils documentés? Les qualifications sont-elles listées??

· Demandez à voir la liste des activités de maintenance préventive. Les activités sont-elles entièrement scriptées? Quel est le processus de contrôle de qualité?

· Découvrez qui conserve la documentation essentielle sur l'équipement, y compris les informations sur la garantie, les enregistrements de maintenance et les données de performance.

· Revisitez votre processus de maintenance de la bibliothèque de référence (dotation en personnel, équipement, maintenance, procédures et scripts).

· Analysez les dossiers de formation, le budget annuel et le temps alloué de votre équipe.

Les entreprises continuent d'adopter divers nouveaux modèles informatiques pour faire face à la dépendance croissante à l'égard de la technologie et des données dans les entreprises modernes. En tant que tel, la disponibilité n'a jamais été aussi importante.

Bien qu'il soit pratiquement impossible que les processus, les procédures et la culture de site d'une entreprise soient parfaits, les équipes d'infrastructure informatique performantes restent extrêmement concentrées sur la prévention des pannes..

Cela signifie rester vigilant à tout moment et tenir constamment compte des considérations susmentionnées pour identifier les vulnérabilités cachées de vos opérations informatiques, qui peuvent servir de base à des discussions productives sur le changement et les améliorations. Le fait que votre établissement n'ait pas encore connu d'incident ne signifie pas qu'il est à l'abri.

Un engagement solide en matière de gestion et d’excellence opérationnelle peut avoir un impact considérable sur les performances de votre infrastructure informatique. Posez donc les questions difficiles et couvrez toutes vos bases pour éliminer les pannes évitables..

  • Lee Kirby est le président de Uptime Institute
  • Matt Stansberry est le directeur principal du contenu et des publications à Uptime Institute
  • Découvrez les meilleurs serveurs dédiés