Infrastructure informatique défaillante comme si les deux dernières décennies ne s'étaient jamais produites
NouvellesDans la mythologie grecque, le roi Sisyphe était un souverain arrogant qui se croyait plus intelligent que Zeus. En guise de punition pour son orgueil, Sisyphe a été chargé de pousser un rocher en haut d'une colline dans le monde souterrain, pour ensuite le laisser échapper à son contrôle et revenir en arrière..
Sur la base des événements récents liés aux temps d'arrêt des centres de données, nous pouvons uniquement décrire le processus consistant à maintenir l'infrastructure informatique en cours d'exécution en tant que Sisyphean. Les propriétaires et les opérateurs de centres de données regardent à répétition le rocher glisser de leur emprise et redescendre la colline..
Les entreprises ont exigé un accès ininterrompu aux services informatiques au cours des deux dernières décennies. Ainsi, la majorité a adopté les meilleures pratiques techniques, d'ingénierie et de gestion pour éviter les incidents de temps d'arrêt.
Les entreprises investissent des milliards de dollars et consacrent d'innombrables heures à la planification, aux exercices et à la préparation à la préparation opérationnelle. Et pourtant, les incidents liés aux arrêts de production pèsent toujours sur le secteur. le rocher ne cesse de reculer.
Il y a eu huit pannes majeures du service informatique au cours du premier mois de 2017.
Le but de l’évaluation des pannes majeures d’infrastructures informatiques publiques n’est pas de faire honte à ces entreprises, mais de souligner que cela peut arriver à n’importe qui, qu’il s’agisse de leaders du secteur comme Amazon qui se targuent de leurs stratégies de résilience ou de petites agences gouvernementales..
Les raisons des pannes sont souvent les mêmes problèmes qui se manifestent encore et encore. Le dénominateur commun de ces événements, à travers les entreprises et les fournisseurs de services, est la possibilité de prévention. Ces entreprises et sites ont investi et se sont préparés à faire face aux conditions qui entraînent des pannes, et ils ont échoué. Des erreurs ont été commises.
Il y a eu plus de pannes depuis l'établissement de cette liste, mais vous pouvez voir qu'en un mois, de nombreuses marques réputées dotées de processus commerciaux critiques en ligne et numériques ont été paralysées par des erreurs que notre industrie prétend avoir résolues il y a vingt ans..
Pourquoi les entreprises qui ont investi dans de multiples niveaux de redondance physique et logique continuent-elles à baisser aux taux actuels? Ce n'est pas comme s'il n'y avait pas de normes, technologies et processus en place pour éviter les temps d'arrêt.
Ces échecs continuent à se produire parce que des erreurs humaines ont rendu inefficaces les stratégies préventives et les coffres-forts.
Tous les rapports ne donnaient pas les raisons exactes des pannes, mais au moins 40% des incidents liés aux arrêts de production étaient dus à une panne de courant. La fonction la plus élémentaire d'un centre de données d'entreprise consiste à atténuer ce risque exact, qui reste la principale cause des temps d'arrêt..
Environ 30% des problèmes étaient dus à des pannes de réseau ou de logiciel. Et seule une poignée est survenue en raison de “accidents anormaux.” Là encore, les causes des temps d'arrêt ont été anticipées et préparées, et elles ont encore baissé..
La conclusion de cette analyse est qu’il n’est pas nécessaire qu’un grand nombre de ces incidents coûteux se produisent. Les problèmes étaient totalement évitables - y compris les deux incidents de temps d'arrêt les plus importants de l'année écoulée:
British Airways a envoyé un entrepreneur en ingénierie de centre de données sous le bus pour avoir basculé le mauvais commutateur, ce qui a entraîné une panne en cascade qui a coûté des centaines de millions de dollars. Mais pourquoi un entrepreneur mal formé ou sous-préparé était-il en premier lieu dans cette situation??
Lorsque Amazon a éliminé d’importants clients du monde entier, il a déterminé que l’incident avait été provoqué par une frappe mal saisie par un technicien. Encore une fois, pourquoi ce technicien at-il été mis dans une position où ce genre d’échec en cascade était même possible??
L’industrie dans son ensemble se concentre trop sur “erreur humaine,” que nous pensons est un terme trompeur. C'est un échec de la direction lorsqu'une personne ne connaît pas bien les procédures d'urgence et les procédures standard, ou sait comment gérer certains modes d'équipement - et non une erreur humaine.
L'échec revient au responsable qui a laissé cette situation se produire, et non au technicien de première ligne qui tente de sauver une situation..
En fin de compte, l’infrastructure informatique actuelle repose sur un écosystème de fournisseurs et de centres de données, des actifs souvent superposés de manière interdépendante, à la manière d’une tour Jenga. Si vous retirez un support apparemment insignifiant, le tout risque de s'effondrer..
Et pourtant, comparons les différentes réactions du secteur face à ces pannes récentes. D’un côté, vous avez des PDG de compagnies aériennes qui prennent en charge leurs lacunes dans le le journal Wall Street et le New York Times.
En revanche, le plus grand fournisseur d’informatique en nuage au monde a affirmé qu’il tombe si rarement en panne qu’il ne savait pas comment traiter sa panne majeure..
Franchement, même le niveau de recherche Internet le plus superficiel vous dirait que la réponse est extrêmement inexacte. Et pourtant, il illustre la façon dont les fournisseurs de cloud computing à très grande échelle perçoivent l’entreprise - qu’elle prenne ou la laisse. Et pour la plupart, les gens le prennent.
Selon l’Enquête auprès des centres de données de 2017 de l’Uptime Institute, seulement 8% des répondants ont déclaré que leur Moins préoccupé par les pannes de services informatiques qu'il y a un an.
Cela signifie que 92% des responsables d’infrastructure se préoccupent autant, sinon plus, de la résilience et de la disponibilité des TI de leur entreprise. Pourtant, le taux de pannes se poursuit sans relâche. 25% des répondants ont déclaré avoir subi une interruption de service informatique au cours de la dernière année.
Au cours des deux dernières décennies, les entreprises ont poussé ce rocher vers le haut de la colline, sachant qu'il s'effondrerait. L’infrastructure informatique devient de plus en plus complexe, interdépendante et fragmentée.
Comme par magie, les réponses ne résoudront pas à merveille une fois que les hyper-échelles auront réduit l’essentiel de l’informatique d’entreprise à une ville fantôme de matériel hérité. Ces entreprises ne sont pas payées pour atténuer et gérer les risques de votre organisation - vous êtes.
Il existe des pratiques éprouvées que les administrateurs peuvent mettre en œuvre pour gérer avec succès les risques liés à l'infrastructure informatique, mais une bonne première étape consisterait à prendre en compte les deux plus grands défis de notre secteur:
· Malgré des décennies de formation, d'investissement et d'expérience, les pannes de centres de données sont courantes et se produisent pour les mêmes raisons qu'il y a vingt ans. Le manque d'attention portée aux détails, la gestion appropriée et la responsabilité entraînent des pannes dans le monde entier..
· L'adoption continue de l'informatique en nuage et la colocation par les services informatiques des entreprises rendent les systèmes informatiques plus fragiles au moins à court terme, car les actifs informatiques interdépendants sont gérés avec des niveaux de service et des investissements variables, souvent sans se soucier des implications périphériques..
Alors que les entreprises continuent d’adopter des modèles informatiques hybrides, ces exemples montrent que nous ne pouvons pas prendre la disponibilité pour acquise. Les pannes informatiques sont endémiques et totalement évitables.
Cet article fait partie de la deuxième partie sur les défaillances d'infrastructure. Lisez la deuxième partie pour en savoir plus sur les meilleures pratiques que les entreprises peuvent utiliser pour minimiser le risque qu'elles deviennent un récit édifiant, comme celui de l'article d'aujourd'hui..
- Matt Stansberry est directeur principal du contenu et des publications de l'Institut Uptime et directeur du programme pour le symposium Uptime Institute
- Lee Kirby est le président de Uptime Institute
- Découvrez les meilleurs serveurs dédiés