• 大企業は、サービスの停止を防ぐために努力しており、大規模な障害はブランドに損害を与え、顧客を競合製品に誘導します。
  • 信頼性のあるインターネットサービスを構築することは技術的な問題であり、リーダーにとっては人間的な課題もあります。
  • 大企業ではインセンティブが支配的であり、信頼性のあるシステムを構築するための工夫が行われています。
  • AWSの運用レビューは、毎週開催される会議であり、ランダムにAWSサービスを選択してライブレビューを行います。
  • 信頼性のメトリクスを定期的に確認し、信頼性の目標を明確にし、ダッシュボードを使用してその目標を達成していることを証明します。
  • “混沌工学”として知られるシステム障害の注入概念は、クラウドの信頼性に革命をもたらしました。
  • チームが重要な障害についてポストモーテムを書くことは、次の障害を防ぐために大いに役立ちます。
  • 信頼性の向上を報酬することで、エンジニアが運用の卓越性に貢献するようにしましょう。

この記事では、信頼性を企業文化に組み込むための基本的なツールについて探求しました。信頼性を優先させないスタートアップや早期段階の企業も理解できますが、信頼を維持することが重要です。

元記事: https://venturebeat.com/programming-development/the-human-factor-how-companies-can-prevent-cloud-disasters/