• 大企業はサービスの停止を防ぐために努力しており、大規模な障害はブランドに損害を与え、顧客を競合製品に誘導する可能性がある。
  • 信頼性のあるインターネットサービスを構築することは技術的な問題だけでなく、人間の課題もある。
  • AWSの運用レビューは週次の会議であり、ランダムにAWSサービスを選択してライブレビューを行う。
  • 信頼性のメトリクスを定期的にレビューし、データ主導の方法で信頼性作業を優先順位付けすることが重要。
  • Netflixは「カオスエンジニアリング」としてシステム的な障害を正常化し、故障耐性システムの構築を促進した。
  • チームの信頼性目標を明確にし、ダッシュボードを使用してその目標が達成されていることを証明することが重要。

この記事は信頼性を会社の文化に組み込むための基本的なツールについて探求しています。スタートアップや早期段階の企業は通常、信頼性を優先しませんが、将来の成功には信頼を維持することが不可欠です。エンジニアが信頼性向上に貢献することを評価し、最高位のエンジニアにはシステムの安定性を責任として持たせるべきです。

元記事: https://venturebeat.com/programming-development/the-human-factor-how-companies-can-prevent-cloud-disasters/