Files
gh-windschord-claude-skils-…/skills/operations-design/assets/templates/operations_design_template_ja.md
2025-11-30 09:06:28 +08:00

42 KiB
Raw Blame History

運用設計書

ドキュメント情報

項目 内容
ドキュメント名 [サービス名] 運用設計書
バージョン [バージョン番号]
作成日 [YYYY-MM-DD]
最終更新日 [YYYY-MM-DD]
作成者 [作成者名]
承認者 [承認者名]
ステータス [Draft / Review / Approved]

改訂履歴

バージョン 日付 変更内容 変更者
0.1 YYYY-MM-DD 初版作成 [名前]

1. 概要

1.1 目的

本ドキュメントの目的を記載します。

  • 運用に求められる要件の明確化
  • システム運用に関わる関係者間の合意形成
  • 運用プロセスの標準化と最適化
  • 運用品質の向上と継続的改善

1.2 対象範囲

本運用設計書が対象とするシステム・サービスの範囲を記載します。

対象システム:

  • [システム名・サービス名]

対象業務:

  • [業務名]

対象期間:

  • [運用開始予定日] [運用終了予定日(該当する場合)]

1.3 前提条件

運用設計における前提条件を記載します。

  • システム開発が完了していること
  • 運用環境が構築されていること
  • 運用チームの体制が整っていること
  • [その他の前提条件]

1.4 制約条件

運用における制約事項を記載します。

  • 予算制約: [金額や制約内容]
  • リソース制約: [人員やインフラリソースの制約]
  • 技術制約: [技術的な制約]
  • 法規制・コンプライアンス: [該当する法規制]

2. サービス概要

2.1 サービスの目的

サービスが提供する価値と目的を記載します。

ビジネス目的:

  • [ビジネス上の目的]

提供価値:

  • [ユーザーに提供する価値]

2.2 サービスの機能

主要な機能を記載します。

機能名 概要 重要度
[機能1] [機能の説明] High / Medium / Low
[機能2] [機能の説明] High / Medium / Low

2.3 システム構成

システムのアーキテクチャと主要コンポーネントを記載します。

アーキテクチャ図:

graph TB
    subgraph "ユーザー層"
        User[エンドユーザー]
    end

    subgraph "アプリケーション層"
        Web[Webサーバー]
        App[アプリケーションサーバー]
    end

    subgraph "データ層"
        DB[(データベース)]
        Cache[(キャッシュ)]
    end

    User --> Web
    Web --> App
    App --> DB
    App --> Cache

主要コンポーネント:

コンポーネント 役割 技術スタック 冗長化
[コンポーネント1] [役割] [技術] Yes / No
[コンポーネント2] [役割] [技術] Yes / No

2.4 外部連携

外部システムとの連携を記載します。

連携先 連携方式 データフロー 重要度
[システム名] API / Batch / etc [方向と内容] High / Medium / Low

3. 運用方針と目標

3.1 運用基本方針

運用における基本的な方針を記載します。

  1. 可用性重視: [方針の詳細]
  2. セキュリティ優先: [方針の詳細]
  3. 継続的改善: [方針の詳細]
  4. コスト最適化: [方針の詳細]

3.2 サービスレベル目標SLO

【重要】ユーザー中心のSLO設計原則:

SLOは「測りやすい指標」ではなく、「ユーザーが快適に使える範囲」を起点として設計します。

設計アプローチ:

  1. ユーザーの期待値を理解する

    • ユーザーはどの程度の応答速度を期待しているか
    • どの程度のエラーなら許容できるか
    • サービス停止はどの程度の影響を与えるか
  2. ユーザー体験に基づいた目標設定

    • 「サーバーCPU使用率」ではなく「ユーザーが体感するレスポンスタイム」
    • 「データベース接続数」ではなく「ユーザーがエラーに遭遇する頻度」
    • 技術指標はユーザー体験指標の裏付けとして使用
  3. システム構成ごとの目標設定

    • 同期処理、非同期処理、バッチ処理でユーザー期待値は異なる
    • それぞれに適切な目標値を設定

SLO定義:

システム構成/機能 指標名 目標値 ユーザー視点での意味 測定方法 測定頻度
[全体] 可用性 [例: 99.9%] ユーザーがサービスを利用できる時間の割合 [測定方法] [頻度]
[Web同期リクエスト] レスポンスタイムP95 [例: 500ms以下] ユーザーが操作後に結果が表示されるまでの体感速度 [測定方法] [頻度]
[Web同期リクエスト] エラーレート [例: 0.1%以下] ユーザーがエラーに遭遇する頻度 [測定方法] [頻度]
[非同期APIリクエスト] 処理完了時間P95 [例: 5秒以内] バックグラウンド処理が完了するまでの時間 [測定方法] [頻度]
[バッチ処理] 処理完了時刻 [例: 翌朝8時まで] 業務開始時にデータが利用可能になっている状態 [測定方法] 日次
[全体] MTTR [例: 30分以内] 障害発生時にユーザーが待つ時間 [測定方法] [頻度]

3.3 サービスレベル指標SLI

SLOを測定するための具体的な指標を記載します。

SLI名 定義 データソース 計算式
[SLI1] [定義] [ソース] [計算式]
[SLI2] [定義] [ソース] [計算式]

3.4 サービスレベル合意SLA

顧客またはユーザーに対して約束するサービス品質の基準を記載します。

SLA策定の重要性:

  • SLOとSLIに基づいた実現可能な目標設定
  • 顧客期待値の明確化
  • サービス品質保証の根拠
  • 違約時の対応方針の明確化

SLA定義:

システム構成/機能 SLA項目 保証値 測定方法 測定期間 未達時の対応
[全体] サービス可用性 [例: 99.9%] [測定方法] 月次 [対応内容]
[Web同期リクエスト] レスポンスタイムP95 [例: 500ms以下] [測定方法] 月次 [対応内容]
[非同期APIリクエスト] 処理完了時間P95 [例: 5秒以内] [測定方法] 月次 [対応内容]
[バッチ処理] 処理完了時刻 [例: 翌朝8時まで] [測定方法] 日次 [対応内容]

システム構成別のSLA設定指針:

  1. 同期的なWebリクエストユーザー対話操作

    • ユーザーが快適に操作できる範囲を基準とする
    • レスポンスタイム: 一般的に500ms以下P95
    • エラーレート: 0.1%以下
  2. 非同期APIリクエストバックグラウンド処理

    • ユーザー体験に直接影響しない範囲で設定
    • 処理完了時間: 数秒〜数十秒
    • 再試行ポリシーを含む
  3. バッチ処理(夜間処理等)

    • 業務開始時刻までの完了を保証
    • 処理時間: 数時間単位
    • 失敗時の再実行ポリシー

SLA未達時のペナルティまたは対応:

  • サービスクレジット: [内容]
  • エスカレーション: [プロセス]
  • 改善計画の提出: [内容]

3.5 エラーバジェット

許容されるエラーの範囲を定義します。

エラーバジェット算出:

  • 可用性目標: 99.9%
  • 許容ダウンタイム(月間): [計算結果]
  • エラーバジェット消費の閾値: [閾値]

エラーバジェットポリシー:

  • エラーバジェット残量 > 50%: [対応方針]
  • エラーバジェット残量 20-50%: [対応方針]
  • エラーバジェット残量 < 20%: [対応方針]

4. 運用体制

4.1 運用組織体制

運用組織の体制を記載します。

graph TB
    Manager[運用マネージャー]

    Manager --> Team1[運用チーム1]
    Manager --> Team2[運用チーム2]
    Manager --> Team3[SREチーム]

    Team1 --> Ops1[オペレーター1]
    Team1 --> Ops2[オペレーター2]

    Team2 --> Ops3[オペレーター3]
    Team2 --> Ops4[オペレーター4]

    Team3 --> SRE1[SREエンジニア1]
    Team3 --> SRE2[SREエンジニア2]

4.2 役割と責任RACI

主要な運用プロセスにおける役割と責任を記載します。

プロセス/タスク 運用マネージャー 運用チーム SREチーム 開発チーム 備考
監視・アラート対応 A R C I [備考]
インシデント対応 A R C C [備考]
変更管理 A I C R [備考]
リリース管理 A C R R [備考]

※ R=Responsible実行責任, A=Accountable説明責任, C=Consulted相談, I=Informed報告

4.3 運用時間帯

運用体制の時間帯を記載します。

時間帯 運用体制 対応内容
平日 9:00-18:00 通常体制 [対応内容]
平日 18:00-9:00 オンコール体制 [対応内容]
休日・祝日 オンコール体制 [対応内容]

オンコール体制:

  • 1次対応: [担当者・連絡先]
  • 2次対応: [担当者・連絡先]
  • エスカレーション先: [担当者・連絡先]

4.4 コミュニケーション

運用における コミュニケーション方法を記載します。

定例会議:

会議名 頻度 参加者 目的
日次運用会議 毎日 [参加者] [目的]
週次運用レビュー 毎週 [参加者] [目的]
月次運用報告 毎月 [参加者] [目的]

コミュニケーションツール:

  • チャット: [ツール名・チャンネル]
  • チケット管理: [ツール名]
  • ドキュメント共有: [ツール名]
  • インシデント管理: [ツール名]

5. 運用スケジュール

5.1 定期運用スケジュール

定期的に実施する運用作業のスケジュールを記載します。

作業項目 頻度 実施日時 担当 所要時間
[作業1] 日次 [時刻] [担当] [時間]
[作業2] 週次 [曜日・時刻] [担当] [時間]
[作業3] 月次 [日・時刻] [担当] [時間]

5.2 メンテナンスウィンドウ

計画メンテナンスの実施可能時間帯を記載します。

定期メンテナンス:

  • 頻度: [週次/月次/四半期等]
  • 実施日時: [曜日・時刻]
  • 所要時間: [時間]
  • 影響範囲: [影響内容]

緊急メンテナンス:

  • 実施判断基準: [基準]
  • 承認プロセス: [プロセス]
  • 通知方法: [通知手段]

5.3 年間運用カレンダー

年間の主要イベントとメンテナンススケジュールを記載します。

イベント/作業 詳細
1月 [イベント] [詳細]
2月 [イベント] [詳細]
... ... ...

6. 定常運用作業

6.1 日次運用作業

毎日実施する運用作業を記載します。

7.1.1 [作業名1]

目的: [作業の目的]

実施タイミング: [時刻]

手順:

  1. [手順1]
  2. [手順2]
  3. [手順3]

確認項目:

  • [確認項目1]
  • [確認項目2]

成果物: [成果物があれば記載]

エスカレーション基準: [異常時の対応]

7.1.2 [作業名2]

[同様の形式で記載]

6.2 週次運用作業

週単位で実施する運用作業を記載します。

7.2.1 [作業名]

[日次作業と同様の形式で記載]

6.3 月次運用作業

月単位で実施する運用作業を記載します。

7.3.1 [作業名]

[日次作業と同様の形式で記載]


7. 監視・通知

7.1 監視方針

【重要】ユーザー中心の監視設計原則:

監視は「測りやすい技術指標」ではなく、「ユーザーが快適に使える状態」を維持するために実施します。

監視設計アプローチ:

  1. ユーザー体験起点の監視

    • まず「ユーザーが体感する品質」を監視
    • 技術指標はユーザー体験指標が悪化した時の原因特定に使用
    • 例: レスポンスタイムの悪化を検知 → CPU使用率を確認して原因を特定
  2. 外形監視を最優先

    • ユーザーと同じ視点でサービスを監視
    • エンドツーエンドの動作確認
    • 実際のユーザートランザクションをシミュレート
  3. システム構成ごとの監視基準

    • 同期処理、非同期処理、バッチ処理で監視基準を分ける
    • それぞれのユーザー期待値に基づいた閾値設定

監視の目的:

  • 第一目的: ユーザーが快適に利用できる状態の維持
  • サービスの可用性確保
  • パフォーマンス劣化の早期検知(ユーザー体感品質の観点から)
  • セキュリティインシデントの検知
  • キャパシティ不足の予兆検知

監視レベル:

  • レベル1Critical: ユーザーに直接影響がある状態 [具体的な定義と対応]
  • レベル2Warning: ユーザーへ影響が及ぶ可能性のある状態 [具体的な定義と対応]
  • レベル3Info: ユーザーに影響はないが注視すべき状態 [具体的な定義と対応]

7.2 監視項目

【重要】監視項目の優先順位:

優先度1: ユーザー体験監視SLI直結

  • ユーザーが直接体感する品質指標
  • これらが正常であればサービスは正常

優先度2: アプリケーション監視

  • ユーザー体験指標の裏付け
  • 問題発生時の原因特定用

優先度3: インフラ監視

  • アプリケーション指標の裏付け
  • キャパシティ管理用

監視項目定義:

優先度 監視対象 監視項目 閾値 監視間隔 アラートレベル ユーザー視点での意味
1 外形監視Web同期 レスポンスタイムP95 500ms超 1分 Warning ユーザーが遅いと感じる
1 外形監視Web同期 レスポンスタイムP95 1000ms超 1分 Critical ユーザーがストレスを感じる
1 外形監視Web同期 エラーレート 0.1%超 1分 Warning ユーザーがエラーに遭遇し始める
1 外形監視Web同期 エラーレート 1%超 1分 Critical 多数のユーザーがエラーに遭遇
1 外形監視非同期API 処理完了時間P95 5秒超 5分 Warning バックグラウンド処理の遅延
1 外形監視(バッチ) 処理完了時刻 7:00以降 1時間 Warning 業務開始に間に合わない可能性
1 外形監視(バッチ) 処理完了時刻 8:00以降 1時間 Critical 業務開始に間に合わない
2 アプリケーション エラーレート [閾値] 1分 [レベル] アプリケーションレベルのエラー発生状況
2 アプリケーション レスポンスタイム [閾値] 1分 [レベル] アプリケーション処理時間
3 Webサーバー CPU使用率 80%超 1分 Info リソース逼迫の予兆
3 Webサーバー CPU使用率 90%超 1分 Warning リソース逼迫
3 Webサーバー メモリ使用率 [閾値] [間隔] [レベル] メモリリソース状況
3 データベース 接続数 [閾値] [間隔] [レベル] DB接続リソース状況

システム構成別の監視設計:

  1. 同期的なWebリクエスト

    • ユーザーは即座に結果を期待
    • レスポンスタイム: P95で500ms以下を目標
    • 監視間隔: 1分迅速な検知が必要
  2. 非同期APIリクエスト

    • ユーザーは数秒の待機は許容
    • 処理完了時間: P95で5秒以内を目標
    • 監視間隔: 5分ある程度の猶予あり
  3. バッチ処理

    • ユーザーは完了時刻を期待
    • 処理完了時刻: 業務開始時刻まで
    • 監視間隔: 1時間処理時間が長いため

7.3 ログ管理

ログの収集・保管・分析方針を記載します。

ログ種類:

ログ種類 出力先 保管期間 用途
アクセスログ [保存先] [期間] [用途]
アプリケーションログ [保存先] [期間] [用途]
エラーログ [保存先] [期間] [用途]
セキュリティログ [保存先] [期間] [用途]

ログ分析:

  • ツール: [ツール名]
  • 分析頻度: [頻度]
  • 分析内容: [内容]

7.4 アラート通知

アラート通知のルールと方法を記載します。

通知ルート:

graph LR
    Alert[アラート発生] --> Level{レベル判定}

    Level -->|Critical| Notify1[即時通知<br/>電話+メール+チャット]
    Level -->|Warning| Notify2[メール+チャット]
    Level -->|Info| Notify3[チャットのみ]

    Notify1 --> Oncall[オンコール担当]
    Notify2 --> Team[運用チーム]
    Notify3 --> Log[ログ記録]

通知先:

アラートレベル 通知方法 通知先 対応時間
Critical 電話+メール+チャット [通知先] 即時
Warning メール+チャット [通知先] 30分以内
Info チャット [通知先] 営業時間内

8. インシデント管理

8.1 インシデント定義

インシデントの定義と分類を記載します。

インシデント定義: サービスの計画外の中断、またはサービス品質の低下

インシデント分類:

優先度 定義 対応目標時間
P1Critical サービス全停止 15分以内に対応開始 [例]
P2High 主要機能停止 30分以内に対応開始 [例]
P3Medium 一部機能停止 2時間以内に対応開始 [例]
P4Low 軽微な問題 営業時間内対応 [例]

8.2 インシデント対応フロー

インシデント対応の標準フローを記載します。

graph TD
    Start[インシデント検知] --> Triage[トリアージ]
    Triage --> Priority{優先度判定}

    Priority -->|P1/P2| Urgent[緊急対応]
    Priority -->|P3/P4| Normal[通常対応]

    Urgent --> Investigate1[原因調査]
    Normal --> Investigate2[原因調査]

    Investigate1 --> Fix1[復旧作業]
    Investigate2 --> Fix2[修正作業]

    Fix1 --> Verify1[動作確認]
    Fix2 --> Verify2[動作確認]

    Verify1 --> Close1[インシデントクローズ]
    Verify2 --> Close2[インシデントクローズ]

    Close1 --> Postmortem[ポストモーテム]
    Close2 --> Review[レビュー]

8.3 インシデント対応手順

インシデント対応の詳細手順を記載します。

9.3.1 検知・報告

検知方法:

  • 監視アラート
  • ユーザー報告
  • 運用チーム発見

報告フロー:

  1. インシデント管理ツールにチケット作成
  2. 運用チームに通知
  3. 優先度に応じてエスカレーション

9.3.2 トリアージ

トリアージ基準:

  • 影響範囲(全ユーザー / 一部ユーザー / 特定機能)
  • ビジネスインパクト(売上損失 / 信用失墜 / 軽微)
  • 緊急度(即時対応必要 / 計画的対応可能)

優先度判定: [優先度判定のマトリクスやルール]

9.3.3 対応・復旧

対応原則:

  1. まず復旧、原因究明は後
  2. 影響範囲の最小化を優先
  3. コミュニケーションを密に

復旧手順:

  1. [手順1]
  2. [手順2]
  3. [手順3]

9.3.4 ポストモーテム

実施タイミング:

  • P1/P2インシデント: 必須
  • P3インシデント: 必要に応じて
  • P4インシデント: 任意

ポストモーテム内容:

  • インシデントサマリー
  • 影響範囲と期間
  • 根本原因分析(なぜなぜ分析)
  • 再発防止策
  • アクションアイテム

8.4 エスカレーション

エスカレーションルールを記載します。

エスカレーション基準:

  • 対応開始から[X]分経過しても復旧しない
  • 影響範囲が拡大している
  • 技術的な判断が必要
  • ビジネス判断が必要

エスカレーションパス:

graph TB
    L1[L1: 運用担当者] -->|15分| L2[L2: 運用リーダー]
    L2 -->|30分| L3[L3: 運用マネージャー]
    L3 -->|60分| L4[L4: 開発チーム]
    L3 -->|重大影響| L5[L5: 経営層]

9. 変更管理

9.1 変更管理方針

変更管理の基本方針を記載します。

変更管理の目的:

  • 変更に伴うリスクの最小化
  • 変更の影響評価と承認プロセスの明確化
  • 変更履歴の記録と追跡可能性の確保

変更の定義: 本番環境への以下の変更を対象とします

  • システム構成の変更
  • アプリケーションのデプロイ
  • インフラ設定の変更
  • セキュリティ設定の変更

9.2 変更分類

変更の種類と承認プロセスを記載します。

変更分類 定義 承認者 リードタイム
標準変更 手順化済みの低リスク変更 運用リーダー 即時
通常変更 一般的な変更 運用マネージャー 3営業日
緊急変更 緊急対応が必要な変更 運用マネージャー 即時
重要変更 高リスクまたは大規模な変更 変更諮問委員会 1週間

9.3 変更管理フロー

変更管理のプロセスを記載します。

graph TD
    Request[変更要求] --> Classification{変更分類}

    Classification -->|標準| Approve1[自動承認]
    Classification -->|通常| Review1[レビュー]
    Classification -->|緊急| Review2[緊急レビュー]
    Classification -->|重要| CAB[CAB審査]

    Review1 --> Approve2[承認]
    Review2 --> Approve3[承認]
    CAB --> Approve4[承認]

    Approve1 --> Plan[実施計画]
    Approve2 --> Plan
    Approve3 --> Plan
    Approve4 --> Plan

    Plan --> Implement[変更実施]
    Implement --> Verify[検証]
    Verify --> Close[クローズ]

    Verify -->|失敗| Rollback[ロールバック]
    Rollback --> Review3[原因分析]

9.4 変更実施手順

変更を実施する際の標準手順を記載します。

事前準備:

  1. 変更チケットの作成
  2. 変更内容の詳細記載
  3. 影響評価の実施
  4. ロールバック計画の作成
  5. 承認取得

実施時:

  1. 事前バックアップの取得
  2. 変更作業の実施
  3. 作業ログの記録
  4. 動作確認の実施

事後:

  1. 変更結果の報告
  2. ドキュメントの更新
  3. チケットのクローズ

9.5 ロールバック計画

ロールバックの基準と手順を記載します。

ロールバック判断基準:

  • 変更後の動作確認でエラーが検出された
  • SLOを下回る性能劣化が発生した
  • 予期しない副作用が発生した
  • [その他の基準]

ロールバック手順:

  1. [手順1]
  2. [手順2]
  3. [手順3]

10. リリース管理

10.1 リリース方針

リリースの基本方針を記載します。

リリース原則:

  • 定期リリースと緊急リリースの明確な区別
  • 本番環境へのリリース前の十分なテスト
  • 段階的なロールアウト(カナリアリリース等)
  • 自動化されたデプロイメントプロセス

10.2 リリーススケジュール

定期リリースのスケジュールを記載します。

リリース種別 頻度 実施日時 対象
メジャーリリース 四半期毎 [日時] 大規模機能追加
マイナーリリース 月次 [日時] 機能改善
パッチリリース 週次 [日時] バグフィックス
ホットフィックス 随時 随時 緊急対応

10.3 リリースフロー

リリースプロセスを記載します。

graph LR
    Dev[開発環境] --> Test[テスト環境]
    Test --> Staging[ステージング環境]
    Staging --> Canary[カナリア環境]
    Canary --> Prod[本番環境]

    Test -.->|NG| Dev
    Staging -.->|NG| Dev
    Canary -.->|NG| Rollback[ロールバック]

各環境の役割:

  • 開発環境: 機能開発とユニットテスト
  • テスト環境: 結合テストと品質保証
  • ステージング環境: 本番環境と同等構成での最終確認
  • カナリア環境: 一部ユーザーでの先行リリース
  • 本番環境: 全ユーザー向けリリース

10.4 デプロイメント戦略

デプロイメント方式を記載します。

採用戦略: [選択した戦略]

デプロイメント方式の比較:

方式 メリット デメリット 採用判断
Blue-Green ダウンタイムゼロ リソース2倍必要 [○/×]
Rolling リソース効率的 段階的な切り替え [○/×]
Canary リスク最小化 複雑な制御必要 [○/×]

自動化ツール:

  • CI/CDツール: [ツール名]
  • デプロイツール: [ツール名]
  • インフラ管理: [ツール名]

11. バックアップ・リカバリ

11.1 バックアップ方針

バックアップの基本方針を記載します。

バックアップ目的:

  • データ損失時の復旧
  • ランサムウェア等のセキュリティインシデント対応
  • 監査・コンプライアンス要件への対応

バックアップ原則:

  • 3-2-1ルール: 3つのコピー、2つの異なるメディア、1つはオフサイト
  • 暗号化されたバックアップの保管
  • 定期的なリストアテストの実施

11.2 バックアップ設計

バックアップ対象と方式を記載します。

バックアップ対象 バックアップ方式 頻度 世代管理 保管場所
データベース フル+差分 日次フル+6時間毎差分 30世代 [場所]
ファイルストレージ フル 日次 7世代 [場所]
システム設定 フル 変更時 10世代 [場所]
ログファイル 増分 1時間毎 90日 [場所]

バックアップスケジュール:

gantt
    title バックアップスケジュール1日
    dateFormat HH:mm
    axisFormat %H:%M

    section データベース
    フルバックアップ    :00:00, 2h
    差分バックアップ1   :06:00, 30m
    差分バックアップ2   :12:00, 30m
    差分バックアップ3   :18:00, 30m

    section ファイル
    フルバックアップ    :02:00, 1h

11.3 リカバリ設計

リカバリの目標値と手順を記載します。

リカバリ目標:

対象 RPO目標復旧時点 RTO目標復旧時間
データベース 6時間以内 4時間以内
ファイルストレージ 24時間以内 2時間以内
システム全体 24時間以内 8時間以内

リカバリ手順:

データベースリカバリ

  1. [手順1]
  2. [手順2]
  3. [手順3]

リカバリテスト:

  • 頻度: 四半期毎
  • 対象: [テスト対象]
  • 成功基準: [基準]

11.4 災害対策DR

災害復旧計画を記載します。

DR方針:

  • DR サイト: [有/無]
  • DR 構成: [Hot Standby / Warm Standby / Cold Standby]

DR切り替えシナリオ:

シナリオ 発生条件 切り替え判断 切り替え時間目標
データセンター障害 [条件] [判断基準] [時間]
リージョン障害 [条件] [判断基準] [時間]

12. セキュリティ運用

12.1 セキュリティ運用方針

セキュリティ運用の基本方針を記載します。

セキュリティ原則:

  • 多層防御Defense in Depth
  • 最小権限の原則
  • ゼロトラストアーキテクチャ
  • 継続的なセキュリティ監視

12.2 アクセス管理

アクセス権限の管理方針を記載します。

権限管理:

ロール 権限範囲 承認者 レビュー頻度
システム管理者 全権限 [承認者] 月次
運用担当者 運用操作のみ [承認者] 月次
開発者 開発環境のみ [承認者] 月次
閲覧者 読み取りのみ [承認者] 四半期

アクセスレビュー:

  • 頻度: [頻度]
  • 実施者: [担当者]
  • レビュー内容: [内容]

12.3 脆弱性管理

脆弱性の検出と対応プロセスを記載します。

脆弱性スキャン:

  • ツール: [ツール名]
  • 頻度: [頻度]
  • 対象: [対象システム]

パッチ適用:

脆弱性レベル 対応期限 承認プロセス
Critical 24時間以内 緊急変更
High 7日以内 通常変更
Medium 30日以内 通常変更
Low 90日以内 計画変更

12.4 セキュリティインシデント対応

セキュリティインシデントの対応手順を記載します。

セキュリティインシデント分類:

レベル 定義 対応時間
L1 重大な侵害 データ漏洩、ランサムウェア 即時
L2 侵害の疑い 不正アクセス試行 1時間以内
L3 セキュリティ違反 ポリシー違反 24時間以内

対応フロー:

graph TD
    Detect[検知] --> Contain[封じ込め]
    Contain --> Eradicate[根絶]
    Eradicate --> Recover[復旧]
    Recover --> PostIncident[事後対応]
    PostIncident --> Improve[改善]

インシデント対応チームCSIRT:

  • リーダー: [担当者]
  • メンバー: [担当者リスト]
  • 外部連絡先: [セキュリティベンダー、警察等]

12.5 コンプライアンス

法規制・コンプライアンス要件への対応を記載します。

適用法規制:

監査対応:

  • 内部監査: [頻度・実施者]
  • 外部監査: [頻度・監査法人]
  • 証跡管理: [保管方法・期間]

13. キャパシティ管理

13.1 キャパシティ管理方針

キャパシティ管理の基本方針を記載します。

キャパシティ管理の目的:

  • サービス品質の維持
  • コストの最適化
  • 将来の需要予測と計画

13.2 キャパシティ監視

監視対象リソースと閾値を記載します。

リソース 現在の使用率 警告閾値 限界閾値 対応アクション
CPU [%] 70% 85% [アクション]
メモリ [%] 75% 90% [アクション]
ディスク [%] 80% 90% [アクション]
ネットワーク帯域 [%] 70% 85% [アクション]

13.3 キャパシティ計画

将来の需要予測と増強計画を記載します。

需要予測:

期間 予想ユーザー数 予想トラフィック 必要リソース
3ヶ月後 [数値] [数値] [内容]
6ヶ月後 [数値] [数値] [内容]
1年後 [数値] [数値] [内容]

増強計画:

  • 実施時期: [時期]
  • 増強内容: [内容]
  • 見積もりコスト: [金額]

13.4 スケーリング戦略

スケーリングの方針と実装を記載します。

スケーリング方式:

  • 垂直スケーリング(スケールアップ): [適用箇所]
  • 水平スケーリング(スケールアウト): [適用箇所]

オートスケーリング設定:

対象 スケールアウト条件 スケールイン条件 最小/最大インスタンス数
[対象1] [条件] [条件] [最小数]/[最大数]
[対象2] [条件] [条件] [最小数]/[最大数]

14. コスト管理

14.1 コスト管理方針

コスト管理の基本方針を記載します。

コスト管理の目的:

  • 予算内での運用実現
  • コスト効率の最適化
  • コスト可視化と予測

14.2 コスト構造

運用コストの内訳を記載します。

コスト項目 月額コスト 年額コスト 備考
インフラコスト [金額] [金額] [内訳]
ライセンスコスト [金額] [金額] [内訳]
人件費 [金額] [金額] [内訳]
外部委託費 [金額] [金額] [内訳]
その他 [金額] [金額] [内訳]
合計 [金額] [金額]

14.3 コスト最適化施策

コスト削減・最適化の取り組みを記載します。

実施中の施策:

計画中の施策:

14.4 コスト監視

コストの監視とアラート設定を記載します。

コスト監視:

  • ツール: [ツール名]
  • 監視頻度: [頻度]
  • レポート: [頻度・宛先]

コストアラート:

  • 月次予算超過アラート: [閾値]
  • 異常なコスト増加アラート: [条件]

15. 問題管理

15.1 問題管理方針

問題管理の基本方針を記載します。

問題の定義: 1つ以上のインシデントの根本原因、または潜在的なインシデントの原因

問題管理の目的:

  • インシデントの根本原因の特定と除去
  • 既知のエラーの記録と回避策の提供
  • 再発防止策の実装

15.2 問題管理プロセス

問題管理のフローを記載します。

graph TD
    Incident[インシデント発生] --> Analysis[傾向分析]
    Analysis --> Problem{問題として<br/>管理すべきか?}

    Problem -->|Yes| Register[問題登録]
    Problem -->|No| End1[終了]

    Register --> Investigate[根本原因分析]
    Investigate --> Known[既知のエラー登録]

    Known --> Workaround[回避策の提供]
    Known --> Solution[恒久対策の検討]

    Solution --> Implement[対策実装]
    Implement --> Verify[効果検証]
    Verify --> Close[クローズ]

15.3 既知のエラー管理

既知のエラーと回避策を記録します。

エラーID 問題概要 影響 回避策 恒久対策の状況
KE-001 [概要] [影響] [回避策] [状況]
KE-002 [概要] [影響] [回避策] [状況]

16. ナレッジ管理

16.1 ナレッジ管理方針

ナレッジの蓄積と共有の方針を記載します。

ナレッジ管理の目的:

  • 運用ノウハウの蓄積と継承
  • 問題解決の効率化
  • 属人化の排除

16.2 ドキュメント体系

管理するドキュメントの種類と保管場所を記載します。

ドキュメント種別 保管場所 更新頻度 管理者
運用設計書 [場所] [頻度] [担当]
運用手順書 [場所] [頻度] [担当]
障害対応手順書 [場所] [頻度] [担当]
FAQ [場所] [頻度] [担当]
ポストモーテム [場所] 都度 [担当]

16.3 ドキュメント管理ルール

ドキュメントの作成・更新・レビューのルールを記載します。

作成ルール:

  • テンプレートの使用
  • 命名規則の遵守
  • バージョン管理の実施

更新ルール:

  • 変更履歴の記録
  • レビュープロセスの実施
  • 関連ドキュメントの同期更新

レビュープロセス:

  • レビュー頻度: [頻度]
  • レビュー担当: [担当者]
  • レビュー基準: [基準]

17. 継続的改善

17.1 改善活動方針

継続的改善の基本方針を記載します。

改善の原則:

  • データドリブンな意思決定
  • 小さな改善の積み重ね
  • チーム全体での取り組み
  • 定期的な振り返りと学び

17.2 改善プロセス

改善活動のサイクルを記載します。

graph LR
    Plan[計画<br/>Plan] --> Do[実行<br/>Do]
    Do --> Check[評価<br/>Check]
    Check --> Act[改善<br/>Act]
    Act --> Plan

改善活動の実施:

  • 週次: チーム振り返り
  • 月次: メトリクスレビュー
  • 四半期: 運用プロセスレビュー
  • 年次: 運用戦略レビュー

17.3 運用メトリクス

運用品質を測定する指標を記載します。

メトリクス 目標値 測定方法 レポート頻度
可用性 99.9%以上 [方法] 月次
MTBF平均故障間隔 [目標] [方法] 月次
MTTR平均復旧時間 30分以内 [方法] 月次
変更成功率 95%以上 [方法] 月次
インシデント件数 [目標] [方法] 月次
デプロイ頻度 [目標] [方法] 月次

17.4 改善施策管理

改善施策の管理方法を記載します。

改善施策リスト:

施策ID 施策名 目的 担当 期限 ステータス
IMP-001 [施策名] [目的] [担当] [期限] [ステータス]
IMP-002 [施策名] [目的] [担当] [期限] [ステータス]

18. 運用ツール

18.1 運用ツール一覧

使用する運用ツールを記載します。

カテゴリ ツール名 用途 ライセンス 管理者
監視 [ツール名] [用途] [ライセンス] [担当]
ログ管理 [ツール名] [用途] [ライセンス] [担当]
インシデント管理 [ツール名] [用途] [ライセンス] [担当]
変更管理 [ツール名] [用途] [ライセンス] [担当]
CI/CD [ツール名] [用途] [ライセンス] [担当]
コミュニケーション [ツール名] [用途] [ライセンス] [担当]

18.2 ツール統合

ツール間の連携を記載します。

統合フロー:

graph LR
    Monitor[監視ツール] -->|アラート| Incident[インシデント管理]
    Incident -->|通知| Chat[チャットツール]
    Chat -->|トリガー| CICD[CI/CDツール]
    CICD -->|ログ| LogTool[ログ管理ツール]
    LogTool -->|メトリクス| Monitor

19. 付録

19.1 用語集

本ドキュメントで使用する用語の定義を記載します。

用語 定義
SLO Service Level Objective: サービスレベル目標
SLI Service Level Indicator: サービスレベル指標
SLA Service Level Agreement: サービスレベル合意
MTTR Mean Time To Repair: 平均復旧時間
MTBF Mean Time Between Failures: 平均故障間隔
RPO Recovery Point Objective: 目標復旧時点
RTO Recovery Time Objective: 目標復旧時間
RACI Responsible, Accountable, Consulted, Informed

19.2 参照ドキュメント

関連ドキュメントへのリンクを記載します。

ドキュメント名 場所/URL 備考
システム設計書 [リンク] [備考]
セキュリティポリシー [リンク] [備考]
運用手順書 [リンク] [備考]

19.3 連絡先

運用に関わる主要な連絡先を記載します。

役割 担当者 連絡先 対応時間
運用マネージャー [名前] [連絡先] [時間]
オンコール担当 [名前] [連絡先] 24/365
セキュリティ担当 [名前] [連絡先] [時間]

19.4 承認

本ドキュメントの承認記録を記載します。

役割 氏名 承認日 署名
作成者 [名前] [日付]
レビュアー [名前] [日付]
承認者 [名前] [日付]

運用設計書作成時の注意事項

本テンプレートを使用する際は、以下の点に注意してください:

  1. プロジェクト特性に応じたカスタマイズ

    • すべてのセクションが必要とは限りません
    • プロジェクトの規模や性質に応じて取捨選択してください
  2. 具体性の確保

    • 抽象的な記述ではなく、具体的な数値や手順を記載してください
    • 「適切に」「十分に」などの曖昧な表現は避けてください
  3. 測定可能性

    • 目標値は測定可能な形で定義してください
    • 測定方法も明記してください
  4. 継続的な更新

    • 運用開始後も定期的に見直し、更新してください
    • 実態との乖離が生じないよう注意してください
  5. ステークホルダーの合意

    • 関係者全員で内容を確認し、合意を形成してください
    • 特にSLOや運用体制については十分な議論が必要です