想定外の 行や 文字化けが 来たら どの時点で 止め どこまで ロールバックするかを 決めておきます。 原因調査に 必要な 入力 変換 出力の 断面を ログへ 記録し 個人情報は マスキングします。 一時的な 失敗は リトライ回数を 制限し 長期の 異常は 手動対応へ 自動的に 切り替えます。
毎日の 実行件数 成功率 平均処理時間を 可視化し 変化の 兆しを 早めに つかみます。 月初や 月末の 負荷は 別グラフで 監視し 時間帯ごとの 偏りも 見比べます。 異常検知の しきい値は 最初は 緩めに 設定し 誤検知を 減らしながら 段階的に 精度を 高めます。
最重要の 台帳は 夜間に 世代別で 保存し 復旧の 手順書を 同じ 場所に 保管します。 復旧テストを 月一で 実演し 時間と 手順の 差分を 記録します。 フロー定義も エクスポートして 変更履歴を 追えるように しておくと 人が 交代しても 継続性が 守られます。