跳至主要内容

監控您服務的狀態

當您進入公開 beta 測試階段時,您必須建立監控機制,以識別可能影響您服務的任何問題。

使用適當的工具和流程進行監控可以幫助您:

  • 發現使用者可能遇到的問題
  • 在技術問題發生時收到警報,以便及時修復
  • 在問題發生或加劇之前預見問題
  • 改進您的服務,例如使用效能數據來協助容量規劃等。

規劃您的監控工作

您應該在 alpha 階段開始規劃如何監控您的服務。在 alpha 階段,您的團隊應該達成以下協議:

  • 監控服務的哪些部分
  • 如何監控您的服務
  • 如何處理和記錄問題

監控指標

您應該追蹤使用者相關的指標,以及技術性的指標。例如,追蹤能夠完成任務的使用者百分比,以及可用的硬碟空間、應用程式介面 (API) 效能和記憶體使用情況。

如何進行監控

一旦您同意監控的內容,您的團隊應該:

  • 設定內部和外部的監控檢查 (monitoring checks)
  • 撰寫監控檢查
  • 撰寫警報訊息

設定內部和外部監控檢查

您應該設定內部和外部的監控檢查。

內部監控是您應該在您的基礎架構內設定的監控,提供關於記憶體使用量、頁面載入時間和網路流量等指標的即時更新。

外部監控是您應該在您的服務外設定的監控,即使您的基礎架構發生故障,它仍會持續檢查您的系統。

撰寫監控檢查

您需要決定哪種監控檢查對您的服務最有用。

監控檢查是一系列測試,您可以執行這些測試來評估您的系統或整體服務的狀態,並通知您是否存在問題。

例如,您可能決定「如果在一小時內有 1 %的使用者在完成交換資料時遇到問題,則需要收到警報」。

您應該在撰寫程式碼的同時撰寫監控檢查,並將這些檢查視為您實際系統的測試。

撰寫警報訊息

請確保您的警報訊息清晰簡潔,易於理解,因為可能會有團隊成員在夜間被叫醒來解決問題。

考慮建立一份作業手冊或文件,以幫助您的團隊快速應對問題。請確保團隊的每個成員在本機上都有檔案的副本,以防雲端文件儲存空間不可用的情況。

處理和記錄問題

您應該使用報修單追蹤系統 (ticketing system) 來管理和追蹤錯誤,以便讓您將問題分配給團隊成員。

錯誤訊息總是包含有用的資訊——它們可以告訴您以下內容:

  • 使用者問題
  • 對服務的攻擊
  • 系統故障
  • 容量問題

追蹤錯誤有助於您查看哪些錯誤是重複出現的,以及它們是整體服務的一部分還是與特定應用程式或機器相關。

您可以結合監控測試結果以更了解服務中應修復的問題。例如,比對頁面載入測試中的資料交換失敗和應用程式錯誤,可以讓您:

  • 找出更多使用者在服務中遭遇問題的部分
  • 確定問題的原因
  • 討論如何解決問題的根本原因,例如硬碟空間或效能不佳。

讓資料可以被廣泛利用

除非有安全性問題,您應該將監控資訊和資料廣泛分享。

例如,您可以與您部門的其他服務團隊分享效能報告,或使用類似 GOV.UK Notify 所使用的作業狀態頁面的狀態儀表板,來告訴使用者問題資訊。

定期檢視您的監控流程

每次收到警報時,您都應該檢視您的監控流程。

如果有人在非工作時間被呼叫,您應該確保問題確實需要相應等級的的回應。

例如,如果該問題不影響使用者,並且可以等到早上再處理,請考慮更改您的警報策略,以便將來不再對此類錯誤發出警報。

相關指南

您可能也會發現運作時間和可用性指南很有用。

原始文章連結