監控您服務的狀態
當您進入公開 beta 測試階段時,您必須建立監控機制,以識別可能影響您服務的任何問題。
使用適當的工具和流程進行監控可以幫助您:
- 發現使用者可能遇到的問題
- 在技術問題發生時收到警報,以便及時修復
- 在問題 發生或加劇之前預見問題
- 改進您的服務,例如使用效能數據來協助容量規劃等。
規劃您的監控工作
您應該在 alpha 階段開始規劃如何監控您的服務。在 alpha 階段,您的團隊應該達成以下協議:
- 監控服務的哪些部分
- 如何監控您的服務
- 如何處理和記錄問題
監控指標
您應該追蹤使用者相關的指標,以及技術性的指標。例如,追蹤能夠完成任務的使用者百分比,以及可用的硬碟空間、應用程式介面 (API) 效能和記憶體使用情況。
如何進行監控
一旦您同意監控的內容,您的團隊應該:
- 設定內部和外部的監控檢查 (monitoring checks)
- 撰寫監控檢查
- 撰寫警報訊息
設定內部和外部監控檢查
您應該設定內部和外部的監控檢查。
內部監控是您應該在您的基礎架構內設定的監控,提供關於記憶體使用量、頁面載入時間和網路流量等指標的即時更新。
外部監控是您應該在您的服務外設定的監控,即使您的基礎架構發生故障,它仍會持續檢查您的系統。
撰寫監控檢查
您需要決定哪種監控檢查對您的服務最有用。
監控檢查是一系列測試,您可以執行這些測試來評估您的系統或整體服務的狀態,並通知您是否存在問題。
例如,您可能決定「如果在一小時內有 1 %的使用者在完成交換資料時遇到問題,則需要收到警報」。
您應該在撰寫程式碼的同時撰寫監控檢查,並將這些檢查視為您實際系統的測試。
撰寫警報訊息
請確保您的警報訊息清晰簡潔,易於理解,因為可能會有團隊成員在夜間被叫醒來解決問題。
考慮建立一份作業手冊或文件,以幫助您的團隊快速應對問題。請確保團隊的每個成員在本機上都有檔案的副本,以防雲端文件儲存空間不可用的情況。
處理和記錄問題
您應該使用報修單追蹤系統 (ticketing system) 來管理和追蹤錯誤,以便讓您將問題分配給團隊成員。
錯誤訊息總是包含有用的資訊——它們可以告訴您以下內容:
- 使用者問題
- 對服務的攻擊
- 系統故障
- 容量問題
追蹤錯誤有助於您查看哪些錯誤是重複出現的,以及它們是整體服務的一部分還是與特定應用程式或機器相關。
您可以結合監控測試結果以更了解服務中應修復的問題。例如,比對頁面載入測試中的資料交換失敗和應用程式錯誤,可以讓您:
- 找出更多使用者在服務中遭遇問題的部分
- 確定問題的原因
- 討論如何解決問題的根本原因,例如硬碟空間或效能不佳。
讓資料可以被廣泛利用
除非有安全性問題,您應該將監控資訊和資料廣泛分享。
例如,您可以與您部門的其他服務團隊分享效能報告,或使用類似 GOV.UK Notify 所使用的作業狀態頁面的狀態儀表板,來告訴使用者問題資訊。
定期檢視您的監控流程
每次收到警報時,您都應該檢視您的監控流程。
如果有人在非工作時間被呼叫,您應該確保問題確實需要相應等級的的回應。
例如,如果該問題不影響使用者,並且可以等到早上再處理,請考慮更改您的警報策略,以便將來不再對此類錯誤發出警報。