什麼時候需要根本原因分析?
根本原因分析每當出現問題時都很有用。 從網路安全的角度來看,這可能是網路安全事件,也可能是企業軟體脆弱性激增。從 IT 角度來看,根本原因分析可能著重於企業網路和系統中的效能問題或效率低下。
RCA 在這些情況下很有用,因為它可以讓團隊確定發生問題的真正原因。 RCA 不是解決問題的症狀或中間原因,而是使團隊能夠找到真正的原因並防止未來的事件。
RCA 的目標
RCA 是一個旨在探索發生不想要事件的真實原因的過程。 一些關鍵目標包括:
- 識別因素和根本原因:RCA 識別問題的直接原因,然後重複回到根本原因。 最終目標是識別引發一個或多個其他問題的原始問題。
- 解決根本原因:找到根本原因後,團隊就可以開發工具、流程等來解決問題。 例如,可能需要額外的培訓來教育開發人員有關脆弱性的知識,並防止這些脆弱性在企業應用程式中突然出現並被利用。
- 預防未來事件:通過解決根本原因,組織降低其重複的風險,並啟動導致最終事件的事件鏈。 因此,組織遇到的事件更少。
- 提高可見性:RCA 為團隊提供了解常見問題的原因。 即使無法防止這些問題,團隊也可以更輕鬆地實施監控,以便在發生這些根本原因時更快地檢測和修復這些根本原因。
- 加強事件回應:了解根本原因也可以提高事件響應的速度和有效性。 直接從問題跳轉到根本原因的能力可以加快回應並減少問題的影響。
根本原因的類型
根本原因與因果因素不同。 因果因素可能會導致問題,但它們並不是問題的來源。 各種問題可能是事件的根本原因,包括:
- 實體:問題可能是由元件或系統的實體故障引起的。 例如,關鍵伺服器的電源中斷可能會導致重要應用程式中斷。
- 人類:人類可能會故意或意外引起事件。 例如,推送到生產環境的錯誤代碼可能會破壞組織的應用程式。
組織性:事件也可能是由不良的流程,說明等引起的。 例如,重要任務可能會意外取消指派,或關鍵設施可能缺乏人力。
根本原因分析原則
如果正確完成,RCA 可以成為改善操作和修正安全事件的寶貴工具。 RCA 的一些關鍵原則包括:
- 清楚描述問題。
- 參與所有利害關係人。
- 區分因果因素和根本原因。
- 重複並使用試驗和錯誤來找到根本原因。
如何執行根本原因分析
有幾種不同的技術可用於執行根本原因分析。 最常見的方法之一是「五個為什麼」方法,其中團隊不斷問「為什麼」發生了一些事情。 這種技術將有助於追溯事件鏈,直到對「為什麼?」問題沒有答案。 此時,根本原因已被確定。
視覺化還可以幫助追蹤事件鏈並識別潛在的根本原因。 魚骨圖是一個有用的工具,因為它們使團隊能夠有系統地探索事件的不同潛在原因。
在整個 RCA 過程中,數據和上下文是成功的關鍵。 團隊將需要從多個來源收集和組織數據的方法,以建立時間表,並識別從根本原因到最終結果的事件鏈中可能的原因。
RCA 與 Check Point 事件回應團隊
Root cause analysis requires an understanding of an organization’s systems and also of the potential causes of an issue to trace back from the result to the primary cause. Check Point’s Check Point Services offers a range of incident response services including root cause analysis support to help your organization find and fix the root causes of your security incidents.
