9/27韓國資料中心因大火導致雲端資料全部灰飛煙滅,行政作業返回紙本時代。

9/27韓國資料中心因大火導致雲端資料全部灰飛煙滅,行政作業返回紙本時代。

由於內部規定強制所有公務員不得將資料存放於個人電腦中,必須將資料統一儲存到自建的雲端空間中,加上使用鋰電池作為 UPS 的電池儲能,並且和伺服器存放在同一空間中,發生鋰電池熱失控引發火災的狀況下,無法將伺服器及時救出,導致電子化政府返回行政紙本政府時代,後續即使透過同事間電腦中的殘留的資料,也只能回復部分文件,主要業務也已進入停擺,針對這件事我們做出以下幾點檢討。

UPS 不該使用鋰電池作為電儲能

選擇 UPS 的電池時,鋰電池雖有諸多優勢,但在下列關鍵情境中,它可能並非合適的選擇:

  • 預算優先的靜態環境
    • 原因: 若機房環境穩定、停電不頻繁,且「初始成本」是首要考量。傳統的鉛酸電池購置成本遠低於鋰電池,能提供最基本的備援電力,符合成本效益。
  • 安全規範與風險顧慮
    • 原因: 儘管「磷酸鋰鐵」電池已大幅提升安全性,但其餘類型的鋰電池(如鈷酸鋰)在嚴重損壞時仍有熱失控風險。對於風險趨避性極高的場所(如存放重要文獻的倉庫),決策者可能仍傾向選擇幾乎無起火風險的鉛酸電池。
  • 現有系統與基礎設施限制
    • 原因: 升級至鋰電池 UPS 可能需要更換充電電路與相關管理系統,對於僅想「更換電池」的舊系統用戶而言,改裝成本與複雜度過高,不如繼續使用設計相容的鉛酸電池。

建議

當「最低成本」、「絕對安全疑慮」與「系統相容性」的權重,高於「長壽命、高能量密度與頻繁放電」的需求時,使用鋰電池作為 UPS 儲能便不具備優勢。鉛酸電池在這些特定場景下,仍是更務實與安心的選擇。

UPS 不該和伺服器放在同一環境中

在規劃機房基礎設施時,許多人都知道需要不斷電系統(UPS)來保護伺服器免受電力中斷的影響,但卻常忽略一個重要細節:UPS設備與伺服器不應該放在同一環境中。

為什麼需要分開放置?

  • 溫度需求不同
    • 伺服器需要涼爽的環境,通常維持在18-27°C之間。而UPS在運作時會產生大量熱量,特別是在充電和放電過程中,這會增加空調系統的負擔,導致伺服器環境溫度升高。
  • 潛在安全風險
    • UPS使用的鉛酸或鋰電池在特定情況下可能釋放氫氣,存在安全隱患。此外,電池老化或故障時可能發生漏液,對敏感的伺服器設備造成威脅。
  • 維護作業影響
    • 當需要對UPS進行維護或更換電池時,技術人員的作業可能會干擾到伺服器的正常運作,增加意外斷電或設備損壞的風險。

建議

理想的配置是將UPS設備安置在獨立的電力室或專用區域,與伺服器機房相鄰但物理分隔。這樣既能確保電力保護功能,又能避免相互干擾。

透過適當的空間規劃,不僅能延長UPS和伺服器的使用壽命,也能提高整個系統的可靠性和安全性。記住,好的基礎設施設計是企業IT系統穩定運作的基石。

伺服器沒有規劃 3-2-1 備份機制

在數位時代,資料就是企業的命脈。然而,許多組織的伺服器卻缺乏完善的備份策略,其中最關鍵的就是沒有落實「3-2-1備份原則」。這種情況就像走在鋼索上,隨時面臨資料全失的風險。

什麼是 3-2-1 備份原則?

3 – 至少保存 3份 資料副本
2 – 使用 2種不同 的儲存媒體
1 – 其中 1份 存放在異地

沒有 3-2-1 備份的風險

單點故障危機

  • 當所有備份都存放在同一台設備或同一地點,火災、水災、盜竊或設備故障就可能讓所有資料瞬間化為烏有。

復原時間拉長

  • 沒有異地備份時,災難發生後需要更長時間才能恢復營運,可能造成巨大的商譽和財務損失。

媒體失效風險

  • 依賴單一儲存媒體(如只有硬碟備份),一旦該媒體出現技術問題或相容性問題,備份資料可能無法讀取。

實際執行建議

  • 本地備份:在伺服器本地保留一份近期備份,供快速恢復使用
  • 異地備份:定期將備份傳送至雲端或另一實體地點
  • 離線備份:保留一份離線儲存的備份,防範勒索軟體攻擊

資料中心沒有建立災難還原機制、和演練

當機不是「如果」的問題,而是「何時」的問題。然而,許多資料中心卻像沒有做消防演練的摩天大樓——看似安全,實際上危機四伏。

災難還原機制:不只是技術備份

真正的災難還原應該包含:

  • 明確的復原時間目標(RTO)與復原點目標(RPO)
  • 自動化失效切換機制
  • 完整的文件化程序
  • 經過測試的備份還原流程

沒有這些機制,就像擁有保險箱卻忘記記下密碼——關鍵時刻無法發揮作用。

定時演練:最被忽略的關鍵環節

為什麼要演練?

  • 發現理論與現實的落差 – 文件上可行的方案,在實際執行時可能遇到意想不到的障礙
  • 訓練團隊應變能力 – 壓力下的決策質量需要透過反覆練習來提升
  • 驗證技術可行性 – 備份資料是否真的能夠順利還原?切換程序是否如預期運作?

建立有效機制三步驟

立即行動方案:

  • 制定基礎還原計畫 – 從最關鍵的業務系統開始
  • 每季進行小型演練 – 針對特定系統進行還原測試
  • 年度全面性演練 – 模擬真實災難情境,檢視整體應變能力

結論

災難還原不是一次性專案,而是持續改進的過程。與其祈禁災難不要發生,不如準備好當災難發生時能夠優雅應對。

記住:沒有經過演練的災難還原計畫,只是一份充滿美好願望的文件。今天的準備,決定了明天危機發生時的生存機率。