本文為IT文,但首先向所有消防員政敬,失去兩位港人英雄,痛心、疾首,連日來辛苦了各位消防員,再三致敬。

消防員英勇,面對一場近年罕見火災可見一斑。除了消防會救火救人救財產外,其實還有其他行業需要救火,其中一個就是IT,行內亦稱為fire fighting。難道是數據中心起火?非也,IT fire fighting 泛指在服務大眾、支撐企業日常營運的系統出現問題時,要在最短時間內進行修復的工作。最近例子如早前超市價錢出錯、港交所資訊平台被黑客入侵,或新機場超級一號貨運第一日就癱瘓等等,有些是維護出錯,有些是第三方問題,有些是系統本身開發有缺陷,總之不盡相同。錯誤多發生在系統使用首天、升級或更新硬件後等等。請各位不要看低IT系統錯誤,輕則令服務暫時停止,重則可以有財產或人命傷亡。超市價錢錯誤就令業務停止,港交所黑客事件當日亦令匯豐停牌,超級一號貨運站事件更持續了多個星期,貨物交收受到極大影響。

然而IT界沒有像消防一樣的專責部門,救火一般都由該系統管理員、項目經理(PM)、企業管理人(即如火災各涉事政府局長們)和程式編寫員組成。一般救火程序都是要管理員或程式員找出根本問題,對症下藥修正系統,例如更換硬件、更新程式等,然後先在測試環境中測試,無問題再發佈到所謂生產環境,即是真正大眾使用的平台。因為大部份錯誤都是在之前測試環境中前所未見的,亦未必可以在測試環境中模擬(例如我們不可能模擬數百萬人使用手機的選美投票系統),所以往往只看到數碼火壇花一現造成數據出錯,連觸發錯誤的「火頭」都見不到,只可以從結果推論原因,這需要極強的邏輯思維,由有豐富開發經驗的從業員來帶領救火,決不可以斷估,所有救火改動必需要確保可以紏正錯誤,又不會產生新問題或與現存系統衝突。整個過程一般都需要一整天,還有及後持續的監控,或是一些修復錯誤數據的工作,需要救火隊伍數個通宵去完成。

消防在今次大火中是否有犯錯,我沒有足夠知識去評論。正如在一般人理解「電腦點會錯既呢?」一樣,火不會無明起,電腦的錯大多數是人為錯誤、設計缺陷等,迷你倉和舊式工廈都有其需要改善之處。而在IT救火中,比起消防更易出現人為錯誤,因上級壓力而出錯等也很常見。團隊中必需要有資歷的系統分析人員(SA)、項目管理(PM)雖大多數都不是技術型,但也應發揮他良好的溝通技巧,協助隔絕上層壓力給予技術團隊空間專心解難,也需要張羅不同資源去加快救火進度。

雖然IT的確不及消防危險,數碼火不會取去IT從業員人命,大不了掉了工作,但現今IT系統實在無孔不入,我們已大大倚賴了電腦,簡單如銀行入數、買賣股票、嘟八達通等,背後除了默默發熱運行的電腦外,還需要不同IT從業員去維護。如今資訊散播得快,要評論很容易,在現場替我們處理困難的人,不盡那哪個行業都是專業可敬的,行內出錯而把責任推走的話,從業員就會自然流失,無論IT或消防,誰都不希望天天救火,次次以死(份工)相搏。