AI 基礎設施的隱形成本黑洞：當 GPU 閒置率成為獲利殺手

被忽略的 AI 基礎設施成本黑洞

過去兩年，AI 基礎設施的討論多集中在資本支出（CapEx），包括 GPU 採購、電力協議與資料中心擴建，這些數據在投資人會議中被反覆提及。然而，一個更龐大且隱蔽的成本中心正快速膨脹：維持運算叢集健康的營運成本。

這項工作目前高度依賴人工，包含偵測並處理 GPU 節點故障、重新排程受損硬體，以及監控資源利用率。這些任務由業界最高薪的工程師群體執行，且隨著叢集規模擴大，人力需求呈現線性成長，這使得原本強勁的 AI 投資故事，面臨嚴峻的利潤結構問題。產業分析師指出，大型雲端服務商（Hyperscaler）的生產環境中，GPU 的閒置率常態性超過 30%。

自動化：從內部工具到開源標準

為了應對此問題，字節跳動（ByteDance）軟體工程師 Shashidhar Bhat 開發了一套名為 OpenSkill 的代理式自動化系統。該系統透過自訂裝置插件進行精細的加速器排程，並具備自主故障排除能力，能自動避開損壞硬體。在字節跳動處理每月約 1 PB 資料的 Kubernetes 叢集中，OpenSkill 成功將 GPU 閒置時間降低了 35%。

Bhat 的貢獻不僅止於內部工具，他同時參與了字節跳動與 Kubernetes 社群共同維護的資源管理架構 Katalyst，推動 CPU 與 GPU 資源的聯合排程。此外，他與 Sathwik Rao Sirikonda 共同發表了關於 Carbon-Kube 的研究，該專案專注於叢集運作的碳排放管理，並具備嚴謹的基準測試方法論。