AI 基礎設施的隱形成本黑洞:當 GPU 閒置率成為獲利殺手
編輯核心觀點
- ✦AI 基礎設施的成本焦點已從資本支出轉向營運維護,高昂的 GPU 閒置率與人力成本正侵蝕企業利潤。
- ✦字節跳動工程師 Shashidhar Bhat 透過自動化調度系統 OpenSkill,成功將內部 GPU 閒置時間降低 35%。
- ✦這類自動化工具正從企業內部的封閉技術,轉向開源架構,成為解決 AI 運算成本結構問題的關鍵轉折點。

被忽略的 AI 基礎設施成本黑洞
過去兩年,AI 基礎設施的討論多集中在資本支出(CapEx),包括 GPU 採購、電力協議與資料中心擴建,這些數據在投資人會議中被反覆提及。然而,一個更龐大且隱蔽的成本中心正快速膨脹:維持運算叢集健康的營運成本。
這項工作目前高度依賴人工,包含偵測並處理 GPU 節點故障、重新排程受損硬體,以及監控資源利用率。這些任務由業界最高薪的工程師群體執行,且隨著叢集規模擴大,人力需求呈現線性成長,這使得原本強勁的 AI 投資故事,面臨嚴峻的利潤結構問題。產業分析師指出,大型雲端服務商(Hyperscaler)的生產環境中,GPU 的閒置率常態性超過 30%。
自動化:從內部工具到開源標準
為了應對此問題,字節跳動(ByteDance)軟體工程師 Shashidhar Bhat 開發了一套名為 OpenSkill 的代理式自動化系統。該系統透過自訂裝置插件進行精細的加速器排程,並具備自主故障排除能力,能自動避開損壞硬體。在字節跳動處理每月約 1 PB 資料的 Kubernetes 叢集中,OpenSkill 成功將 GPU 閒置時間降低了 35%。
Bhat 的貢獻不僅止於內部工具,他同時參與了字節跳動與 Kubernetes 社群共同維護的資源管理架構 Katalyst,推動 CPU 與 GPU 資源的聯合排程。此外,他與 Sathwik Rao Sirikonda 共同發表了關於 Carbon-Kube 的研究,該專案專注於叢集運作的碳排放管理,並具備嚴謹的基準測試方法論。
為什麼這很重要
AI 基礎設施的營運層已成為下一個主要的利潤邊際戰場。過去兩年,這類自動化技術僅存在於少數大型科技公司的內部,但隨著 Bhat 等工程師將技術開源,未來兩到三年內,叢集營運商將面臨抉擇:是繼續自行開發解決方案,還是採用日益成熟的開源架構。這項選擇將直接決定企業在執行 AI 生產負載時的營運利潤率。



