NVIDIA HORIZON 突破硬體設計瓶頸:自動化代理如何達成 RTL 基準測試 100% 通過率?
編輯核心觀點
- ✦NVIDIA Research 推出 HORIZON 框架,將硬體設計視為儲存庫層級的程式碼演進,而非單次生成的任務。
- ✦該系統透過 Git 版本控制與自動化評估迴圈,在多項 RTL 基準測試中達成 100% 的成功率。
- ✦研究團隊指出,HORIZON 透過持續的評估與修正機制,解決了傳統單次生成模型難以處理複雜硬體邏輯的問題。

將硬體設計轉化為「儲存庫演進」
NVIDIA Research 近期發布了名為 HORIZON 的硬體設計自動化代理框架。與傳統一次性生成程式碼(Single-turn code generation)的模型不同,HORIZON 將硬體設計視為一種「儲存庫層級的程式碼演進」過程。該系統的核心在於透過結構化的 Markdown 導引(Harness),引導代理程式在隔離的 Git 工作樹(Worktree)中進行迭代開發,僅在通過可執行驗證門檻後才提交版本。
硬體設計的複雜性在於其對週期級行為、重置慣例、位元寬度及模擬器回饋的高度依賴,單純生成看似合理的 Verilog 程式碼並不足以應付實際硬體需求。HORIZON 透過定義包含目標、領域知識、評估規範與驗收條件的 Markdown 檔案,將設計問題轉化為一個可持續運作的迴圈。
運作機制:以 Git 為核心的自動化迴圈
在啟動後,HORIZON 的運作無需人工介入。每個循環包含規劃目標、編輯工作樹、呼叫工具與執行評估。系統利用 Git 作為底層架構,不僅是為了記錄,更將其作為狀態追蹤的工具:
Git is the substrate here, not incidental bookkeeping. Diffs expose proposed state changes. Commits define accepted checkpoints. Notes attach evaluator evidence. The log recovers the full trajectory.
透過將成功的嘗試視為正向修復範例,失敗的嘗試記錄為負向範例,HORIZON 將儲存庫歷史轉化為經驗緩衝區。此外,該系統利用模型提示快取(Prompt Caching)技術,在維持持久模型會話的同時,大幅降低了 API 的 Token 消耗成本。
基準測試表現與應用場景
研究團隊以 GPT-5.3 為基礎模型,在 AMD EPYC 9334 伺服器上進行測試,涵蓋 ChipBench、RTLLM-2.0、Verilog-Eval 以及 CVDP 等多項基準測試。結果顯示,HORIZON 在所有評估類別中均達到了 100% 的通過率。
HORIZON 的應用場景直接對應日常的 RTL(暫存器傳輸層)開發工作,包括:
- RTL 程式碼補全:將失敗的片段轉化為可運作的設計。
- 規格轉譯:根據自然語言規格實作模組。
- 驗證生成:自動產生測試平台(Testbench)刺激訊號、檢查器(Checkers)與斷言(Assertions)。
- 除錯與修復:根據模擬器回饋定位並修復功能性錯誤。
儘管在多項測試中取得完美成績,研究團隊仍明確表示,自動化代理硬體設計的問題尚未完全解決。目前該系統在 Token 使用效率上仍有優化空間,特別是在程式碼補全等需要長尾迭代的任務中,計算資源的消耗仍是後續改進的重點。



