告別人工調校！GEPA 框架如何讓 AI 自動優化 Prompt 解決數學難題

自動化提示工程：GEPA 的演化式優化策略

在大型語言模型的應用開發中，提示詞（Prompt）的優化往往是一項耗時的人工工程。GEPA（Generative Evolutionary Prompt Adaptation）框架提供了一種自動化的解決方案，透過「反射式演化」機制，讓模型能根據執行結果自我迭代，進而提升解決複雜算術題的能力。

建構確定性基準測試

為了驗證優化效果，開發者首先建立了一個包含折扣計算、行程距離、錢包餘額與連鎖運算等四類題型的算術基準測試集。透過程式化生成題目與標準答案，確保評估過程的可靠性與一致性。這些題目被隨機分為訓練集（12 題）與驗證集（6 題），作為模型演化與測試的基礎。

結構化回饋與評估機制

GEPA 的核心在於其結構化評估器。當任務模型（Task LM）輸出答案後，系統會進行兩階段檢查：首先確認數值是否正確，其次檢查輸出格式是否符合「#### <integer>」的嚴格規範。評估器會根據結果給出具體回饋，例如：

WRONG ANSWER. You output '#### {fmt_val}' but the correct answer is {gold}. Re-check the arithmetic and the order of the steps.

這種回饋機制不僅指出錯誤，更提供了解決問題的具體方向，讓 GEPA 能針對指令（Instructions）與輸出格式規則（Format Rules）進行同步演化。

多組件提示的演化路徑

與傳統單一提示詞不同，GEPA 採用多組件提示（Multi-Component Prompts）架構。在優化過程中，模型不僅學習如何正確運算，還會同時調整輸出規則。透過設定 gpt-4o-mini 作為任務模型、gpt-4.1 作為反射模型，GEPA 在預算限制內進行多次迭代，最終比較基準提示（Baseline Prompt）與優化後提示在驗證集上的表現，以觀察演化過程如何有效降低模型在多步驟推理中的失誤率。

告別人工調校！GEPA 框架如何讓 AI 自動優化 Prompt 解決數學難題

編輯核心觀點

自動化提示工程：GEPA 的演化式優化策略

建構確定性基準測試

結構化回饋與評估機制

多組件提示的演化路徑

資料來源

相關文章

AI 多代理系統總是「集體擺爛」？賓州大學與 Duke 聯手開發自動化除錯機制

Perplexity 大升級！Deep Research 導入「程式碼驅動搜尋」，串聯 20 款 AI 模型自動產出報表

告別繁瑣選單：Google TV 導入 Gemini，用語音指令就能自動調校畫質與音效

印度 AI 策略轉向：Avataar 推出的 Varya 模型，如何用 1/27 的成本搶攻在地市場？