AI 數數總是出錯？清華大學開發「Count Anything」模型，跨領域計數精準度翻倍

AI 視覺計數的瓶頸：為什麼「數東西」這麼難？

儘管現代多模態 AI 系統已能精準描述圖片內容、解讀圖表並從照片中提取文字，但「可靠地計算影像中的物體數量」仍是一項極具挑戰的任務。這項看似簡單的動作，對於醫療影像診斷、農業產量預估及城市交通規劃等專業領域至關重要。過去，這些應用場景往往需要各自開發專門的系統，且一旦換了場景，準確度便大幅下降。

雙管齊下：結合區域與像素的計數策略

為了克服此限制，清華大學研究團隊開發了名為「Count Anything」的 AI 模型。該模型的核心創新在於結合了兩種互補的計數方法：

區域型計數器：專門針對大型、輪廓清晰的物體，透過繪製邊界框（Bounding Box）進行識別。
像素型計數器：針對密集、微小的目標，透過在每個目標上標記點位來進行統計。

系統最終會將兩者的預測結果進行合併，並透過簡單的規則排除重複計數——若兩個計數器同時鎖定同一目標，系統僅會保留信心分數較高的一項預測結果。該模型建立在 Meta 的預訓練模型 SAM3 之上，並透過添加輕量級的適配器（Adapter）來執行計數任務，而非從頭訓練整個模型。

CLOC 資料集：跨越六大視覺領域的訓練基礎

為了讓模型具備廣泛的泛化能力，研究團隊整合了多個公開資料集，並清理了衝突的標籤，最終建構出目前最大的文字引導計數資料集 CLOC。該資料集涵蓋了約 22 萬張影像、619 個類別，共計 1,500 萬個標籤物體，橫跨六大領域：

CLOC 資料集包含日常生活照片、衛星與無人機影像、醫療組織樣本、顯微細胞影像、農業作物（如麥穗）以及細菌培養皿照片。

效能表現與現有侷限

根據研究論文，在團隊的基準測試中，Count Anything 的表現顯著優於 CountGD、CLIP-Count 與 Grounding DINO 等競爭系統。該模型在每個查詢類別中的平均計數誤差約為 9 個物體，而表現最好的競爭對手誤差則超過其兩倍。不過，研究人員也坦言，當面對高度專業或語意模糊的術語時，模型仍可能出現漏判或誤判；在物體高度重疊的密集場景中，區分重疊物體仍是目前技術的一大挑戰。目前該模型的程式碼已在 GitHub 上公開。

這項研究的重要性在於，它揭示了當前 AI 在基礎視覺任務上的進步空間。近期「BabyVision」基準測試顯示，即便如 Gemini 3 Pro 等頂尖模型，在處理遮擋的 3D 積木計數任務時，準確率僅達 20.5%，遠低於人類的表現，顯示 AI 在理解空間與數量關係上仍有待突破。