AI 數數總是出錯?清華大學開發「Count Anything」模型,跨領域計數精準度翻倍
編輯核心觀點
- ✦清華大學研究團隊推出「Count Anything」AI 模型,解決了過去單一任務模型無法跨領域精準計數的痛點。
- ✦該模型結合了區域偵測與像素標記兩種技術,並透過 Meta 的 SAM3 架構進行微調,能有效處理從衛星影像到顯微細胞等多元場景。
- ✦在 CLOC 資料集的測試中,該模型的誤差率僅為競爭對手的一半,展現了在通用視覺計數任務上的領先地位。

AI 視覺計數的瓶頸:為什麼「數東西」這麼難?
儘管現代多模態 AI 系統已能精準描述圖片內容、解讀圖表並從照片中提取文字,但「可靠地計算影像中的物體數量」仍是一項極具挑戰的任務。這項看似簡單的動作,對於醫療影像診斷、農業產量預估及城市交通規劃等專業領域至關重要。過去,這些應用場景往往需要各自開發專門的系統,且一旦換了場景,準確度便大幅下降。
雙管齊下:結合區域與像素的計數策略
為了克服此限制,清華大學研究團隊開發了名為「Count Anything」的 AI 模型。該模型的核心創新在於結合了兩種互補的計數方法:
- 區域型計數器:專門針對大型、輪廓清晰的物體,透過繪製邊界框(Bounding Box)進行識別。
- 像素型計數器:針對密集、微小的目標,透過在每個目標上標記點位來進行統計。
系統最終會將兩者的預測結果進行合併,並透過簡單的規則排除重複計數——若兩個計數器同時鎖定同一目標,系統僅會保留信心分數較高的一項預測結果。該模型建立在 Meta 的預訓練模型 SAM3 之上,並透過添加輕量級的適配器(Adapter)來執行計數任務,而非從頭訓練整個模型。
CLOC 資料集:跨越六大視覺領域的訓練基礎
為了讓模型具備廣泛的泛化能力,研究團隊整合了多個公開資料集,並清理了衝突的標籤,最終建構出目前最大的文字引導計數資料集 CLOC。該資料集涵蓋了約 22 萬張影像、619 個類別,共計 1,500 萬個標籤物體,橫跨六大領域:
CLOC 資料集包含日常生活照片、衛星與無人機影像、醫療組織樣本、顯微細胞影像、農業作物(如麥穗)以及細菌培養皿照片。
效能表現與現有侷限
根據研究論文,在團隊的基準測試中,Count Anything 的表現顯著優於 CountGD、CLIP-Count 與 Grounding DINO 等競爭系統。該模型在每個查詢類別中的平均計數誤差約為 9 個物體,而表現最好的競爭對手誤差則超過其兩倍。不過,研究人員也坦言,當面對高度專業或語意模糊的術語時,模型仍可能出現漏判或誤判;在物體高度重疊的密集場景中,區分重疊物體仍是目前技術的一大挑戰。目前該模型的程式碼已在 GitHub 上公開。
這項研究的重要性在於,它揭示了當前 AI 在基礎視覺任務上的進步空間。近期「BabyVision」基準測試顯示,即便如 Gemini 3 Pro 等頂尖模型,在處理遮擋的 3D 積木計數任務時,準確率僅達 20.5%,遠低於人類的表現,顯示 AI 在理解空間與數量關係上仍有待突破。



