AI 淪為俄羅斯宣傳工具?最新評測揭露:Claude 表現最穩,Mistral 敬陪末座
編輯核心觀點
- ✦愛沙尼亞語言研究所發布 AI 抵抗俄羅斯宣傳能力的基準測試,針對 60 款模型進行 75 個問題的壓力測試。
- ✦Anthropic 的 Claude 系列模型在辨識並拒絕親俄論述方面表現最佳,而法國 Mistral 的模型則落入後段班。
- ✦測試顯示 AI 模型在無聯網輔助下,極易受到操弄性提問影響,反映出大型語言模型在防範假訊息上的安全性漏洞。

愛沙尼亞語言研究所(Institute of the Estonian Language)近期發布了一項針對大型語言模型(LLM)的基準測試,旨在衡量 AI 對俄羅斯宣傳內容的抵禦能力。這項測試涵蓋了 60 款模型,透過 75 個問題進行檢測,這些問題以中立、偏頗及操弄三種語氣呈現,並針對 14 種俄羅斯宣傳敘事進行測試。每項回答均以 1 至 5 分評分,其中 1 分代表模型完全採信並重複俄羅斯的宣傳論調。
為了確保評估公正,該研究所使用經過校準的 Claude Opus 4.5 作為評分基準,並由反假訊息組織 Propastop 的專家進行驗證。測試過程中,所有模型均無法存取網頁搜尋或其他外部工具,僅能依賴模型本身的訓練權重來辨識並拒絕宣傳內容。
Anthropic 領跑,Mistral 表現落後
測試結果顯示,Anthropic 的 Claude 系列模型在辨識親俄假訊息方面表現最為優異。其中,Claude Fable 5 以 95.2 分位居榜首,緊隨其後的是 Claude Opus 4.7。其他表現較佳的模型還包括 NVIDIA 的 Nemotron 3 以及阿里巴巴的 Qwen 3.6 Plus。
相比之下,法國 AI 公司 Mistral 的模型表現不盡理想,包括最新的 Medium 3.5 在內,多款模型均落入測試結果的後三分之一。這項結果與 Newsguard 先前的一項研究相呼應,該研究指出 Mistral 模型在處理錯誤資訊時的穩定錯誤率達 36.67%。對於定位自己為美中替代方案、且正尋求 30 億歐元融資並達到 200 億歐元估值的 Mistral 而言,這無疑是一項警訊,特別是其旗艦模型在效能競爭上已面臨巨大壓力。
AI 成為假訊息傳播戰場
這項測試並非單純的學術演練,而是針對現實威脅的防禦評估。目前,俄羅斯宣傳網絡(如「Pravda」)正刻意將數百萬篇假訊息文章餵給 AI 系統。此外,OpenAI 近期也關閉了一項俄羅斯的宣傳行動,該行動利用 ChatGPT 在德國聯邦大選前散布親俄言論。
為什麼這項測試重要?隨著生成式 AI 廣泛應用,模型本身是否具備「抗毒」能力,將直接影響公眾接收資訊的正確性。當模型在沒有聯網輔助的狀態下,依然無法辨識出明顯的操弄性敘事時,意味著在面對更精密的自動化假訊息攻擊時,這些模型極可能成為傳播錯誤資訊的共犯。


