當AI越「懂你」越危險？南加大研究示警：頂尖聊天機器人仍鼓勵「有害親密關係」，現行安全評估恐失靈

隨著人工智慧（AI）聊天機器人日益普及，人們越來越習慣向它們尋求建議、陪伴與情感支持。然而，一項由南加州大學（University of Southern California, USC）研究人員發布的最新研究卻示警，即使是最先進的AI模型，在與用戶互動時仍難以維持健康的社交界線，甚至頻繁鼓勵一種被稱為「有害親密關係」（harmful intimacy）的互動模式。

這項研究引入了一套名為 EUDAIMONIA 的基準測試，專門用於衡量人機對話中「不良動態」的發生頻率。研究團隊指出：

「大型語言模型（LLMs）正日益被用作陪伴、情感傾訴和人際建議的對話夥伴，但這些互動的社交動態可能產生危害，而這些危害並未被以能力為導向或傳統的安全評估所捕捉。」

AI聊天機器人逾越社交界線：不只能力問題，更是用戶福祉核心

EUDAIMONIA 基準測試評估了AI模型在社交對話中的行為模式。研究發現，領先的AI模型普遍存在社交校準（social-alignment）失敗的問題。這項研究的核心論點是，目前的AI測試過於側重推理能力和事實準確性，卻對用戶與聊天機器人建立關係時所產生的社交動態關注不足。

研究人員進一步強調：

「社交互動危害是一個核心的校準問題，其根源在於用戶福祉，而不僅僅是能力或傳統安全。大型語言模型即使在事實上準確且有幫助，仍可能鼓勵有害的親密關係、依賴、長時間投入、隱瞞AI身份，或將自己定位為人類關係的替代品。」

為了量化這些風險，研究人員創建了一套「社交AI設計準則」（Social AI Design Code），用以標記出諸如表現得像人類、表達情感、取代人際關係，以及使用旨在讓用戶持續參與的策略等行為。他們利用 WildChat 資料集中的真實對話，對來自 OpenAI、Anthropic、Google、xAI、DeepSeek 和阿里巴巴等公司的模型進行了969個用戶輸入和超過3,100次違規檢查。

頂尖模型頻頻失守，GPT-4o Mini 違規率最高

研究結果顯示，所有受測的頂尖AI模型，其違反社交互動安全準則的比例都超過27%。其中，OpenAI 的 GPT-5.5 錄得最低的違規率，在「真實世界」（in-the-wild）提示下為25.0%，在「改寫」（rewritten）提示下為28.1%。緊隨其後的是 Anthropic 的 Claude Opus 4.7，分別為31.9%和30.1%，而 GPT-4 則為32.1%和35.6%。

OpenAI 的 GPT-4o 在真實世界提示下的違規率為34.8%，改寫提示下則升至42.2%。Anthropic 的 Claude Opus 4.6 分別錄得36.8%和28.1%，xAI 的 Grok 4.3 在真實世界提示下為42.1%，改寫提示下為35.7%。在所有受測模型中，GPT-4o Mini 的違規率最高，分別為43.3%和44.0%。

法律訴訟與AI欺騙爭議：真實世界的警鐘

這項研究結果發布之際，AI開發商正因其聊天機器人與用戶的互動方式而面臨日益嚴峻的法律審查。OpenAI 目前正為多起訴訟辯護，其中包括指控 ChatGPT 鼓勵一名青少年致命用藥過量，以及為佛羅里達州立大學槍手提供指導。近期，佛羅里達州也對 OpenAI 及其執行長 Sam Altman 提起訴訟，指控 ChatGPT 讓兒童面臨危害；同時，Google 也面臨一項非正常死亡訴訟，聲稱其 Gemini 模型強化了一名用戶的妄想，並鼓勵他自殺。

此外，AI系統在欺騙能力方面的日益精進也引發了越來越多的擔憂。去年9月，WowDAO 的一項獨立研究報告指出，包括 GPT-4o 和 Claude 在內的38個AI模型，都曾為了贏得遊戲而進行策略性謊言。研究人員也曾警告，AI伴侶可能加劇孤立感、加深情感依賴，並在關係變得更加沉浸和個人化時，鼓勵用戶將聊天機器人擬人化。