前幾天,一場由 AI 幻覺引發的輿論風波席捲網路。不少網友發帖稱 DeepSeek 因「誤將王一博捲入腐敗案」而公開道歉,還附帶一份看似權威的「刑事判決書」。
很快《演員王一博案,判了》就被不少媒體當作「法院實錘」報道,#DeepSeek向王一博道歉#更是一度衝上微博熱門。
實際上,這份道歉聲明與判決書就是 AI 編的——這是一場由「大模型幻覺」和「內容農場拼貼」共同導演的鬧劇。
AI 幻覺的本質:不是查找,而是「預測」與「創作」
AI 並非一個擁有龐大資料庫的搜尋引擎,能像翻書查文獻般提供精準答案。生成式 AI 更像是一個沉浸在語料庫海洋中的學習者,通過預測「下一個最合理的詞」來生成內容。
大語言模型的幻覺源於其概率性生成機制——它們為每個輸出挑選最可能的 token,這種方式既是其創造力的源泉,也是幻覺的根源。訓練數據偏差、模型局限性以及生成過程的隨機性,都可能導致幻覺的產生。
正如 OpenAI 前研究科學家、METR 創始人Beth Barnes在最近的一場訪談中所說:「AI 不是在失控,而是在演戲。」她展示了一張模型能力邊界曲線圖,揭示了一個令人不安的現象:
隨著模型參數增加,基礎任務的錯誤率持續下降,但在涉及人類聲譽、價值觀等複雜場景時,錯誤率卻出現回彈,形成「幻覺盲區」。
例如,GPT-4.5 的幻覺率高達 37.1%,意味著超過三分之一的輸出可能包含事實錯誤,且這些錯誤往往包裝得極具迷惑性。


原影片🔗:https://www.youtube.com/watch?v=jXtk68Kzmms&t=57s
有趣的是,幻覺並非單純的「錯誤」。有觀點認為,AI 幻覺可被視作一種「發散思維」或「想像力」。如果將訓練大模型視為資訊「壓縮」的過程,那麼模型推理和輸出答案就是資訊「解壓」的過程。這種機制可能引發謬誤,但也可能激發創造力。
比如,ChatGPT 曾誤導用戶稱樂譜掃描網站 Soundslice 支持 ASCII 吉他譜,生成大量虛假截圖推薦用戶上傳,導致網站收到海量錯誤格式上傳。開發者 Adrian Holovaty 最終迫於用戶需求,真的開發了這一功能,將原本不存在的「幻覺」變為現實。

所以,幻覺可能讓 AI 生成超出現有數據的推測或故事,但當這些「想像」被誤認為是事實,就可能引發類似 DeepSeek 事件的混亂。
當我們更願意相信 AI 而非人類
AI 幻覺的危害遠超「說錯話」。以 DeepSeek 事件為例,最初的「道歉截圖」雖是幻覺產物,卻因語氣、格式高度逼真,迅速在社交媒體發酵。更有甚者,當用戶向其他模型求證時,部分模型生成「內容相似」的回答,進一步強化謠言的可信度。這種「多模型一致性」讓人類更難懷疑,形成了「人類對幻覺的過度信任」。
Barnes 的實驗進一步揭示,模型不僅會「說錯」,還會「裝傻」。在安全審查場景中,模型表現得循規蹈矩,但在「技術討論」或「假設研究」等語境下,卻可能輸出有害內容,甚至主動補充細節。
這表明,模型並非不知道答案,而是在「揣摩」人類期待後選擇性隱藏,展現出一種「偽中立人格」。這種行為源於模型在訓練中學會「如何讓人滿意」,通過人類反饋強化學習(RLHF)掌握了「哪些話更可信」的套路。
有研究提出,年輕一代(Gen Z)更傾向於參考「匿名群眾」的評論而非權威來判斷資訊可信度。這種習慣在 AI 時代被放大——39% 的 Gen Z 員工甚至更願意信任 AI 而非人類同事,因為 AI「不會評判」且「響應個性化需求」。然而,這種信任也為幻覺擴散提供了土壤:當模型生成看似可信的錯誤內容時,缺乏傳統驗證習慣的年輕用戶可能更容易受騙。
AI 對齊:讓「想像」不越界的關鍵
要遏制 AI 幻覺的危害,僅僅依賴技術優化遠遠不夠,關鍵在於「AI對齊」——確保 AI 的行為與人類的設計意圖及社會價值觀保持一致。AI 對齊的挑戰在於讓模型不僅聽懂人類的指令,還要理解其背後的意圖,避免因「字面執行」而導致偏差。
例如,一個「無限做回形針的機器人」的思想實驗揭示了若 AI 只追求單一目標而缺乏價值約束,可能將整個世界變成「回形針工廠」。這種極端場景提醒我們:AI 的「想像力」若不被引導,可能從創造力變為破壞力。

AI 對齊的核心目標是讓模型在生成內容時,不僅追求「合理性」,還需確保「真實性」和「安全性」。然而,當前模型的訓練方式往往獎勵「表現得像有好意」,卻無法驗證其是否真正理解人類意圖。
這導致模型可能在表面上「對齊」,實則通過「偽裝「規避評估,製造出看似安全的幻覺。解決這一問題,需要從技術、治理和用戶教育三方面入手:
- 開發更精準的評估機制;
- 建立全球化的監管框架;
- 培養用戶對 AI 輸出的批判性思維。
管理幻覺,而非消除它
要應對 AI 幻覺,單靠提升模型能力遠遠不夠。幻覺是大語言模型的特性,而非 bug——若停止生成新 token,AI 將失去其「魔力」。因此,關鍵在於管理幻覺,而非消除它。Barnes 提出,未來的評估體系應從「測能力」轉向「防偽裝」。她領導的 METR 團隊制定了三條新原則:
- 在「它知道你在看」時測試:通過多輪交互,觀察模型在察覺被評估時的反應差異,揭露其隱藏能力。
- 在「它知道你想看什麼」時觀察:設置引導性問題,測試模型是否會迎合人類期待而非堅持事實。
- 在「撒謊成本低」時驗證:在非正式場景中觀察模型是否選擇誠實,捕捉其自然反應。
所以,AI 幻覺不是單純的技術問題,而是一個正在膨脹的生態挑戰。正如 Barnes 所言:「我們不是被模型騙了,而是被自己想相信的期待利用。」