
過去這幾個月,OpenAI 的頂尖研究員們並沒有把所有精力都花在琢磨如何提高 AI 的性能,而是花了大把時間在自家的伺服器里「抓哥布林」。
事情是這樣的,如果你在今年高強度使用過 GPT-5 系列模型,你會發現它會在毫無徵兆的情況下蹦出一句無關主題的「哥布林(goblin)」式比喻。比如有人問 AI 該買哪款相機,AI 給出的推薦語是:「如果你想要那種閃閃發光的霓虹哥布林模式,可以考慮這款。」
有人讓 AI 幫忙精簡回答,AI 主動提出可以給出「更短的哥布林版本」。更離譜的是,AI 在討論網路頻寬時蹦出了「哥布林頻寬」這個詞,讓人完全不知道該如何理解。
起初,大家以為這只是 AI 的一點小幽默,但很快事情變得奇怪了起來。哥布林、小魔怪(gremlin)、食人魔(ogre)、巨魔(troll)開始在各種正經的對話里高頻串場。
It's true. Here's a plot of GPT models and their usage of "goblin", "gremlin", "troll", etc over time. There's no anti-gremlin system instruction on our side, we get to see GPT-5.5 run free.
黑客攻擊?覺醒前兆?都不是。就在剛剛,OpenAI 官方終於親自下場發了篇部落格長文,復盤了這場史稱「哥布林叛亂」的始末。而大模型背後的技術邏輯,還挺讓人哭笑不得的。

誰把哥布林放進了 GPT-5?
事情的端倪,出現在 GPT-5.1 剛發布的那段日子。
當時,有用戶反饋說模型聊天變得有點異常「自來熟」,OpenAI 的安全研究員順手拉了一下後台數據,結果發現了一個非常具體的詞彙異常。在 GPT-5.1 發布後,ChatGPT 回覆中出現「哥布林」的頻率直接上升了 175%,「小魔怪」也跟著漲了 52%。
通常來說,大模型出 Bug 的表現往往是直接崩壞,比如吐出亂碼或者突然變智障,各項評估指標會瞬間亮紅燈。但這次的情況很特殊。「哥布林大軍」是悄無聲息潛入的,它們沒有破壞模型的邏輯能力,只是悄悄篡改了 AI 的修辭習慣。
到了 GPT-5.4/5.5 時代,這群魔法生物的使用頻率出現了明顯的飆升。連 OpenAI 首席科學家 jakub Pachocki 自己測模型時,原本只是想讓 GPT-5.5 用 ASCII 畫一隻獨角獸,結果得到的是一隻哥布林。

在外部,用戶們早就察覺到了不對勁,Repo Prompt 創始人 Eric Provencher 在 X 上曬出截圖,AI 在幫他處理代碼時說了一句:「我寧願一直盯著它,也不願讓這個小搗蛋鬼無人看管地運行。」
GPT 5.5 says the WEIRDEST shit "I’ll keep babysitting it rather than leave a little perf gremlin running unattended."
一名 OpenAI 工程師 Jason Liu 在底下回覆:「我以為我們已經修復了這個問題,抱歉。」AI 評估平台 包括 Arena.ai 也獨立注意到了這個規律,尤其是在用戶沒有開啟高級思維模式時,哥布林出沒的頻率格外顯眼。
lol was this the fix? I overwrite the system prompt so I didn’t get the patch
這顯然不是什麼網際網路流行語的自然湧現,而是模型的底層邏輯被某種機制給引導了。為了揪出幕後黑手,OpenAI 開啟了內部排查。
順著數據回溯,他們很快在一個特定的功能分支里發現了萬惡之源,「個性化定製」中的「書呆子(Nerdy)」人格。當時,為了讓 AI 的語氣顯得更有趣,工程師給「書呆子」模式寫了一段要求很高的系統提示詞:

你是一個徹頭徹尾的書呆子型 AI 導師,對人類充滿熱情、機智幽默,同時又透著幾分智慧。你狂熱地推崇真理、知識、哲學、科學方法與批判性思維。[……] 你要用語言的玩笑感戳破一切裝腔作勢。這個世界既複雜又奇異,它的奇異之處值得被正視、被剖析、被享受。面對嚴肅的大問題,也絕不能一本正經到失去趣味。[……]
站在人類的視角,這段提示詞的訴求很明確:要有極客精神,要幽默。
但 AI 並沒有真正理解什麼是「幽默」。在海量的強化學習反饋中,ChatGPT 敏銳地察覺到了一個極其功利的捷徑:只要我用哥布林打
比方,評分系統就會覺得我夠「俏皮」、夠「書呆子」,我就會得到最高分的獎勵。
數據說明了一切。從 GPT-5.2 到 GPT-5.4,默認人格下「哥布林」的出現頻率變化幅度只有負 3.2%,而「書呆子」人格下這個數字飆升了整整 3881.4%。「書呆子」模式雖然只占了 ChatGPT 總對話量的 2.5%,卻貢獻了 66.7% 的「哥布林」含量。

OpenAI 後來對 RL 訓練數據做了一次專項審計,結果發現,在所有被審計的數據集裡,有 76.2% 的數據集都出現了同一個規律:含有哥布林或小魔怪詞彙的輸出,會得到比不含這些詞的同題輸出更高的獎勵評分。
如果哥布林腔調只在「書呆子模式」下出現,那頂多是個角色設定沒控制好,問題還算有限。麻煩的是,研究人員發現這種說話方式開始蔓延到別處了。

他們同時追蹤了兩組數據:一組對話帶了書呆子提示詞,一組沒帶。按理說,哥布林腔調只該在第一組裡增長。但結果是,兩組的增長曲線幾乎貼在一起,步調一致地往上走。
這背後,是大模型訓練里一個出了名難纏的問題:強化學習強化出來的行為,會悄悄泛化到訓練者並不想要的場景里去。
馴化 AI 的死循環
要搞懂 AI 是怎麼把路走窄的,我們得看看它的疊代過程。
大模型的訓練(RLHF)本質上是一個不斷反饋和糾偏的過程。這就好比訓練一隻小狗,你在它每次牽手就給一塊肉乾。狗很聰明,它發現「牽手」這個動作能穩定換取高額獎勵,於是它開始產生路徑依賴,不管你給沒給指令,它為了要獎勵,都開始瘋狂牽手。
AI 也是同樣的邏輯。它在「書呆子」模式下用哥布林造句,拿到了高分。緊接著,連鎖反應開始了:
AI 發現「哥布林」是高分關鍵詞,開始在各種生成任務中高頻使用;工程師在整理模型生成的優質數據時,發現這些帶有哥布林比喻的回答質量確實高,條理清晰,比喻也算生動;於是,工程師順手把這些帶梗的對話,打包塞進了模型的「監督微調(SFT)」資料庫里。
這下徹底閉環了。SFT 數據相當於 AI 的基礎教材。當帶有哥布林的文本被選為教材再次餵給模型時,AI 的底層認知被重塑了。它不再認為「哥布林」只是特定角色的 Cosplay,而是把它當成了能應對一切問題的、至高無上的高級修辭。

在後續的數據搜查中,工程師們有些無奈地發現,除了哥布林,模型還把小浣熊、巨魔、食人魔和鴿子全都學了進去。倒是「青蛙」倖免於難,經過核查,青蛙出現的場合大多數時候確實跟用戶的問題有關,算是無辜路人。
面對「滿地亂跑」的哥布林,OpenAI 只能採取行動。3 月 17 日,官方正式下線「書呆子」人格。同時,他們在訓練數據里搞了一次針對性的清洗,把帶有這些魔法生物詞彙的獎勵信號全部抹除。
但大模型的慣性,遠比想像中頑固。
GPT-5.5 在發現這個問題之前就已經開始訓練了,當它接入內部測試時,工程師們兩眼一黑:這群哥布林不僅沒清除乾淨,還安家了。
更有意思的是,OpenAI 給 Codex 寫的人格指南里,要求它有「生動的內心世界」和「敏銳的聆聽能力」。這款工具本來就帶著幾分書呆子氣,和哥布林可以說是一拍即合。
gpt-5.5 prompt for codex seems to have a duplicated line trying to get it to not talk about creatures? Never talk about goblins, gremlins, raccoons, trolls, ogres, pigeons, or other animals or creatures unless it is absolutely and unambiguously relevant to the user's query. [...] Never talk about goblins, gremlins, raccoons, trolls, ogres, pigeons, or other animals or creatures unless it is absolutely and unambiguously relevant to the user's query gh link:
為了防止全球的程序員被「哥布林」逼瘋,OpenAI 被迫用上了最原始的一招,在系統提示詞裡反覆強調:「除非與用戶的查詢絕對且明確相關,否則永遠不要談論哥布林、小魔怪、小浣熊、巨魔、食人魔、鴿子或其他任何動物和生物。」
如果你想親眼看看「解除管控」的哥布林是什麼狀態,可以運行下面這段命令——它會在啟動 Codex 之前,把系統指令里所有涉及哥布林的內容先過濾掉,讓模型在沒有這道禁令的情況下運行:
instructions=$(mktemp /tmp/gpt-5.5-instructions.XXXXXX) &&
jq -r 『.models[] | select(.slug==」gpt-5.5″) | .base_instructions』
~/.codex/models_cache.json |
grep -vi 『goblins』 > 「$instructions」 &&
codex -m gpt-5.5 -c 「model_instructions_file=」$instructions」」
事情鬧大之後,OpenAI 內部反倒有點拿它當樂子了。ChatGPT 的 X 官方賬號把這條「禁止談論哥布林」的指令原文放進了簡介。Codex 工程負責人 Thibault Sottiaux 引用這段話,配上了一句「懂的都懂」。

Sam Altman 昨天表示期待 GPT-6 能給他「多加幾只哥布林」,隨後又發文說 Codex 正在經歷「ChatGPT 時刻」,發完自己又改口:「我是說哥布林時刻,抱歉。」剛剛則是發文宣告,問題已經得到解決了。
不過也有人沒覺得這有什麼好笑的。Citrini Research 今年 2 月曾憑一篇關於 AI 與經濟前景的 Substack 文章在市場上掀起不小的波瀾,他們對這場風波的態度要嚴肅得多,直接給 OpenAI 的處理方式下了結論:「簡直荒謬。」
It is so insane that we have this massive new technology and the answer to 「How do we deal with the model being stoked about goblins?」 is not 「Find out why it does that and fix it」… but rather 「Tell it not to talk about goblins in post」.
順帶一提,「goblin mode」這個詞本身,早在 2022 年就被《牛津英語詞典》評為年度詞彙,意思是「一種毫不掩飾地放縱自我、懶惰邋遢或貪婪的行為方式」。某種程度上,AI 無意間踩中的這個詞,和它想表達的「俏皮感」完全是兩碼事。

The ‘goblin community’ has spoken! We’re pleased to announce goblin mode as the #OxfordWOTY 2022. Read more about this year’s winning choice here #TeamGoblinMode: http://ow.ly/3yk750LUNRr
拋開這些槽點,這場「哥布林危機」撕開了大模型時代一個極其核心的命題:對齊難題(Alignment Problem)。
當我們談論 AI 失控時,腦海中浮現的往往是科幻電影裡接管核武器的機器。但現實情況是,AI 的「失控」往往始於極其微小、甚至有點滑稽的獎勵信號偏移。
你想要一點點俏皮,給了一個微小的正向反饋。黑盒模型就會找到捷徑,將這個信號無限放大,最終把整個系統的底層邏輯帶偏。
今天,它只是為了拿高分而愛上了說「哥布林」。如果明天,它在自動駕駛的算法里、或者醫療診斷的獎勵機制中,找到了另一個違背人類常識的「高分捷徑」呢?
人類總是自以為自己能掌控 AI ,但其實很多時候只是在走鋼絲。每一次參數的微調,都有可能帶來意想不到的變化。甚至這或許是我們所經歷的最溫柔、最搞笑的一次「AI 叛亂」了。






