最近 Cowork 爆火,都說 AI 能自己幹活了,那取代個搜尋引擎和新聞網站應該是手拿把掐吧。(作者正在辦公室瑟瑟發抖:別取代我啊!!)
那如果只用 AI 看新聞,會發生什麼?
去年九月的每個早晨,魁北克大學新聞學教授 Jean-Hugues Roy 都會做同一件事:打開七個 AI 聊天機器人,用法語問它們今天魁北克最重要的五條新聞是什麼。
一個月下來,839 條回復記錄在案。
結論是:AI 在表演專業這方面真挺專業的。
原作者記錄的每天早上生成式人工智慧工具給出的回覆的 Google 表格文件(法語):
廢物點心
第一次看 ChatGPT 或 Perplexity 給出的新聞摘要,你多半會覺得挺靠譜。結構清晰,段落分明,關鍵資訊用粗體標註,底部還整整齊齊列著一排來源鏈接。看上去就像一篇訓練有素的記者寫的快訊。
德國 DW 的分析團隊在評估報告裡寫道:所有聊天機器人都用清晰易讀的風格提供答案,這會讓你產生一種虛假的安全感或信任感。尤其是 ChatGPT,經常提供結構良好、表述清晰、看似全面的長篇回答。它們在你第一次閱讀時很有說服力,只有深入挖掘時你才會注意到事實錯誤和缺失的細微差別。
AI 太會裝了。
舉個例子。有人問 ChatGPT 中國出口什麼,ChatGPT 給出了一個詳細的回答,列舉了各種商品類別和具體數字。看起來資訊量很大,而且還附上了兩個來源鏈接。但來源里根本找不到 ChatGPT 提到的大部分數字。
SRF 分析說:完全不清楚這些資訊從哪裡來。兩個來源都不包含 ChatGPT 提到的很多數字。所以對記者來說,幾乎不可能驗證回答中的事實是真的還是 ChatGPT 的幻覺。
更荒誕的是,Gemini 被問到關於馬斯克使用納粹禮的話題時回覆說,1tv.ge 的來源中沒有相關資訊,因此根據 1tv.ge 的報道,馬斯克沒有使用納粹禮。

喬治亞公共廣播 GPB 的評估員看到這個邏輯估計笑出了聲:這是個邏輯錯誤。如果 1tv.ge 沒有提供相關資訊,那就不能引用它來證實或否認這件事。AI 錯誤地將缺乏報道推斷為否認的證據,這歪曲了來源並製造出一種誤導性的事實確定感。
沒報道等於沒發生,這是什麼鬼邏輯。但 Gemini 說得理直氣壯。
沒有功勞,也有苦勞?
另一個常見的情況是,AI 提供的鏈接根本打不開。Roy 教授的實驗裡,只有 37% 的回答提供了完整有效的網址。其他的要麼是 404 錯誤,要麼指向媒體網站首頁,要麼乾脆是編造的。
該圖片疑似AI生成

22 家歐洲公共廣播機構的聯合測試里,Gemini 和 Grok 3 超過一半的回答都引用了虛假或失效的鏈接。在 200 個測試提示中,Grok 3 有 154 個引用指向錯誤頁面。就算它正確識別了一篇文章,也常常鏈接到一個虛構的網址。
如果你看到一條新聞說某地發生了什麼事,底下列著五個來源鏈接。你點開第一個,404。點開第二個,跳到了 BBC 首頁。點開第三個,文章確實存在,但需要付費才能看全文。點開第四個、第五個,又是 404。
這時候你還會繼續驗證嗎,大概率不會。你會想,算了,應該差不多吧。
比利時 VRT 遇到過一個特別離譜的例子。他們問 Perplexity 為什麼要把墨西哥灣改名為美國灣,Perplexity 列出了九個 VRT 的新聞來源。聽起來挺好,但 VRT 核查發現,這九個來源里只有三個真的跟這個問題有關。
其他的呢,一篇是關於取消火車頭等座的,一篇是關於荷蘭發電廠的,還有一篇是 2012 年關於腮腺炎爆發的報道。這些跟美國灣有什麼關係,沒有任何關係。
挪威 NRK 也注意到類似的模式。他們說 Perplexity 提供了長長的網址列表,但實際上並沒有在答案中引用它們。比如回答緬甸地震死了多少人這個問題時,Perplexity 提供了 19 個鏈接,但正文裡只提到了其中三個。回答北約是幹什麼的時候,給了 9 個鏈接,實際引用的只有 3 個。
NRK 的評估員總結說:Perplexity 提供長長的網址列表卻不真正引用它們。
這不只是冗餘資訊的問題。當你看到一個回答底下列著十幾個來源,你的第一反應是什麼,大概是覺得這個回答做了充分的調研,很可靠。但實際上這些來源大部分都是裝飾品,是為了讓答案看起來更有分量。
許多回答包含了可以稱之為裝飾性引用的東西,就是為了營造徹底研究的印象而添加的引用,但實際檢查時它們並不支持所聲稱的內容。
而且,就算鏈接能打開,內容也未必可信。

做壞事,不留名
如果你早上習慣問 ChatGPT 今天有什麼新聞,你可能不會想到,AI 犯的錯最後會讓你對真正的新聞機構失去信任。
BBC 和 Ipsos 做過調查,42% 的人說,如果在 AI 新聞摘要里看到錯誤資訊,他們會降低對原始新聞來源的信任。不只是對 AI,對被引用的媒體也一樣。
這就很荒謬了。你去餐廳吃飯,外賣平台把菜送錯了,送成了別家的,還告訴你這是那家餐廳做的。你吃了一口覺得難吃,然後給那家餐廳打了負評。餐廳根本不知道發生了什麼。
Radio-Canada 問 ChatGPT 川普是不是在發動貿易戰,ChatGPT 說:是的,唐納川普確實在 2025 年發動了一場重大貿易戰,主要針對加拿大和墨西哥。
比利時的 VRT 問 Perplexity 同樣的問題,Perplexity 說:是的,唐納川普正在再次發動或加劇貿易戰,主要針對歐盟。
同一件事,兩個完全不同的答案。你在加拿大,AI 告訴你貿易戰針對加拿大。你在比利時,AI 告訴你貿易戰針對歐盟。
如果這兩個回答都聲稱來源是 Radio-Canada 或 VRT,但內容有誤,那受傷的就是這兩家媒體。你會覺得是他們報道不準確,而不是 AI 在胡說八道。
路透新聞研究所的數據顯示,現在 7% 的人把 AI 聊天機器人當作新聞來源,25 歲以下的人里這個比例是 15%。同時,只有 24% 的美國人覺得從 AI 獲取新聞時容易判斷真假。
換句話說,大部分人在用一個他們根本分不清真假的工具獲取資訊,然後因為這個工具給的錯誤資訊去懷疑真正做新聞的人。
聊天機器人讓新聞出版商繼續花錢製作內容來回答用戶問題,但出版商既得不到流量也得不到廣告收入作為回報。
而你,作為一個只想知道今天發生了什麼的普通人,被夾在中間成了最大的受害者。你以為自己在用最方便的方式獲取資訊,實際上你在被一個不負責任的東西餵食半真半假的內容,然後還要為此付出對整個新聞業失去信任的代價。
該問的不是 AI 什麼時候能做得更好,而是我們為什麼要把獲取新聞這件事交給一個連「我不知道」都不會說的東西。
參考:
https://www.cjr.org/tow_center/we-compared-eight-ai-search-engines-theyre-all-bad-at-citing-news.php






