香港大學與武漢大學聯手打造的衛星圖像預測系統，竟能「預感」乾旱來襲？

這項由香港大學與武漢大學聯合開展的研究，以預印本形式發布於2026年6月，論文編號為arXiv:2606.27277，有興趣深入了解技術細節的讀者可通過該編號查閱完整原文。

贊助商廣告

當你坐在家裡滑手機的時候，天空中有數百顆衛星正在不停地拍攝地球表面的照片。這些照片不只是風景大片，它們是農業專家判斷莊稼長勢的依據，是氣候學家追蹤森林健康的工具，也是災害預警系統的眼睛。然而，僅僅拍照記錄當下還不夠——如果我們能提前預測未來幾個月地球表面會變成什麼樣子，那就可以在乾旱徹底摧毀農田之前提前預警，在森林大火發生之前評估風險，在糧食減產之前調整農業政策。

這正是"地球觀測預測"這項技術想做到的事情：給衛星圖像裝上一個"時光機"，讓它不只看現在，還能預測未來。但這件事遠比聽起來複雜得多。

研究團隊面對的核心難題，用一個生活中的場景來理解就非常清晰了：假設你是一位園藝師，負責照料一大片草地。你有幾張不同時間拍的草地照片，但中間有好幾段時間因為陰雨天氣根本沒拍到，現在你需要根據這幾張斷斷續續的照片，再加上未來幾個月的天氣預報，預測草地在盛夏會變成什麼模樣。這不是一道有標準答案的數學題，因為即便天氣完全一樣，土壤濕度不同、草的品種不同，結果也會截然不同。這就是所謂"部分可觀測、天氣驅動的世界建模問題"——你永遠不可能掌握所有資訊，但你必須做出儘可能準確的預判。

研究團隊提出了一個叫做EO-WM的系統，名字來自"Earth Observation World Model"，即地球觀測世界模型。這個系統的核心思路，是把衛星圖像預測重新理解為一種"世界模型"問題——就像遊戲裡的AI需要通過理解遊戲規則來預測下一幀畫面，EO-WM需要通過理解天氣規律來預測下一張衛星圖。更關鍵的是，這套系統還引入了一套全新的評測標準，專門檢驗模型是否真的"理解"了天氣與地面之間的因果關係，而不只是把圖像畫得好看。

贊助商廣告

一、衛星照片為什麼這麼難預測

要真正理解這項研究解決了什麼問題，得先搞清楚衛星圖像預測為什麼本質上就是一件充滿不確定性的事情。

衛星並不是隨叫隨到的攝影師。以這項研究使用的Sentinel-2衛星為例，它繞地球一圈需要好幾天，同一片土地大約每五天才能拍一次。更麻煩的是，只要有雲，照片就廢了——雲層下面的地面完全看不見。這就好比你想追蹤一個人的行蹤，但他每次出門都可能被大霧遮住，你手頭的記錄是斷斷續續的，中間有大量空白。

這種"稀疏觀測"的問題，造成了預測工作的第一個挑戰：你必須從這些不完整的"快照"里，推斷出一個連續變化的故事。

第二個挑戰更深刻。天氣確實是驅動地面變化的主要力量，乾旱讓草地枯黃，高溫讓樹木提前落葉，降雨讓農田重煥生機。但天氣和地面之間的關係並不是一個簡單的公式。同樣的乾旱，落在土壤肥沃、地下水充足的地塊上，和落在沙質貧瘠的土地上，造成的損害可以天差地別。偏偏土壤濕度、地下水位這些"隱藏變量"是衛星看不到的，它們潛伏在地表之下，悄悄左右著地面對天氣變化的反應。

正因為存在這些看不見的變量，即便輸入完全相同的天氣條件，未來的地面狀態也可能有好幾種不同的走向。這意味著一個誠實的預測系統不應該給出一個斬釘截鐵的答案，而應該給出一個"可能性分布"——某種結果最有可能，另一些結果也有一定概率，最極端的情況發生概率最低，但也不能排除。這就是研究團隊強調"概率性預測"的根本原因。

在EO-WM出現之前，主流的預測方法大體分成兩類。一類是確定性模型，比如Earthformer這樣的時空變換器，它們把所有輸入都處理完之後，給你一個確切的預測結果，就像天氣預報直接告訴你"明天氣溫23度"，而不是告訴你"有六成概率在20到26度之間"。這類模型精度不錯，但它把所有不確定性都壓扁了，強迫自己給出一個平均化的答案，遇到極端事件時往往會系統性地低估變化幅度。另一類是基於擴散模型的生成式方法，理論上可以生成多種可能的未來，但這類方法通常把天氣變量當作一個普通的輸入信號，沒有區分"正常季節性天氣"和"異常極端天氣"的本質差異，導致模型對極端氣候事件的感知能力有限。

贊助商廣告

EO-WM的突破，就在於它同時解決了這兩個問題：既保留了概率性預測的能力，又專門為天氣條件的物理結構設計了一套更聰明的處理方式。

二、把天氣"拆解"成三層信號

EO-WM最核心的技術創新，是一套叫做"物理資訊條件框架"的天氣處理方法。這套方法的思路，可以用一個廚師品嘗食物的場景來理解。

一位經驗豐富的廚師嘗一口湯，不會只說"這碗湯味道是X"。他會分層品味：這碗湯的基礎底味如何（豬骨湯底）？今天比平時咸了還是淡了（異常偏差）？如果這種偏鹹的狀態已經持續了好幾天，那鍋里的鹽分已經積累到什麼程度了（累積效應）？這三個層面加在一起，才構成對這碗湯"現狀"的完整理解。

EO-WM對天氣的處理方式與此完全對應。研究團隊把天氣信號拆解成三個層次，分別通過不同的通道注入模型，讓模型對每一層的物理含義都有清晰的感知。

第一層是"氣候基線"，也就是某個地方在某個月份的正常天氣應該是什麼樣的。研究團隊為數據集中的每一個地理區塊、每一個月份，預先計算了一個長期平均天氣值。比如法國中部七月的平均氣溫大約是多少、平均降水量大約是多少，這些都是有規律可循的季節性背景。這一層信號的作用，是告訴模型"現在是什麼季節、這個地方通常處於什麼氣候狀態"，屬於穩定的背景知識，只需要注入模型一次。

第二層是"天氣異常"，也就是實際天氣與氣候基線的偏差。如果七月的實際氣溫比歷史平均值高出5度，這5度的偏差就是一個顯著的異常信號，意味著正在經歷比正常年份更炎熱的夏天。這一層信號保留了完整的空間分布資訊，因為不同地點的異常程度可能差別很大，而且這一層信號會隨時間不斷更新，持續為模型提供"當前天氣與正常狀態有多大偏差"的實時資訊。

第三層是"累積物理壓力"，這是整套方案中最有獨創性的部分。研究團隊意識到，植被對乾旱或高溫的反應，不是一個即時的開關，而是一個積累過程。連續三天氣溫偏高，植物可能只是有點蔫；但連續三十天都在高溫下煎熬，同時雨水又比正常年份少了一半，植物就可能徹底枯萎甚至死亡。用廚師的比喻說，這就像一鍋持續加熱的水——每一分鐘單獨看都沒什麼大事，但熱量是在不斷積累的，到了某個臨界點水就沸騰了。

贊助商廣告

具體來說，研究團隊定義了三種累積壓力指標。熱壓力是正溫度異常的累計值，只統計氣溫偏高的天數，氣溫偏低的天對熱壓力沒有貢獻（使用了一個數學上的ReLU操作來實現這個"單向累積"效果）。水分虧缺是負降水異常的累計值，只統計比正常年份乾燥的天數。複合壓力則是熱壓力乘以水分虧缺，專門捕捉"又熱又干"這種雙重打擊同時發生的情況，因為高溫和乾旱疊加在一起對植被的破壞力遠超二者簡單相加。

這三種累積壓力指標經過標準化處理之後，被轉化為模型可以理解的特徵向量，與天氣異常信號一起注入到預測系統的空間條件通道中。這樣一來，模型不僅知道"現在天氣有多異常"，還知道"這種異常已經持續了多久、累積了多大的破壞力"，從而能夠更準確地預測植被響應。

三、這個預測系統的"大腦"是怎麼工作的

了解了天氣信號的處理方式，再來看看EO-WM整體的架構設計，這個部分可以理解為整套系統的"大腦結構"。

EO-WM建立在一種叫做"潛在擴散模型"的技術框架上。擴散模型是近幾年在AI圖像生成領域大放異彩的技術，它的工作原理類似於從噪聲中逐步"雕刻"出圖像——先隨機生成一團雜亂無章的噪聲，然後一步步去掉不該有的部分，最終雕刻出一張清晰的圖像。"潛在"的意思是，這個過程不在原始像素空間進行，而是在一個經過壓縮的"潛在空間"里進行，這樣既提高了計算效率，又保留了圖像的關鍵資訊。

支撐這套系統運作的第一個組件是EO-VAE，一個專門為地球觀測數據定製的變分自編碼器。它負責把多光譜衛星圖像（包含藍、綠、紅、近紅外四個波段）壓縮成一種緊湊的潛在表示，就像把一首完整的樂譜壓縮成一段簡譜，保留核心旋律但去掉冗餘細節。在使用時，它再把這個簡譜還原成完整的樂譜。研究團隊專門用EarthNet2021數據集對這個編碼器進行了微調，讓它更熟悉衛星圖像的特殊統計特性。

贊助商廣告

核心生成模型是一個叫做MMDiT的多模態擴散變換器，採用了流匹配（flow matching）訓練方式。流匹配是一種比傳統擴散訓練更高效的方式，可以理解為給"雕刻過程"找到了一條更直接的路徑，減少了不必要的繞路。這個變換器有3.87億個參數，從零開始在EarthNet2021訓練集上訓練。

模型的工作流程是這樣的：首先，過去10幀已有的衛星圖像被編碼進視覺潛在特徵中，形成觀測上下文；同時，三種天氣條件信號——氣候基線特徵、天氣異常特徵、累積壓力特徵——以及靜態地形數據（數字高程模型）和時空元數據，分別通過各自的通道被注入模型；然後，模型在擴散過程中逐步生成未來20幀衛星圖像的潛在表示；最後，EO-VAE解碼器把潛在表示還原成真實的多光譜圖像。

一個值得注意的工程細節是"深度條件注入"機制。通常的做法是只在模型最入口處注入條件信號，但研究團隊發現，空間條件信號隨著特徵在變換器中一層層傳遞，到了深層就會逐漸"淡化"，模型對條件信號的感知越來越弱。為了解決這個問題，他們設計了一套周期性重注入機制：每經過四個雙流注意力塊，就把空間條件信號重新注入一次，用學習到的零初始化門控確保這個操作不會干擾已有的學習成果。這就像給一列火車在途中設置多個加油站，保證動力不會在漫長旅途中耗盡。

此外，這套系統還支持一種叫做"異常分類器無關引導"（CFG）的推理技巧。在訓練時，研究團隊會隨機丟棄15%的天氣異常信號，讓模型學會在沒有異常資訊時單獨依靠氣候基線做預測。在推理時，通過比較"有異常信號"和"無異常信號"兩種預測的差異，然後按照一個放大係數把這個差異放大，就可以讓模型對極端天氣事件更加敏感。這個機制為用戶提供了一個調節旋鈕：想要更激進地預測極端事件影響，就調大放大係數；想要更保守的預測，就調小。

贊助商廣告

四、打造兩把專門的"測量尺"

評測一個地球觀測預測模型，如果只看圖像畫得像不像，就好比評判一位醫生的水平只看他的字寫得漂不漂亮——這個指標不是毫無意義，但完全抓不住核心。研究團隊認為，對於一個以天氣為驅動信號的世界模型，最關鍵的問題是：當天氣變化的時候，模型給出的預測結果有沒有對應地朝正確方向變化？

為了回答這個問題，研究團隊專門設計了兩套全新的診斷性基準測試，都建立在已有的EarthNet2021數據集基礎上，但聚焦於標準評測完全忽視的兩個能力維度。

第一套叫做"極端夏季基準"。這套測試利用了2018年歐洲的真實熱浪和乾旱事件的衛星數據，這是近幾十年來中歐地區最嚴重的複合氣候事件之一，受影響的法國和德國部分地區植被遭受了嚴重損害。研究團隊從EarthNet2021的極端測試集中篩選出1440個精心挑選的30幀窗口，每個窗口的設計都確保了一件事：前10幀（觀測上下文）顯示的是健康的植被狀態，而後20幀（待預測部分）恰好覆蓋植被開始顯著衰退的時間段。

篩選過程非常嚴格。首先對每個樣本的完整NDVI時序曲線進行平滑分析，找到植被開始從健康轉向衰退的轉折點，然後把30幀窗口定位在這個轉折點附近，確保模型看到的是"正在發生變化前的最後10幀"，需要預測的是"變化發生後的20幀"。之後還需要驗證：目標期內確實有至少兩幀連續圖像、至少兩幀圖像顯示NDVI顯著低於背景基線，且雲層遮擋不能太嚴重。

通過這套篩選流程，研究團隊得到了1440個經過認證的"極端事件窗口"，並按照事件嚴重程度分成低、中、高三檔。對這些窗口的評測重點有兩個：一是"谷值NDVI平均誤差"（TN-MAE），測量模型預測的NDVI最低值與真實最低值之差；二是"下降幅度誤差"（DAE），測量模型預測的NDVI從基準到谷底的跌幅與真實跌幅之差。這兩個指標直接衡量模型有沒有預測到"植被枯死到什麼程度"，而不僅僅是畫面像不像。

贊助商廣告

第二套叫做"季節匹配對基準"。這套測試的設計思路更加巧妙，靈感來自於一個科學實驗的經典設計——控制變量。研究團隊從EarthNet2021的季節性測試集中，找出來自同一個地理位置、同一個季節，但來自不同年份的衛星序列，把它們兩兩配對，形成422個"配對組"。

每一對序列的特點是：地點相同（消除地理差異）、季節相同（消除物候差異）、觀測初始狀態相近（通過嚴格的初始狀態匹配篩選），唯一的不同是它們經歷的天氣條件。比如同樣是某塊農田在7月的觀測，2017年那個夏天涼爽多雨，2019年那個夏天熱浪滾滾。那麼給模型同樣的初始狀態，如果輸入2017年的天氣，預測結果應該顯示更健康的植被；如果輸入2019年的天氣，預測結果應該顯示更差的植被。

這套測試聚焦於三個指標：散度再現比（DRR）衡量模型預測的兩條時序曲線之間的分離程度與真實分離程度的比值，等於1最理想，小於1說明模型低估了天氣差異的影響，大於1說明模型誇大了天氣差異的影響；方向命中率（DHR）衡量模型在每個時間點預測的誰高誰低的方向與現實是否吻合；配對散度相關性（PDC）則衡量在所有422對樣本中，那些真實世界裡差異更大的配對，模型是否也預測出了更大的差異。這三個指標分別測量"量級"、"方向"、"排序"三個維度的天氣響應保真度，共同構成一幅完整的評測圖景。

五、實驗結果：數字背後的故事

研究團隊用這兩套新基準，以及傳統的標準指標，對多個模型進行了系統對比。

在極端夏季基準上，對比結果揭示了一個非常清晰的規律。以Earthformer為代表的確定性模型，在整體圖像重建質量（ENS分數）上表現不錯，在低嚴重程度事件上誤差也還可以，但隨著事件嚴重程度升高，它預測的下降幅度誤差越來越大——高嚴重程度事件的DAE高達0.3084，比低嚴重程度的0.2227高出了近40%。這說明確定性模型面對極端情況時，會系統性地給出過於保守的預測，把大災難預測成小問題。用醫生診斷的比喻說，這就像一位醫生面對重症患者，總是傾向於給出"輕度不適，多喝熱水"的診斷。

贊助商廣告

概率性的生成模型則展示出了不同的特質。Wan2.1藉助強大的預訓練影片生成先驗，在圖像質量上相當有競爭力，但在方向性預測和量級準確性上仍有缺陷，說明通用影片生成能力並不自動轉化為地球觀測預測能力。EO-WM在極端事件的谷值預測（TN-MAE）上，在低、中、高三個嚴重程度檔次上都取得了最好的成績，分別是0.1266、0.1296和0.1281；在下降幅度誤差（DAE）上，高嚴重程度檔次的成績0.2372也明顯優於所有對比模型。

在季節匹配對基準上，各模型之間的差距更加鮮明。大多數確定性模型的DHR（方向命中率）只在0.49到0.56之間徘徊，和隨機猜測相比沒有本質的優勢，這說明它們的預測結果對天氣條件的變化基本沒有系統性的響應。Earthformer相對較好，DHR達到0.5551，但PDC（排序相關性）只有0.1814。EO-WM的DHR達到0.6522，PDC達到0.2942，均為所有模型中最高。

研究團隊還進行了一組消融實驗，逐步添加物理資訊條件框架的各個組件來測試每個組件的貢獻。結果顯示，單純使用原始天氣數據作為輸入的對照模型，DAE為0.2459，DHR為0.6127。加入氣候-異常分解之後，DAE改善到0.2367，DHR提升到0.6247——說明把正常季節性天氣和真正的異常信號分開處理，確實讓模型更好地感知到了偏離正常狀態的天氣。進一步加入累積物理壓力之後，DAE繼續改善到0.2330，DHR提升到0.6522——這驗證了"不只是今天多熱，還要看熱了多少天"這個物理直覺在預測植被響應方面的重要性。

在推理策略的實驗上，研究團隊發現增加集成樣本數量（從單次預測到5次取平均）能明顯改善像素級的重建質量，但會略微降低配對散度相關性，因為取平均值會把不同樣本間的個性差異給磨平。調大異常CFG引導係數可以讓模型對極端天氣更敏感，DRR（散度再現比）隨著引導係數增大會逐漸接近理想值1.0，但過高的引導係數會破壞圖像質量。這意味著不同的下游應用可以根據自己的需求靈活調整：如果最關心的是極端事件預警，可以適當調大引導係數；如果最關心的是圖像的整體視覺質量，就保持默認的無引導設置。

贊助商廣告

診斷可視化進一步生動地展示了這些數字背後的差異。在預測下降幅度與真實下降幅度的散點圖中，EO-WM的散點擬合線斜率最陡，DRA（下降再現準確率）達到0.551，而Earthformer只有0.469，Wan2.1為0.522——更陡的斜率意味著模型預測的嚴重程度與真實嚴重程度更接近，而不是系統性地低估。在極端事件檢測率的對比中，兩個生成式模型都遠超確定性的Earthformer，尤其在低中嚴重程度檔次上，差距尤為顯著——Earthformer在低嚴重程度事件的檢測率只有約0.40，而EO-WM接近0.83，這意味著概率性生成模型能捕捉到確定性模型完全忽視的早期微弱信號。在配對軌跡可視化中，EO-WM能夠更一致地保持兩條軌跡曲線之間的相對順序和分離程度，而其他模型的兩條預測曲線經常出現交叉或距離嚴重失真的情況。

六、這套系統的邊界與未來

任何誠實的研究都必須正視自身的局限。研究團隊在論文中明確指出，EO-WM目前的設計是針對"季節性時間窗口"的預測，也就是幾個月的尺度。如果想把這套方法擴展到多年甚至十年以上的長期預測，會遇到一系列新挑戰：需要處理數百幀衛星圖像，誤差會隨時間累積放大，氣候的長期趨勢變化也會讓歷史氣候基線逐漸失效。

此外，還有一些關鍵的"隱藏變量"問題始終無法通過衛星觀測直接解決。土壤濕度、地下水位、植被品種分布、灌溉情況——這些都是影響地面對天氣響應的重要因素，卻無法從衛星圖像里直接讀取。研究團隊建議，未來可以考慮把地面氣象站的測量數據與衛星數據結合起來，把更多"不可見的隱藏狀態"變成已知條件，從而進一步提升預測精度。

在更廣泛的應用場景上，這套系統的潛力是清晰的：生態系統健康監測、農業產量預測、氣候風險評估都可以從中受益。與此同時，研究團隊也提醒，這類預測技術一旦被過度依賴，可能在農業保險理賠、災害應急響應等高風險決策中造成錯誤判斷，需要審慎使用。

贊助商廣告

說到底，EO-WM這項研究真正的價值不只在於它的預測精度有多高，更在於它提出了一個更正確的問題框架。過去的方法問的是"衛星圖像的下一幀會長什麼樣"，而EO-WM問的是"在這種天氣條件下，這片土地最有可能經歷什麼變化"。這兩個問題看似相似，本質上卻代表了完全不同的思維方式——前者是圖像生成問題，後者才是真正的物理世界建模問題。

對於關心氣候變化、農業安全或生態保護的普通人來說，這項研究意味著未來的衛星數據分析系統可能真正學會"看天說話"——不只是看今天的天氣，還要理解天氣的歷史積累，從而更準確地預警植被衰退、乾旱蔓延和生態系統的潛在危機。有興趣深入了解這套系統的技術細節的讀者，可以通過arXiv編號2606.27277查閱完整論文。

Q&A

Q1：EO-WM的"累積物理壓力"指標和普通天氣預報數據有什麼區別？

A：普通天氣預報數據記錄的是某一天的氣溫、降水等即時數值，而EO-WM的累積物理壓力指標是把這些即時數據中"超出正常範圍"的部分按時間累加起來。比如熱壓力會把連續多天比正常偏高的氣溫全部疊加，反映出植被已經承受了多少持續的熱量壓力。這個區別很關鍵，因為植被響應乾旱或高溫往往是一個積累過程，而不是單日極值觸發的即時反應。

Q2：季節匹配對基準測試為什麼要配對同一地點不同年份的數據？

A：這套測試的核心目的是檢驗模型有沒有真正學會"天氣導致地面變化"這個因果關係。通過固定地理位置和季節、只改變年份（從而改變天氣），就像科學實驗中控制其他所有變量、只改變一個自變量一樣。如果模型真的理解了天氣驅動，那麼給它輸入一個炎熱乾燥年份的天氣，預測結果就應該比輸入涼爽濕潤年份的天氣更差。這套測試直接檢驗這個預期是否成立，比單純看圖像像不像更能揭示模型的真實能力。

Q3：EO-WM的氣候基線和天氣異常是如何分離計算的？

贊助商廣告

A：研究團隊對數據集中的每個地理區塊、每個日曆月份，預先計算了該位置該月份的長期平均天氣值（包含氣溫、降水等五個氣象變量），這就是氣候基線。實際觀測到的天氣值減去氣候基線，得到的差值就是天氣異常。氣候基線作為穩定的季節性背景知識只注入模型一次，而天氣異常作為動態偏差信號隨時間步持續更新，二者通過不同的條件通道分別注入模型，讓模型能區分"這是正常的夏天熱"還是"今年夏天熱得不正常"。