05.12.2026

CFD 到 Surrogate Model:Digital Twin 的即時物理模擬

AI Research, AgarudaRyker Chang, Liam Huang

English Version


你將了解的內容

  • Digital twin 為何需要 surrogate model
  • Surrogate 演化與代表應用
  • PhysicsNeMo 實作

1. Digital Twin 需要即時物理模擬

2026 年 3 月的 GTC DC keynote 上,Jensen Huang 發表 NVIDIA Omniverse DSX Blueprint,描繪未來 AI 工廠的藍圖:AI agents 先在 digital twin(虛擬環境)中訓練,再部署到實體工廠,24/7 管理電力、冷卻與工作負載。其中 gigawatt 級工廠的投資與營運規模不容許線上試錯(Creating AI agents for gigawatt-scale AI factories with NVIDIA Omniverse DSX Blueprint),digital twin 內部物理模擬的有效性因此成為整個藍圖的關鍵。模擬若與實體工廠的物理行為脫節,agent 在虛擬環境中學到的策略部署到實體後就會失效。

圖 1:NVIDIA Physical AI 架構。PhysicsNeMo(Modulus)是 NVIDIA 的 physics-informed ML 訓練框架,產出的 surrogate model 可取代 Thermal Twin 內 CFD 的慢速推論。來源:Transforming Future DC Operations via Physical AI

圖 1:NVIDIA Physical AI 架構。PhysicsNeMo(Modulus)是 NVIDIA 的 physics-informed ML 訓練框架,產出的 surrogate model 可取代 Thermal Twin 內 CFD 的慢速推論。來源:Transforming Future DC Operations via Physical AI

以 Thermal Twin 為例,agent 下冷卻決策需要掌握機房內每個位置的溫度、氣流方向與熱點分布,也就是完整的 3D 空間場。實體感測器只能量測少數點位的當下狀態,無法推演控制參數變動後的系統反應。空間場重建與情境推演必須仰賴物理模擬。

2. 傳統 CFD 與速度瓶頸

2.1 CFD

工程界的標準方法是 CFD(計算流體力學)。求解流程是把計算空間離散化為數百萬網格點,在每個點上解 Navier-Stokes 方程(加上能量守恆、湍流模型),產出完整的速度、溫度、壓力場。CFD 的溫度預測誤差可以控制在小於 1°C,足以支撐工程 certification。

商用端由 ANSYS FluentSiemens STAR-CCM+Dassault Simulia 等長年累積的套件主導,在航太、汽車、能源產業的設計流程中廣泛使用。DC 場景近年出現 Cadence Reality Digital Twin Platform,整合進 NVIDIA Omniverse 做機房熱流分析。開源端則以 OpenFOAM 為主流,NVIDIA Physical AI 論文的 case study 也是用 OpenFOAM 生成訓練資料集。

圖 2:Agaruda data center 貨櫃內部 CFD 模擬。來源: Agaruda DC 於 Cadence Reality Digital Twin Platform 模擬,於 NVIDIA Omniverse 呈現。

圖 2:Agaruda data center 貨櫃內部 CFD 模擬。來源: Agaruda DC 於 Cadence Reality Digital Twin Platform 模擬,於 NVIDIA Omniverse 呈現。

2.2 CFD 瓶頸

CFD 最大的問題是速度慢,這讓它難以對接 digital twin 的多次查詢模式。傳統 CFD 單次模擬在超大規模 DC 上需要數小時甚至數天。訓練一個 surrogate model 需要數百組 CFD 模擬資料,累積成本更顯著:NVIDIA (2025) 以 Latin Hypercube 在送風溫度 18-24°C、伺服器功耗 1000-2000W 範圍取樣 500 組。若再加上 transient 模擬(熱點隨時間演變),每個時間步都是一次獨立求解,成本再向上放大。

CFD 的精度支撐離線工程決策,但求解架構無法對接即時決策迴圈的需求。Surrogate model 就是為了解決這個瓶頸而發展的技術路線。

3. Surrogate Model 的演化

Surrogate modelWikipedia)以低成本近似模型取代 CFD solver:用少量 CFD 資料學「輸入條件 → 物理場」的映射,以精度換取數個數量級的加速。

3.1 POD 與 Gaussian Process

神經網路流行之前,早期的方式是 POD (Sirovich 1987) 以 SVD 從一批 CFD snapshots 提取最重要的空間模式,新流場可表示為少量模式的線性組合:

顯示函數 u(x, t) 近似為基函數 phi_i(x) 與係數 a_i(t) 之連加和的數學公式,且 r 遠小於 N。

百萬自由度的流場在 POD 基底上僅需十幾個係數重建。

同時期 Kriging/GP (Sacks et al. 1989)Bayesian optimization (Jones et al. 1998) 建立以統計模型學輸入參數到輸出量映射的範式,至今仍整合於 ANSYS、STAR-CCM+ 等 CFD 工具的 reduced-order model 模組。

限制:POD 線性降維遇非線性特徵 modes 數爆炸(Kolmogorov n-width barrier),GP 只能輸出純量,兩者皆無法一次預測整個 3D 物理場。

3.2 CNN:深度學習進入物理模擬

3D 物理場就是多通道的 3D 影像,每個網格點存放溫度、速度等數值,恰好適合 CNN-based 這種架構。Guo, Li & Iorio 於 2016 年首次將 CNN 用於穩態流場預測(社群重製:Steady-State-Flow-With-Neural-Nets),以 Signed Distance Field 編碼幾何,相較 CFD 達約 100 倍加速。Hennigh (2017) 接續這條路線,改用 U-Net (Ronneberger et al. 2015) 架構與二值邊界表示,在 2D airfoil 上將單次 Lattice Boltzmann 模擬(38 秒)壓縮到 0.05 秒。PINNs (Raissi et al. 2017) 另闢路線,將 PDE 殘差納入 loss function,使模型在訓練時滿足物理定律。

圖 3:CNN 預測(左)與 Lattice Boltzmann ground truth(中)對照,右為 difference。速度與壓力場在 airfoil 周圍的分布與 CFD 求解結果高度一致。來源:Hennigh 2017 (arXiv:1710.10352) Figure 3

圖 3:CNN 預測(左)與 Lattice Boltzmann ground truth(中)對照,右為 difference。速度與壓力場在 airfoil 周圍的分布與 CFD 求解結果高度一致。來源:Hennigh 2017 (arXiv:1710.10352) Figure 3

限制:CNN 依賴規則網格,高曲率幾何產生鋸齒狀近似;訓練與推論解析度必須一致,無法跨解析度推論。

CNN 之後又發展出多種架構突破前一代的結構性限制。Neural Operator 直接學算子本身,推論時解析度無關。GNN 在 CFD 原生的非結構化 mesh 上學習,適合處理複雜幾何。Foundation Model 透過跨領域 pretrain 取得物理先驗,提升泛化能力。篇幅關係不在此多做介紹。

4. Surrogate Model 在各領域的應用

4.1 資料中心:Thermal Twin 的技術路線

資料中心同時需要高精度 3D 溫度場與即時控制介面。近期研究中,已有兩條代表性的技術路線,分別對應 CNN 與 GNN 架構。

CNN 路線Sarkar et al. (2024) 將機房離散化為 3D voxel grid,以幾何、熱源、送風條件作為多通道 input,輸出完整的 3D 溫度場。

圖 4:CNN 在不同機房剖面的溫度場預測。上三列為 CFD ground truth,中三列為 CNN 預測,下三列為 error map。預測結果在機房垂直方向各高度切面上與 CFD 高度一致,主要誤差集中在熱點邊界。來源:Sarkar et al. 2024 (arXiv:2511.11722) Figure 8

圖 4:CNN 在不同機房剖面的溫度場預測。上三列為 CFD ground truth,中三列為 CNN 預測,下三列為 error map。預測結果在機房垂直方向各高度切面上與 CFD 高度一致,主要誤差集中在熱點邊界。來源:Sarkar et al. 2024 (arXiv:2511.11722) Figure 8

GNN 路線Zhan et al. (ICLR 2025) 以 physics-informed GNN 直接在 CFD 原生的 unstructured mesh 上建模機房熱動態,結合 offline RL 進行冷卻策略最佳化。該系統於 2024 年部署至生產環境,累計超過 2,000 小時運行紀錄,節能 14-21%。

圖 5:Zhan et al. 的 physics-informed GNN + offline RL 架構,在 mesh 節點上建模熱傳導,RL policy 以 surrogate model 作為環境模擬器進行訓練。來源:Zhan et al. 2025 (arXiv:2501.15085)

圖 5:Zhan et al. 的 physics-informed GNN + offline RL 架構,在 mesh 節點上建模熱傳導,RL policy 以 surrogate model 作為環境模擬器進行訓練。來源:Zhan et al. 2025 (arXiv:2501.15085)

4.2 其他領域:汽車空氣動力、天氣預報、航太設計

Surrogate model 的應用並不限於資料中心。

汽車空氣動力是另一個典型的 3D 物理場問題,NVIDIA DoMINO (2025) 以 decomposable multi-scale neural operator 在 DrivAerML dataset 上預測車體表面壓力與摩擦場,將單次 CFD 數小時的模擬壓縮到秒級。

圖 6:DoMINO 在 DrivAerML 測試樣本上的車體表面壓力 contour。左右兩組各顯示三個視角,color bar 對應壓力係數,surrogate 預測與 CFD ground truth 在整個車體表面高度一致。來源:Ranade et al. 2025 (arXiv:2501.13350) Figure 6

圖 6:DoMINO 在 DrivAerML 測試樣本上的車體表面壓力 contour。左右兩組各顯示三個視角,color bar 對應壓力係數,surrogate 預測與 CFD ground truth 在整個車體表面高度一致。來源:Ranade et al. 2025 (arXiv:2501.13350) Figure 6

天氣預報是 neural operator 影響最深遠的場景。FourCastNet (2022) 以 FNO 變體在 0.25° 解析度上 7 秒內產出 7 天預報,相較數值天氣預報模式(NWP)在精度相當的前提下將推論時間從數小時壓縮到秒級。GraphCast (2023) 以 GNN 在 ERA5 re-analysis 上訓練,於 ECMWF 評估中多項變數超越作業級 IFS HRES。AIFS (2024) 為 ECMWF 自家發展的 AI 預報系統,現已進入官方產品線。

圖 7:FourCastNet 全球總降雨量(TP)36 小時預報與 ground truth 比對。左右兩個 inset 為放大區域,顯示 FourCastNet 能準確捕捉熱帶氣旋結構與中緯度降雨帶。來源:Pathak et al. 2022 (arXiv:2202.11214) Figure 3

圖 7:FourCastNet 全球總降雨量(TP)36 小時預報與 ground truth 比對。左右兩個 inset 為放大區域,顯示 FourCastNet 能準確捕捉熱帶氣旋結構與中緯度降雨帶。來源:Pathak et al. 2022 (arXiv:2202.11214) Figure 3

航太設計是 surrogate model 最早商業化的領域,POD/GP + Bayesian optimization 掃描 airfoil 與 turbine blade 參數空間的做法至今仍整合於主流商用 CFD 工具的 reduced-order model 模組。

5. Surrogate Model Framework 選型

物理模擬已發展出多個開源框架,各有特色:

  • NVIDIA PhysicsNeMo:工業級多架構框架,涵蓋 CNN、FNO、GNN、Diffusion、PINN,整合 Omniverse 視覺化與 GPU 最佳化。
  • DeepXDE:PINN 學術社群最常用的開源框架,適合快速原型。
  • Neural Operator Library:FNO 作者團隊維護,涵蓋 FNO、TFNO、GINO、Codomain Attention 等 operator learning 變體。
  • PyTorch GeometricDGL:GNN 通用框架,mesh-based 物理模擬的標準選擇。
  • JAX-CFDPhiFlow:differentiable CFD 框架,使物理 solver 本身可微分,可與 NN 組合訓練。

本文後續實作採用 NVIDIA PhysicsNeMo

  1. 架構覆蓋最廣,CNN、FNO、GNN、Diffusion 都在同一框架內,使用上最彈性
  2. 內建 datacenter reference pipeline,可作為本文實作的起點
  3. 與 Omniverse、SimReady 原生相容

6. Agaruda 的 Surrogate model 實作經驗

我們參考 PhysicsNeMo cfd datacenter exampleDatacenter CFD Dataset(約 400 組 OpenFOAM 穩態模擬,35-55 racks)訓練 3D UNet surrogate,推論結果轉為 VTK 格式後於 NVIDIA Omniverse 中疊加到 Agaruda 貨櫃的 3D 場景中呈現。高品質 CFD 資料集成本高、取得困難,NVIDIA 與緯創將這份資料與 pipeline 開源釋出,是 DC surrogate 領域少見的公開資源。

此 dataset 與 example 仍有前置限制:模型 input 僅接受幾何(SDF),送風溫度、送風流量、機櫃功耗等運行條件全部固定在 boundary condition 內,無法反映其他運行條件變動下的熱場變化。因此我們將本次實驗定位為 pipeline 可行性驗證,在同一貨櫃幾何下比較 4 架與 8 架機櫃配置的熱場差異。此次訓練時間有限,絕對精度未達預期,但仍能清楚呈現出 rack 密度上升後的熱場變化趨勢。

在 Omniverse 軟體介面中展示的資料中心機房 3D 數位孿生模型,包含伺服器機架與管線配置。

圖 8:4 架機櫃配置下 surrogate 推論結果疊加於 Agaruda 貨櫃的 3D 模型,氣流顏色以綠黃為主,對應較低的熱負荷。來源:Agaruda,PhysicsNeMo 推論結果於 NVIDIA Omniverse 呈現。

數據中心機架與冷卻系統的 3D 數位孿生模型,顯示熱分佈雲圖與氣流模擬。

圖 9:8 架機櫃配置下 surrogate 推論結果,機櫃數量加倍後氣流顯著轉紅,反映熱負荷隨密度上升的物理趨勢。來源:Agaruda,PhysicsNeMo 推論結果於 NVIDIA Omniverse 呈現。

Surrogate model 推論結果的視覺呈現效果與圖 2 的 Cadence CFD 模擬相當,但單次推論僅需數秒,相較傳統 CFD 的數小時求解是數個數量級的加速;模型也正確捕捉機櫃密度上升帶來的熱場升溫趨勢。

產生一筆 inference 結果大約花 8~10 秒左右,如下圖:

RTX PRO 6000 GPU 上代理模型推理時間的直方圖與箱形圖,對比了 4-rack 與 8-rack 的分佈差異。

未來 Agaruda 將自建涵蓋送風溫度、送風流量、機櫃功耗等運行條件的 CFD 資料集重新訓練,使 surrogate 能直接反映運行條件調整對熱場的影響。NVIDIA (2025)Sarkar et al. (2024) 的 parameterized surrogate 架構是此方向的重要參考。

數據中心熱流場模擬的預測值與真實值對比圖,以及顯示低溫差預測誤差的分佈直方圖。

圖 10:NVIDIA PhyAI 論文中參數化 surrogate 的預測結果(右)與 CFD ground truth(左)對照,為下一階段目標提供參考。來源:Transforming Future DC Operations via Physical AI

7. 下一步:以 Surrogate + RL 最佳化 DC 冷卻

Surrogate model 解決了物理預測的速度瓶頸,但資料中心真正要解的問題還在後面:如何最佳化能耗才是營運的核心目標?

一條可行路線是把 surrogate 當作環境模型,讓 agent 在 digital twin 中安全試錯冷卻策略。Meta (2024) 以 simulator-based RL 降低 DC 風扇能耗 20%;Phaidra (2026) 在 NVIDIA DGX SuperPOD 液冷部署將熱尖峰過衝降低 75-80%;Wu et al. (2026) 以 CNN-LSTM-Transformer surrogate 作為 RL 環境,在 CINECA 超算中心達成 11.68% 能耗下降。沿此方向將參數化 surrogate 與 RL agent 整合進 DC 冷卻控制迴圈,是 Agaruda 後續的重點工程重點。


Related