05.12.2026

CFD 到 Surrogate Model：Digital Twin 的即時物理模擬

AI Research, Agaruda・Ryker Chang, Liam Huang

你將了解的內容

Digital twin 為何需要 surrogate model
Surrogate 演化與代表應用
PhysicsNeMo 實作

1. Digital Twin 需要即時物理模擬

2026 年 3 月的 GTC DC keynote 上，Jensen Huang 發表 NVIDIA Omniverse DSX Blueprint，描繪未來 AI 工廠的藍圖：AI agents 先在 digital twin（虛擬環境）中訓練，再部署到實體工廠，24/7 管理電力、冷卻與工作負載。其中 gigawatt 級工廠的投資與營運規模不容許線上試錯（Creating AI agents for gigawatt-scale AI factories with NVIDIA Omniverse DSX Blueprint），digital twin 內部物理模擬的有效性因此成為整個藍圖的關鍵。模擬若與實體工廠的物理行為脫節，agent 在虛擬環境中學到的策略部署到實體後就會失效。

圖 1：NVIDIA Physical AI 架構。PhysicsNeMo（Modulus）是 NVIDIA 的 physics-informed ML 訓練框架，產出的 surrogate model 可取代 Thermal Twin 內 CFD 的慢速推論。來源：Transforming Future DC Operations via Physical AI

以 Thermal Twin 為例，agent 下冷卻決策需要掌握機房內每個位置的溫度、氣流方向與熱點分布，也就是完整的 3D 空間場。實體感測器只能量測少數點位的當下狀態，無法推演控制參數變動後的系統反應。空間場重建與情境推演必須仰賴物理模擬。

2. 傳統 CFD 與速度瓶頸

2.1 CFD

工程界的標準方法是 CFD（計算流體力學）。求解流程是把計算空間離散化為數百萬網格點，在每個點上解 Navier-Stokes 方程（加上能量守恆、湍流模型），產出完整的速度、溫度、壓力場。CFD 的溫度預測誤差可以控制在小於 1°C，足以支撐工程 certification。

商用端由 ANSYS Fluent、Siemens STAR-CCM+、Dassault Simulia 等長年累積的套件主導，在航太、汽車、能源產業的設計流程中廣泛使用。DC 場景近年出現 Cadence Reality Digital Twin Platform，整合進 NVIDIA Omniverse 做機房熱流分析。開源端則以 OpenFOAM 為主流，NVIDIA Physical AI 論文的 case study 也是用 OpenFOAM 生成訓練資料集。

圖 2：Agaruda data center 貨櫃內部 CFD 模擬。來源： Agaruda DC 於 Cadence Reality Digital Twin Platform 模擬，於 NVIDIA Omniverse 呈現。

2.2 CFD 瓶頸

CFD 最大的問題是速度慢，這讓它難以對接 digital twin 的多次查詢模式。傳統 CFD 單次模擬在超大規模 DC 上需要數小時甚至數天。訓練一個 surrogate model 需要數百組 CFD 模擬資料，累積成本更顯著：NVIDIA (2025) 以 Latin Hypercube 在送風溫度 18-24°C、伺服器功耗 1000-2000W 範圍取樣 500 組。若再加上 transient 模擬（熱點隨時間演變），每個時間步都是一次獨立求解，成本再向上放大。

CFD 的精度支撐離線工程決策，但求解架構無法對接即時決策迴圈的需求。Surrogate model 就是為了解決這個瓶頸而發展的技術路線。

3. Surrogate Model 的演化

Surrogate model（Wikipedia）以低成本近似模型取代 CFD solver：用少量 CFD 資料學「輸入條件 → 物理場」的映射，以精度換取數個數量級的加速。

3.1 POD 與 Gaussian Process

神經網路流行之前，早期的方式是 POD (Sirovich 1987) 以 SVD 從一批 CFD snapshots 提取最重要的空間模式，新流場可表示為少量模式的線性組合：

顯示函數 u(x, t) 近似為基函數 phi_i(x) 與係數 a_i(t) 之連加和的數學公式，且 r 遠小於 N。

百萬自由度的流場在 POD 基底上僅需十幾個係數重建。

同時期 Kriging/GP (Sacks et al. 1989) 與 Bayesian optimization (Jones et al. 1998) 建立以統計模型學輸入參數到輸出量映射的範式，至今仍整合於 ANSYS、STAR-CCM+ 等 CFD 工具的 reduced-order model 模組。

限制：POD 線性降維遇非線性特徵 modes 數爆炸（Kolmogorov n-width barrier），GP 只能輸出純量，兩者皆無法一次預測整個 3D 物理場。

3.2 CNN：深度學習進入物理模擬

3D 物理場就是多通道的 3D 影像，每個網格點存放溫度、速度等數值，恰好適合 CNN-based 這種架構。Guo, Li & Iorio 於 2016 年首次將 CNN 用於穩態流場預測（社群重製：Steady-State-Flow-With-Neural-Nets），以 Signed Distance Field 編碼幾何，相較 CFD 達約 100 倍加速。Hennigh (2017) 接續這條路線，改用 U-Net (Ronneberger et al. 2015) 架構與二值邊界表示，在 2D airfoil 上將單次 Lattice Boltzmann 模擬（38 秒）壓縮到 0.05 秒。PINNs (Raissi et al. 2017) 另闢路線，將 PDE 殘差納入 loss function，使模型在訓練時滿足物理定律。

圖 3：CNN 預測（左）與 Lattice Boltzmann ground truth（中）對照，右為 difference。速度與壓力場在 airfoil 周圍的分布與 CFD 求解結果高度一致。來源：Hennigh 2017 (arXiv:1710.10352) Figure 3

限制：CNN 依賴規則網格，高曲率幾何產生鋸齒狀近似；訓練與推論解析度必須一致，無法跨解析度推論。

CNN 之後又發展出多種架構突破前一代的結構性限制。Neural Operator 直接學算子本身，推論時解析度無關。GNN 在 CFD 原生的非結構化 mesh 上學習，適合處理複雜幾何。Foundation Model 透過跨領域 pretrain 取得物理先驗，提升泛化能力。篇幅關係不在此多做介紹。

4. Surrogate Model 在各領域的應用

4.1 資料中心：Thermal Twin 的技術路線

資料中心同時需要高精度 3D 溫度場與即時控制介面。近期研究中，已有兩條代表性的技術路線，分別對應 CNN 與 GNN 架構。

CNN 路線：Sarkar et al. (2024) 將機房離散化為 3D voxel grid，以幾何、熱源、送風條件作為多通道 input，輸出完整的 3D 溫度場。

圖 4：CNN 在不同機房剖面的溫度場預測。上三列為 CFD ground truth，中三列為 CNN 預測，下三列為 error map。預測結果在機房垂直方向各高度切面上與 CFD 高度一致，主要誤差集中在熱點邊界。來源：Sarkar et al. 2024 (arXiv:2511.11722) Figure 8

GNN 路線：Zhan et al. (ICLR 2025) 以 physics-informed GNN 直接在 CFD 原生的 unstructured mesh 上建模機房熱動態，結合 offline RL 進行冷卻策略最佳化。該系統於 2024 年部署至生產環境，累計超過 2,000 小時運行紀錄，節能 14-21%。

圖 5：Zhan et al. 的 physics-informed GNN + offline RL 架構，在 mesh 節點上建模熱傳導，RL policy 以 surrogate model 作為環境模擬器進行訓練。來源：Zhan et al. 2025 (arXiv:2501.15085)

4.2 其他領域：汽車空氣動力、天氣預報、航太設計

Surrogate model 的應用並不限於資料中心。

汽車空氣動力是另一個典型的 3D 物理場問題，NVIDIA DoMINO (2025) 以 decomposable multi-scale neural operator 在 DrivAerML dataset 上預測車體表面壓力與摩擦場，將單次 CFD 數小時的模擬壓縮到秒級。

圖 6：DoMINO 在 DrivAerML 測試樣本上的車體表面壓力 contour。左右兩組各顯示三個視角，color bar 對應壓力係數，surrogate 預測與 CFD ground truth 在整個車體表面高度一致。來源：Ranade et al. 2025 (arXiv:2501.13350) Figure 6

天氣預報是 neural operator 影響最深遠的場景。FourCastNet (2022) 以 FNO 變體在 0.25° 解析度上 7 秒內產出 7 天預報，相較數值天氣預報模式（NWP）在精度相當的前提下將推論時間從數小時壓縮到秒級。GraphCast (2023) 以 GNN 在 ERA5 re-analysis 上訓練，於 ECMWF 評估中多項變數超越作業級 IFS HRES。AIFS (2024) 為 ECMWF 自家發展的 AI 預報系統，現已進入官方產品線。

圖 7：FourCastNet 全球總降雨量（TP）36 小時預報與 ground truth 比對。左右兩個 inset 為放大區域，顯示 FourCastNet 能準確捕捉熱帶氣旋結構與中緯度降雨帶。來源：Pathak et al. 2022 (arXiv:2202.11214) Figure 3

航太設計是 surrogate model 最早商業化的領域，POD/GP + Bayesian optimization 掃描 airfoil 與 turbine blade 參數空間的做法至今仍整合於主流商用 CFD 工具的 reduced-order model 模組。

5. Surrogate Model Framework 選型

物理模擬已發展出多個開源框架，各有特色：

NVIDIA PhysicsNeMo：工業級多架構框架，涵蓋 CNN、FNO、GNN、Diffusion、PINN，整合 Omniverse 視覺化與 GPU 最佳化。
DeepXDE：PINN 學術社群最常用的開源框架，適合快速原型。
Neural Operator Library：FNO 作者團隊維護，涵蓋 FNO、TFNO、GINO、Codomain Attention 等 operator learning 變體。
PyTorch Geometric、DGL：GNN 通用框架，mesh-based 物理模擬的標準選擇。
JAX-CFD、PhiFlow：differentiable CFD 框架，使物理 solver 本身可微分，可與 NN 組合訓練。

本文後續實作採用 NVIDIA PhysicsNeMo：

架構覆蓋最廣，CNN、FNO、GNN、Diffusion 都在同一框架內，使用上最彈性
內建 datacenter reference pipeline，可作為本文實作的起點
與 Omniverse、SimReady 原生相容

6. Agaruda 的 Surrogate model 實作經驗

我們參考 PhysicsNeMo cfd datacenter example 與 Datacenter CFD Dataset（約 400 組 OpenFOAM 穩態模擬，35-55 racks）訓練 3D UNet surrogate，推論結果轉為 VTK 格式後於 NVIDIA Omniverse 中疊加到 Agaruda 貨櫃的 3D 場景中呈現。高品質 CFD 資料集成本高、取得困難，NVIDIA 與緯創將這份資料與 pipeline 開源釋出，是 DC surrogate 領域少見的公開資源。

此 dataset 與 example 仍有前置限制：模型 input 僅接受幾何（SDF），送風溫度、送風流量、機櫃功耗等運行條件全部固定在 boundary condition 內，無法反映其他運行條件變動下的熱場變化。因此我們將本次實驗定位為 pipeline 可行性驗證，在同一貨櫃幾何下比較 4 架與 8 架機櫃配置的熱場差異。此次訓練時間有限，絕對精度未達預期，但仍能清楚呈現出 rack 密度上升後的熱場變化趨勢。

在 Omniverse 軟體介面中展示的資料中心機房 3D 數位孿生模型，包含伺服器機架與管線配置。

圖 8：4 架機櫃配置下 surrogate 推論結果疊加於 Agaruda 貨櫃的 3D 模型，氣流顏色以綠黃為主，對應較低的熱負荷。來源：Agaruda，PhysicsNeMo 推論結果於 NVIDIA Omniverse 呈現。

圖 9：8 架機櫃配置下 surrogate 推論結果，機櫃數量加倍後氣流顯著轉紅，反映熱負荷隨密度上升的物理趨勢。來源：Agaruda，PhysicsNeMo 推論結果於 NVIDIA Omniverse 呈現。

Surrogate model 推論結果的視覺呈現效果與圖 2 的 Cadence CFD 模擬相當，但單次推論僅需數秒，相較傳統 CFD 的數小時求解是數個數量級的加速；模型也正確捕捉機櫃密度上升帶來的熱場升溫趨勢。

產生一筆 inference 結果大約花 8~10 秒左右，如下圖：

RTX PRO 6000 GPU 上代理模型推理時間的直方圖與箱形圖，對比了 4-rack 與 8-rack 的分佈差異。

未來 Agaruda 將自建涵蓋送風溫度、送風流量、機櫃功耗等運行條件的 CFD 資料集重新訓練，使 surrogate 能直接反映運行條件調整對熱場的影響。NVIDIA (2025) 與 Sarkar et al. (2024) 的 parameterized surrogate 架構是此方向的重要參考。

圖 10：NVIDIA PhyAI 論文中參數化 surrogate 的預測結果（右）與 CFD ground truth（左）對照，為下一階段目標提供參考。來源：Transforming Future DC Operations via Physical AI。

7. 下一步：以 Surrogate + RL 最佳化 DC 冷卻

Surrogate model 解決了物理預測的速度瓶頸，但資料中心真正要解的問題還在後面：如何最佳化能耗才是營運的核心目標？

一條可行路線是把 surrogate 當作環境模型，讓 agent 在 digital twin 中安全試錯冷卻策略。Meta (2024) 以 simulator-based RL 降低 DC 風扇能耗 20%；Phaidra (2026) 在 NVIDIA DGX SuperPOD 液冷部署將熱尖峰過衝降低 75-80%；Wu et al. (2026) 以 CNN-LSTM-Transformer surrogate 作為 RL 環境，在 CINECA 超算中心達成 11.68% 能耗下降。沿此方向將參數化 surrogate 與 RL agent 整合進 DC 冷卻控制迴圈，是 Agaruda 後續的重點工程重點。