從多模態表達分析到世界模型：以狀態轉移建模互動影響的下一代演算法

目前多數表達分析系統，核心仍然是 多模態觀察到目標變數的映射。

輸入端通常包含表情、眼動、聲音、語意等訊號；輸出端則是某種與人類感受或互動效果相關的標的，例如 engagement、attractiveness、emotion、persuasion 或 satisfaction。這類方法已經證明有效。以我們目前的研究為例，系統可僅依賴講者端訊號，預測聽眾感受到的 affective engagement 與 vocal attractiveness，其中 speaker-independent test set 上分別達到 R² = 0.85 與 R² = 0.88。

這代表，多模態表達分析已經具備實際可用的預測能力。

但從演算法角度看，這仍然主要是在解一個 片段級 prediction problem。
也就是說，模型回答的是：

這段表達對應到什麼分數
這組多模態特徵對應到什麼感受標籤
這個時間窗內的表達效果大概如何

這類系統對「當下」的表達判讀已經足夠強，但對「後續」的互動變化，仍然缺乏顯式建模能力。

而這正是我們認為下一步需要從多模態表達分析，走向世界模型的原因。

一、現有多模態模型，本質上仍然是 observation-to-label learning

先看現在的建模形式。

在典型多模態表達分析中，輸入通常是一個時間窗內的觀察訊號集合：

接著經過特徵抽取、對齊、標準化與融合，得到某種表示，再映射到目標變數：

其中 (y_t) 可能是 affective engagement、vocal attractiveness 或其他表達效果指標。

以我們目前的系統來說，這個 pipeline 已經相當完整：

視覺側：478 個 3D facial landmarks，形成 facial dynamics representation
眼動側：fixation、saccade、gaze stability 等 oculomotor features
聲音側：MFCC、F0、F1–F5、HNR、jitter、shimmer、CQ、DTQ、CI 等 acoustic features
語意側：Whisper-large-v2 轉錄後，再用 SentenceTransformer 取得 semantic embeddings

這些訊號被用來訓練兩類回歸模型：一個是 multimodal engagement model，另一個是 acoustic-only attractiveness model。

這種方法的優點很清楚：

可直接利用 heterogeneous signals
可在缺少 audience-side data 的條件下運作
可輸出與人類感受高度相關的 proxy
模型結構相對穩定，便於部署與解釋

但它也有一個明確限制：

它沒有把互動視為狀態演化問題。

二、真正的互動影響，不是單點分數，而是狀態轉移

在真實場景中，表達的作用通常不是產生一個瞬時結果就結束，而是改變對方的後續狀態。

例如：

教學中，一段開場的表達方式會影響學習者後續的投入曲線
諮詢中，前幾輪語氣與節奏會影響信任是否建立
客服中，第一次回應的穩定度會影響後續是否升高對立
銷售中，某些表達策略會改變後續接受度與抗拒程度

這些現象的共通點是：
系統真正需要建模的不是單一 label，而是 interaction state 的演化。

如果把這件事形式化，可以把互動視為隱含狀態 (z_t) 的時間推進：

其中：

(x_t)：當下多模態觀察
(z_t)：當下互動狀態的 latent representation
(a_t)：表達行為或干預
(y_t)：可觀測結果，例如 engagement、trust、attractiveness 等 proxy

這樣一來，問題就不再只是 prediction，而是 transition modeling。

也就是說，模型不只要知道「現在看起來如何」，還要學會：

當前狀態是什麼
這個狀態如何轉移
哪些表達行為會改變轉移方向
未來幾步最可能出現什麼軌跡

這正是 world-model-style architecture 要處理的問題。

三、從多模態 fusion 到 state-space modeling，是建模層級的升級

很多人會把「世界模型」理解成更大的神經網路，這其實不準確。

從多模態表達分析走向世界模型，真正的變化不在模型大小，而在建模層級。

多模態 fusion 的重點是：

怎麼抽特徵
怎麼對齊模態
怎麼融合表徵
怎麼提升當下預測表現

世界模型的重點則是：

怎麼學 latent state
怎麼定義 transition function
怎麼做 rollout
怎麼支援 counterfactual simulation
怎麼讓表達行為與後續互動之間建立可模擬的機制

所以，這不是從一個模型換到另一個模型，而是從：

feature-level prediction

升級到

state-level dynamics modeling

這兩者的問題定義並不一樣。

前者的最終產出通常是分數。
後者的最終產出則是軌跡、轉移機率、未來狀態分布，甚至干預後的模擬結果。

四、為什麼現有研究是世界模型的合理前置基礎

雖然我們現在還沒有完成世界模型，但目前的多模態研究已經具備幾個重要前提。

1. 已有多模態 observation space

系統已經能處理 facial, gaze, acoustic, semantic 等 heterogeneous input。這是任何互動世界模型的基本前提，因為真實互動本來就不是單一通道。

2. 已有時間窗級動態訊號

無論是 facial dynamics、oculomotor aggregates，還是 prosodically stable audio segment，現在的輸入都不只是靜態欄位，而是時間中的壓縮表示。

3. 已有可對應人類感受的 supervision

目前的 target 雖然不是顯式狀態，但 affective engagement 與 vocal attractiveness 本質上都可視為 interaction state 的外顯 proxy。

4. 已有跨目標結構訊息

研究中，vocal attractiveness 與 affective engagement 間存在高度相關，代表不同 target 之間可能共享某種更深層的 latent interaction structure。

換句話說，現在的多模態表達分析並不是與世界模型無關的舊技術，而是世界模型的觀察層與 supervision 層地基。

五、下一代演算法要增加的，不只是準確率，而是 rollout 能力

如果只是繼續優化當前框架，技術路線通常會變成：

更多特徵
更強 encoder
更好的 fusion
更好的回歸器
更高的 R²

這條路有價值，但有限。

對互動 AI 來說，下一代能力應該是：

1. Latent state encoding

把多模態 observation 壓縮成穩定且可更新的互動狀態表示。

2. Transition modeling

學習從 (z_t) 到 (z_{t+1}) 的變化規律，而不是只從 (x_t) 直接對 (y_t) 擬合。

3. Multi-step rollout

不只預測當前分數，而是模擬未來數步互動走向。

4. Counterfactual inference

測試不同表達策略是否會導致不同後續結果。

5. Intervention recommendation

把模擬結果反推成可操作建議，例如節奏調整、聲音穩定化、gaze control 或語意結構重組。

有了這些能力，系統才會從「分析器」變成「模擬器」。

六、這是平台能力，不只是模型升級

如果站在產品與研發角度看，這條路線的價值很直接。

傳統多模態回歸系統能做的是：

對片段打分
找重要特徵
提供局部回饋

世界模型系統有機會做的是：

模擬不同表達策略的後續效果
分析互動狀態何時惡化、何時改善
預測不同 intervention 的 trajectory
支援 coaching、training、scenario simulation
建立更高階的 decision support capability

這兩者不是同一級產品。

前者比較像 scoring engine。
後者比較接近 interaction simulation engine。

對教學、諮詢、客服、銷售、組織溝通產品來說，這會直接影響系統定位。因為真正高價值的能力，不是告訴使用者「你現在 78 分」，而是告訴他：

你目前互動狀態的演化方向是什麼
哪個表達因素最可能影響接下來三步
如果現在做什麼調整，後續結果最可能改善

這才是世界模型在商業化上的真正優勢。

七、結論：從 prediction system 走向 dynamics system

總結來說，現有多模態表達分析已經證明：

僅靠 speaker-side signals，可以有效預測 audience-perceived outcomes
多模態表示比單模態更接近真實表達
聲音、表情、眼動、語意可以被整合進可部署的 prediction framework

但如果目標升級為「建模表達如何改變後續互動」，那下一步就不能只停留在 feature fusion 與 label prediction。

接下來真正要解的，是：

latent interaction state 是什麼
它如何隨表達行為轉移
如何做 multi-step simulation
如何支援 counterfactual 與 intervention

這也是為什麼，我們會把下一代演算法定義為：

從多模態表達分析，走向以狀態轉移建模互動影響的世界模型。

這不只是模型變大，而是系統從 prediction system 升級成 dynamics system。
對互動 AI 而言，這才是下一個真正的技術節點。

The Blog