從多模態表達分析到世界模型:以狀態轉移建模互動影響的下一代演算法


目前多數表達分析系統,核心仍然是 多模態觀察到目標變數的映射

輸入端通常包含表情、眼動、聲音、語意等訊號;輸出端則是某種與人類感受或互動效果相關的標的,例如 engagement、attractiveness、emotion、persuasion 或 satisfaction。這類方法已經證明有效。以我們目前的研究為例,系統可僅依賴講者端訊號,預測聽眾感受到的 affective engagement 與 vocal attractiveness,其中 speaker-independent test set 上分別達到 R² = 0.85 與 R² = 0.88。

這代表,多模態表達分析已經具備實際可用的預測能力。

但從演算法角度看,這仍然主要是在解一個 片段級 prediction problem
也就是說,模型回答的是:

  • 這段表達對應到什麼分數
  • 這組多模態特徵對應到什麼感受標籤
  • 這個時間窗內的表達效果大概如何

這類系統對「當下」的表達判讀已經足夠強,但對「後續」的互動變化,仍然缺乏顯式建模能力。

而這正是我們認為下一步需要從多模態表達分析,走向世界模型的原因。

一、現有多模態模型,本質上仍然是 observation-to-label learning

先看現在的建模形式。

在典型多模態表達分析中,輸入通常是一個時間窗內的觀察訊號集合:

接著經過特徵抽取、對齊、標準化與融合,得到某種表示,再映射到目標變數:

其中 (y_t) 可能是 affective engagement、vocal attractiveness 或其他表達效果指標。

以我們目前的系統來說,這個 pipeline 已經相當完整:

  • 視覺側:478 個 3D facial landmarks,形成 facial dynamics representation
  • 眼動側:fixation、saccade、gaze stability 等 oculomotor features
  • 聲音側:MFCC、F0、F1–F5、HNR、jitter、shimmer、CQ、DTQ、CI 等 acoustic features
  • 語意側:Whisper-large-v2 轉錄後,再用 SentenceTransformer 取得 semantic embeddings

這些訊號被用來訓練兩類回歸模型:一個是 multimodal engagement model,另一個是 acoustic-only attractiveness model。

這種方法的優點很清楚:

  1. 可直接利用 heterogeneous signals
  2. 可在缺少 audience-side data 的條件下運作
  3. 可輸出與人類感受高度相關的 proxy
  4. 模型結構相對穩定,便於部署與解釋

但它也有一個明確限制:

它沒有把互動視為狀態演化問題。

二、真正的互動影響,不是單點分數,而是狀態轉移

在真實場景中,表達的作用通常不是產生一個瞬時結果就結束,而是改變對方的後續狀態。

例如:

  • 教學中,一段開場的表達方式會影響學習者後續的投入曲線
  • 諮詢中,前幾輪語氣與節奏會影響信任是否建立
  • 客服中,第一次回應的穩定度會影響後續是否升高對立
  • 銷售中,某些表達策略會改變後續接受度與抗拒程度

這些現象的共通點是:
系統真正需要建模的不是單一 label,而是 interaction state 的演化。

如果把這件事形式化,可以把互動視為隱含狀態 (z_t) 的時間推進:

其中:

  • (x_t):當下多模態觀察
  • (z_t):當下互動狀態的 latent representation
  • (a_t):表達行為或干預
  • (y_t):可觀測結果,例如 engagement、trust、attractiveness 等 proxy

這樣一來,問題就不再只是 prediction,而是 transition modeling。

也就是說,模型不只要知道「現在看起來如何」,還要學會:

  • 當前狀態是什麼
  • 這個狀態如何轉移
  • 哪些表達行為會改變轉移方向
  • 未來幾步最可能出現什麼軌跡

這正是 world-model-style architecture 要處理的問題。

三、從多模態 fusion 到 state-space modeling,是建模層級的升級

很多人會把「世界模型」理解成更大的神經網路,這其實不準確。

從多模態表達分析走向世界模型,真正的變化不在模型大小,而在建模層級。

多模態 fusion 的重點是:

  • 怎麼抽特徵
  • 怎麼對齊模態
  • 怎麼融合表徵
  • 怎麼提升當下預測表現

世界模型的重點則是:

  • 怎麼學 latent state
  • 怎麼定義 transition function
  • 怎麼做 rollout
  • 怎麼支援 counterfactual simulation
  • 怎麼讓表達行為與後續互動之間建立可模擬的機制

所以,這不是從一個模型換到另一個模型,而是從:

feature-level prediction

升級到

state-level dynamics modeling

這兩者的問題定義並不一樣。

前者的最終產出通常是分數。
後者的最終產出則是軌跡、轉移機率、未來狀態分布,甚至干預後的模擬結果。

四、為什麼現有研究是世界模型的合理前置基礎

雖然我們現在還沒有完成世界模型,但目前的多模態研究已經具備幾個重要前提。

1. 已有多模態 observation space

系統已經能處理 facial, gaze, acoustic, semantic 等 heterogeneous input。這是任何互動世界模型的基本前提,因為真實互動本來就不是單一通道。

2. 已有時間窗級動態訊號

無論是 facial dynamics、oculomotor aggregates,還是 prosodically stable audio segment,現在的輸入都不只是靜態欄位,而是時間中的壓縮表示。

3. 已有可對應人類感受的 supervision

目前的 target 雖然不是顯式狀態,但 affective engagement 與 vocal attractiveness 本質上都可視為 interaction state 的外顯 proxy。

4. 已有跨目標結構訊息

研究中,vocal attractiveness 與 affective engagement 間存在高度相關,代表不同 target 之間可能共享某種更深層的 latent interaction structure。

換句話說,現在的多模態表達分析並不是與世界模型無關的舊技術,而是世界模型的觀察層與 supervision 層地基。

五、下一代演算法要增加的,不只是準確率,而是 rollout 能力

如果只是繼續優化當前框架,技術路線通常會變成:

  • 更多特徵
  • 更強 encoder
  • 更好的 fusion
  • 更好的回歸器
  • 更高的 R²

這條路有價值,但有限。

對互動 AI 來說,下一代能力應該是:

1. Latent state encoding

把多模態 observation 壓縮成穩定且可更新的互動狀態表示。

2. Transition modeling

學習從 (z_t) 到 (z_{t+1}) 的變化規律,而不是只從 (x_t) 直接對 (y_t) 擬合。

3. Multi-step rollout

不只預測當前分數,而是模擬未來數步互動走向。

4. Counterfactual inference

測試不同表達策略是否會導致不同後續結果。

5. Intervention recommendation

把模擬結果反推成可操作建議,例如節奏調整、聲音穩定化、gaze control 或語意結構重組。

有了這些能力,系統才會從「分析器」變成「模擬器」。

六、這是平台能力,不只是模型升級

如果站在產品與研發角度看,這條路線的價值很直接。

傳統多模態回歸系統能做的是:

  • 對片段打分
  • 找重要特徵
  • 提供局部回饋

世界模型系統有機會做的是:

  • 模擬不同表達策略的後續效果
  • 分析互動狀態何時惡化、何時改善
  • 預測不同 intervention 的 trajectory
  • 支援 coaching、training、scenario simulation
  • 建立更高階的 decision support capability

這兩者不是同一級產品。

前者比較像 scoring engine。
後者比較接近 interaction simulation engine。

對教學、諮詢、客服、銷售、組織溝通產品來說,這會直接影響系統定位。因為真正高價值的能力,不是告訴使用者「你現在 78 分」,而是告訴他:

  • 你目前互動狀態的演化方向是什麼
  • 哪個表達因素最可能影響接下來三步
  • 如果現在做什麼調整,後續結果最可能改善

這才是世界模型在商業化上的真正優勢。

七、結論:從 prediction system 走向 dynamics system

總結來說,現有多模態表達分析已經證明:

  • 僅靠 speaker-side signals,可以有效預測 audience-perceived outcomes
  • 多模態表示比單模態更接近真實表達
  • 聲音、表情、眼動、語意可以被整合進可部署的 prediction framework

但如果目標升級為「建模表達如何改變後續互動」,那下一步就不能只停留在 feature fusion 與 label prediction。

接下來真正要解的,是:

  • latent interaction state 是什麼
  • 它如何隨表達行為轉移
  • 如何做 multi-step simulation
  • 如何支援 counterfactual 與 intervention

這也是為什麼,我們會把下一代演算法定義為:

從多模態表達分析,走向以狀態轉移建模互動影響的世界模型。

這不只是模型變大,而是系統從 prediction system 升級成 dynamics system
對互動 AI 而言,這才是下一個真正的技術節點。