目前多數表達分析系統,核心仍然是 多模態觀察到目標變數的映射。
輸入端通常包含表情、眼動、聲音、語意等訊號;輸出端則是某種與人類感受或互動效果相關的標的,例如 engagement、attractiveness、emotion、persuasion 或 satisfaction。這類方法已經證明有效。以我們目前的研究為例,系統可僅依賴講者端訊號,預測聽眾感受到的 affective engagement 與 vocal attractiveness,其中 speaker-independent test set 上分別達到 R² = 0.85 與 R² = 0.88。
這代表,多模態表達分析已經具備實際可用的預測能力。
但從演算法角度看,這仍然主要是在解一個 片段級 prediction problem。
也就是說,模型回答的是:
- 這段表達對應到什麼分數
- 這組多模態特徵對應到什麼感受標籤
- 這個時間窗內的表達效果大概如何
這類系統對「當下」的表達判讀已經足夠強,但對「後續」的互動變化,仍然缺乏顯式建模能力。
而這正是我們認為下一步需要從多模態表達分析,走向世界模型的原因。
一、現有多模態模型,本質上仍然是 observation-to-label learning
先看現在的建模形式。
在典型多模態表達分析中,輸入通常是一個時間窗內的觀察訊號集合:

接著經過特徵抽取、對齊、標準化與融合,得到某種表示,再映射到目標變數:

其中 (y_t) 可能是 affective engagement、vocal attractiveness 或其他表達效果指標。
以我們目前的系統來說,這個 pipeline 已經相當完整:
- 視覺側:478 個 3D facial landmarks,形成 facial dynamics representation
- 眼動側:fixation、saccade、gaze stability 等 oculomotor features
- 聲音側:MFCC、F0、F1–F5、HNR、jitter、shimmer、CQ、DTQ、CI 等 acoustic features
- 語意側:Whisper-large-v2 轉錄後,再用 SentenceTransformer 取得 semantic embeddings
這些訊號被用來訓練兩類回歸模型:一個是 multimodal engagement model,另一個是 acoustic-only attractiveness model。
這種方法的優點很清楚:
- 可直接利用 heterogeneous signals
- 可在缺少 audience-side data 的條件下運作
- 可輸出與人類感受高度相關的 proxy
- 模型結構相對穩定,便於部署與解釋
但它也有一個明確限制:
它沒有把互動視為狀態演化問題。
二、真正的互動影響,不是單點分數,而是狀態轉移
在真實場景中,表達的作用通常不是產生一個瞬時結果就結束,而是改變對方的後續狀態。
例如:
- 教學中,一段開場的表達方式會影響學習者後續的投入曲線
- 諮詢中,前幾輪語氣與節奏會影響信任是否建立
- 客服中,第一次回應的穩定度會影響後續是否升高對立
- 銷售中,某些表達策略會改變後續接受度與抗拒程度
這些現象的共通點是:
系統真正需要建模的不是單一 label,而是 interaction state 的演化。
如果把這件事形式化,可以把互動視為隱含狀態 (z_t) 的時間推進:

其中:
- (x_t):當下多模態觀察
- (z_t):當下互動狀態的 latent representation
- (a_t):表達行為或干預
- (y_t):可觀測結果,例如 engagement、trust、attractiveness 等 proxy
這樣一來,問題就不再只是 prediction,而是 transition modeling。
也就是說,模型不只要知道「現在看起來如何」,還要學會:
- 當前狀態是什麼
- 這個狀態如何轉移
- 哪些表達行為會改變轉移方向
- 未來幾步最可能出現什麼軌跡
這正是 world-model-style architecture 要處理的問題。
三、從多模態 fusion 到 state-space modeling,是建模層級的升級
很多人會把「世界模型」理解成更大的神經網路,這其實不準確。
從多模態表達分析走向世界模型,真正的變化不在模型大小,而在建模層級。
多模態 fusion 的重點是:
- 怎麼抽特徵
- 怎麼對齊模態
- 怎麼融合表徵
- 怎麼提升當下預測表現
世界模型的重點則是:
- 怎麼學 latent state
- 怎麼定義 transition function
- 怎麼做 rollout
- 怎麼支援 counterfactual simulation
- 怎麼讓表達行為與後續互動之間建立可模擬的機制
所以,這不是從一個模型換到另一個模型,而是從:
feature-level prediction
升級到
state-level dynamics modeling
這兩者的問題定義並不一樣。
前者的最終產出通常是分數。
後者的最終產出則是軌跡、轉移機率、未來狀態分布,甚至干預後的模擬結果。
四、為什麼現有研究是世界模型的合理前置基礎
雖然我們現在還沒有完成世界模型,但目前的多模態研究已經具備幾個重要前提。
1. 已有多模態 observation space
系統已經能處理 facial, gaze, acoustic, semantic 等 heterogeneous input。這是任何互動世界模型的基本前提,因為真實互動本來就不是單一通道。
2. 已有時間窗級動態訊號
無論是 facial dynamics、oculomotor aggregates,還是 prosodically stable audio segment,現在的輸入都不只是靜態欄位,而是時間中的壓縮表示。
3. 已有可對應人類感受的 supervision
目前的 target 雖然不是顯式狀態,但 affective engagement 與 vocal attractiveness 本質上都可視為 interaction state 的外顯 proxy。
4. 已有跨目標結構訊息
研究中,vocal attractiveness 與 affective engagement 間存在高度相關,代表不同 target 之間可能共享某種更深層的 latent interaction structure。
換句話說,現在的多模態表達分析並不是與世界模型無關的舊技術,而是世界模型的觀察層與 supervision 層地基。
五、下一代演算法要增加的,不只是準確率,而是 rollout 能力
如果只是繼續優化當前框架,技術路線通常會變成:
- 更多特徵
- 更強 encoder
- 更好的 fusion
- 更好的回歸器
- 更高的 R²
這條路有價值,但有限。
對互動 AI 來說,下一代能力應該是:
1. Latent state encoding
把多模態 observation 壓縮成穩定且可更新的互動狀態表示。
2. Transition modeling
學習從 (z_t) 到 (z_{t+1}) 的變化規律,而不是只從 (x_t) 直接對 (y_t) 擬合。
3. Multi-step rollout
不只預測當前分數,而是模擬未來數步互動走向。
4. Counterfactual inference
測試不同表達策略是否會導致不同後續結果。
5. Intervention recommendation
把模擬結果反推成可操作建議,例如節奏調整、聲音穩定化、gaze control 或語意結構重組。
有了這些能力,系統才會從「分析器」變成「模擬器」。
六、這是平台能力,不只是模型升級
如果站在產品與研發角度看,這條路線的價值很直接。
傳統多模態回歸系統能做的是:
- 對片段打分
- 找重要特徵
- 提供局部回饋
世界模型系統有機會做的是:
- 模擬不同表達策略的後續效果
- 分析互動狀態何時惡化、何時改善
- 預測不同 intervention 的 trajectory
- 支援 coaching、training、scenario simulation
- 建立更高階的 decision support capability
這兩者不是同一級產品。
前者比較像 scoring engine。
後者比較接近 interaction simulation engine。
對教學、諮詢、客服、銷售、組織溝通產品來說,這會直接影響系統定位。因為真正高價值的能力,不是告訴使用者「你現在 78 分」,而是告訴他:
- 你目前互動狀態的演化方向是什麼
- 哪個表達因素最可能影響接下來三步
- 如果現在做什麼調整,後續結果最可能改善
這才是世界模型在商業化上的真正優勢。
七、結論:從 prediction system 走向 dynamics system
總結來說,現有多模態表達分析已經證明:
- 僅靠 speaker-side signals,可以有效預測 audience-perceived outcomes
- 多模態表示比單模態更接近真實表達
- 聲音、表情、眼動、語意可以被整合進可部署的 prediction framework
但如果目標升級為「建模表達如何改變後續互動」,那下一步就不能只停留在 feature fusion 與 label prediction。
接下來真正要解的,是:
- latent interaction state 是什麼
- 它如何隨表達行為轉移
- 如何做 multi-step simulation
- 如何支援 counterfactual 與 intervention
這也是為什麼,我們會把下一代演算法定義為:
從多模態表達分析,走向以狀態轉移建模互動影響的世界模型。
這不只是模型變大,而是系統從 prediction system 升級成 dynamics system。
對互動 AI 而言,這才是下一個真正的技術節點。
