AI 怎麼理解一個人的表達力？從表情、眼神、聲音到語意的四種線索

當我們覺得一個人「很有表達力」時，背後其實發生了很多事。

有時候，打動人的不是一句特別厲害的話，而是說話時的神情、眼神停留的方式、聲音的起伏，還有語句帶出的節奏感。也有些時候，內容本身並不差，卻因為表達太平、太散，讓訊息還沒真正抵達，就已經在途中失去了力量。

所以，表達力從來不只是「說了什麼」，更是「怎麼被感受到」。

也正因如此，當 AI 開始進入這個領域，真正值得關注的，不是它能不能替人下一個結論，而是它能不能幫助我們把原本很主觀、很模糊的表達感受，變得比較可觀察、可理解。重點不是 AI 有多準，而是它能不能讓我們更清楚地看見：自己的表達，究竟是怎麼被別人接收到的。

表達力不是玄學，而是多種線索共同作用

我們平常說一個人「很有感染力」，聽起來好像很抽象，甚至有點像天賦。但如果把這件事慢慢拆開來看，你會發現，它其實不是從單一因素冒出來的。

一個人的表達力，往往不是因為他剛好有一個好聽的聲音，或者剛好比較會笑，而是很多線索同時在發生作用。表情的變化、眼神的穩定度、聲音的節奏與起伏、語句的組織方式，甚至停頓與語氣，都會一起影響別人怎麼接收這段訊息。

也就是說，我們感受到一個人有沒有感染力，通常不是因為某一個單一特質，而是多種表達線索共同作用的結果。這也是為什麼，如果只看其中一個面向，往往很難真正理解一段溝通為什麼有效，或者為什麼沒有被接住。

這一點，其實也正是多模態表達分析的核心。研究者不是把人的表達簡化成單一分數，而是試著從臉部動態、眼動、聲音與語意等多種訊號中，理解它們如何一起影響聽眾的感受。

AI 不是在讀心，而是在看可觀察的訊號

說到這裡，很多人第一個疑問會是：所以 AI 是在判斷一個人有沒有魅力嗎？是不是在讀心？

其實不是。

AI 不是在猜一個人的內心，也不是在替一個人貼標籤。它比較像是一面比較冷靜的鏡子，去看那些原本就存在、但我們平常不太容易系統性注意到的表達線索。它觀察的，不是「你這個人到底怎麼樣」，而是「這段表達是怎麼被送出去的」。

這樣的理解方式其實很重要。因為一旦把 AI 當成讀心工具，事情就會走偏；但如果把它當成一種協助觀察與回饋的工具，它就有可能變成幫助我們改善溝通的助力。

在相關研究中，模型並不是直接去判斷一個人的人格，而是從講者端的多種表達訊號出發，預測聽眾感受到的情感投入與聲音吸引力。換句話說，它關心的是一段表達「被接收到的效果」，而不是對人本身下結論。

第一種線索：表情，不只是有沒有笑

很多人一提到表達力，第一直覺會想到表情。但表情真正重要的地方，不只是有沒有笑、看起來嚴不嚴肅，而是臉部在說話過程中的細微變化。

有些人的表情會讓你感覺內容在流動，重點有被帶出來，情緒有起伏；有些人則可能整張臉都很平，或者表情和內容不同步，讓你聽起來總覺得哪裡卡住。

AI 在看表情時，也不是只在辨識一張靜態的笑臉或苦臉。更重要的是，它會看臉部不同區域在一段時間中的動態變化，例如眼周、嘴部、眉區等位置的移動與節奏。這些細微的變化，常常比一個單純的表情分類更能反映一段表達是否自然、是否有張力。研究中也確實使用了高密度的臉部 landmark 與區域動態特徵來描述講者的臉部表達。

對一般人來說，這件事的啟發其實很實際：
表情不是要誇張，而是要和你想傳達的內容有連動。當表情太少、太僵，或者和語意脫節時，訊息的力量往往也會被削弱。

第二種線索：眼神，不是玄學，而是連結感的入口

眼神是另一個很常被低估的部分。

我們平常不一定會明確說出來，但其實很容易感受到一個人說話時有沒有「看著你」、有沒有穩定地把注意力放在溝通上。這不只是禮貌問題，也和連結感有關。當一個人的視線過於飄忽、轉移太快，或者缺乏穩定的注視，聽的人往往比較難建立被對話、被照顧的感覺。

當然，這裡不是在講神秘學。AI 看眼神，也不是在判斷命運，而是透過一些和眼部位置、視線移動、停留穩定度相關的訊號，理解講者在表達時的注意控制與互動感。研究中納入了 oculomotor features，也就是和注視、掃視與視線穩定度有關的資訊，作為理解表達的一部分。

這背後很像一件簡單卻重要的事：
當你說話時，別人不只是聽你在講什麼，也在感受你有沒有真的在和人連上線。

第三種線索：聲音，往往比我們以為的更重要

如果要說哪一種線索最容易被忽略，卻又最有力量，很多時候就是聲音。

聲音不是只有好不好聽那麼簡單。真正影響溝通效果的，常常是音高變化、穩定度、節奏、清晰度、停頓、共鳴感，以及說話時那種讓人願不願意繼續聽下去的感受。你可能講的字都一樣，但只要語速太平、起伏太少、太緊或太飄，整段話帶給人的接收感受就會差很多。

這也是為什麼，研究中特別把聲音獨立看待，甚至建立了專門預測 vocal attractiveness 的模型。結果顯示，光是聲學特徵本身，就已經能對聽眾感受到的投入感提供很強的預測力；而聲音吸引力和情感投入之間，也具有高度相關。

這個結果其實很值得一般人注意。因為很多時候，我們想改善表達，第一個想到的是內容要更完整、投影片要更漂亮，卻很少意識到：真正先被別人接收到的，往往是聲音。

所以，如果 AI 能幫助我們更客觀地看見自己的聲音特徵，像是節奏是否過平、停頓是否急促、表達是否缺乏起伏，這種回饋的價值可能比單純一句「你講得不夠有感染力」來得具體得多。

第四種線索：語意，不只是說了什麼，而是怎麼說那件事

最後一種常被忽略的線索，是語意。

很多人會把語意理解成內容本身，但在表達這件事上，語意的重點不只是資訊對不對，而是你怎麼組織一段話、怎麼鋪陳重點、怎麼使用詞句去帶出情緒與方向感。

同樣一件事，有的人說出來讓人覺得清楚、有重點、有溫度；有的人說出來則可能讓人覺得平、散、難抓到核心。差別有時候不在知識量，而在語言如何被使用。

研究中，語意線索來自語音轉錄後的逐字稿，再進一步轉成語意向量，作為理解講者表達的一部分。這表示 AI 看的不只是發聲方式，也包括說話內容在語意層次上的表達樣貌。

對溝通者來說，這提醒我們一件事：
好的表達，不只是把資訊講完整，而是讓資訊更容易被人接住。語意，就是那條橋的一部分。

為什麼要把四種線索一起看？

如果只看表情，我們可能會漏掉聲音的力量；如果只看聲音，又會忽略眼神與語意帶來的連結感。真實世界裡的表達，本來就不是單一通道，而是多種訊號交織在一起的結果。

這也是為什麼，多模態分析會比單一線索更接近人的真實感受。研究中的做法，正是把臉部、眼動、聲音與語意等訊號整合起來，去理解它們如何共同影響聽眾的接收結果。研究結果也顯示，整合多模態的模型表現優於單一模態，說明表達力本來就不是靠單一因素支撐起來的。

說得更白話一點就是：
一個人讓人願意聽下去，通常不是因為某一項特別突出，而是多個地方一起順了。

真正重要的，不是 AI 替你打幾分

講到這裡，最重要的問題其實來了：
如果 AI 可以分析表達力，那它最有價值的地方到底是什麼？

我認為，重點不是 AI 有多準，也不是它能不能替你打一個漂亮的分數。真正重要的，是它能不能讓我們更清楚地理解：自己的表達，究竟是怎麼被別人接收到的。

因為很多時候，人最難看見的，正是自己。你可能知道自己準備了很多內容，卻不一定知道自己說話時聲音太平；你可能覺得自己很真誠，卻不一定知道眼神和節奏讓別人感覺不到連結；你可能以為自己已經表達得很清楚，卻不一定知道語句組織讓重點散掉了。

如果 AI 能把這些原本模糊的感覺，轉化成比較具體的觀察與建議，那它的角色就不再只是評分工具，而是一種幫助自我理解與調整的輔助系統。

真正重要的，不是讓 AI 告訴你像不像一個有感染力的人，而是幫你看見：哪些表達線索，正在幫助你；哪些線索，正在拉走你的訊息。

AI 能給的，最好是建議，而不是標籤

這也是我覺得這類技術最應該被使用的方向。

它不適合被拿來粗暴地下結論，不適合替人貼上「有魅力」或「沒有魅力」的標籤，更不適合用來把一個人整體價值簡化成單一指標。因為表達只是人能力的一部分，而且不同情境、不同文化、不同角色，也會影響表達的期待方式。

但它很適合做另一件事：提出方向性的建議。

例如：

你的聲音節奏偏平，重要段落可以增加起伏
你的眼神轉移過快，可能削弱穩定感
你的表情變化較少，情緒重點不容易被看見
你的語句資訊量很高，但重點鋪陳可以再更清楚

這樣的建議，不是在定義你是誰，而是在幫助你調整你怎麼說。

這就是 AI 最應該扮演的位置：不是裁判，而是輔助你練習的一面鏡子。

結語：表達力，不只是天賦，也是一種可以被看見與改善的能力

我們過去常把感染力、表達力想得太神秘，彷彿那是少數人天生就有的東西。但其實，很多讓人感受到「這個人很會表達」的時刻，都來自一系列可以被觀察、被理解、被調整的線索。

表情、眼神、聲音、語意，這四種線索像四條河，最後一起流進別人的感受裡。AI 做的，不是替這些感受下最後判決，而是試著把這些流動看得更清楚一些。

而當我們能更客觀地看見自己是怎麼被別人接收到的，我們就更有機會去改善自己的溝通、提升自己的感染力，也讓原本想傳達的內容，真正走到對方心裡。

Reference

Suen, H.-Y., Hung, K.-E., & Tseng, F.-H. (2026). Dual-Model Prediction of Affective Engagement and Vocal Attractiveness From Speaker Expressiveness in Video Learning. IEEE Transactions on Computational Social Systems. DOI: 10.1109/TCSS.2026.3675249.

The Blog