為什麼有些人一開口，大家就更願意聽下去？AI 怎麼看懂講者的表達力

在工作現場，我們其實都見過這種差別。

同樣一份簡報，有的人一講，大家很快就飄走了；有的人一開口，氣氛就慢慢被拉住，注意力像潮水回岸，聽的人願意停下來，願意跟著走。內容可能差不多，但感受完全不同。

對 HR 來說，這不是小事。

不管是招募說明、內訓影片、主管溝通、雇主品牌內容，甚至是面試官與講師訓練，真正影響效果的，從來不只是「講了什麼」，還包括「怎麼講」。有些人說話讓人安心，有些人讓人想繼續聽，有些人則明明內容不差，卻總讓訊息在半路散掉。

問題是，這種「表達力」到底能不能被更客觀地理解？

過去如果想知道一段影片是否真的吸引人，常見做法通常是看問卷、看互動紀錄，或直接蒐集觀眾端資料，例如臉部表情、眼動、生理訊號等。但這些方法有一個共同困境：在真實世界裡，尤其是非同步的影片場景，很難大量取得，也常常牽涉隱私與成本問題。

也因此，一個很值得思考的問題浮現出來：

如果拿不到觀眾端資料，我們能不能只看講者本身，就推估這段表達是否更容易讓人投入？

這正是這篇研究想回答的事。研究提出一種以講者為核心的 Emotion AI 方法，試著只從講者端的表達訊號，預測兩件事：一是聽眾的 affective engagement，也就是情感上的投入感；二是 vocal attractiveness，也就是聲音是否讓人覺得有吸引力、願意繼續聽下去。研究結果顯示，這件事不但可行，而且在預測表現上相當不錯。

什麼是「大家更願意聽下去」？

先說白話。

這裡講的，不是舞台魅力那種玄學，也不是把人分成「有魅力」或「沒魅力」。研究關注的，是聽眾在接收內容時，是否產生了比較高的情感投入。這種投入感，包含了情緒上的共鳴、持續注意的傾向，以及「我願意跟著這段內容走下去」的感受。

另一個相關概念是聲音吸引力。這不只是聲音好不好聽，而是聲音裡的清晰度、穩定度、抑揚起伏、節奏感，是否讓人更容易產生好感與專注。研究也發現，這兩者之間其實關係很深：當一個人的聲音表達越容易被感知為有吸引力，聽眾的投入感通常也越高。測試資料中，兩者的人類評分相關達到 r = 0.732，模型預測結果之間的相關也有 r = 0.743。

換句話說，很多時候，聽眾不是先被「資訊量」抓住，而是先被一種可感受的表達節奏接住。

AI 看的，不是人格，而是表達線索

這裡很重要。

HR 一看到這類技術，直覺常會問：所以 AI 是在判斷一個人有沒有魅力？是不是在讀心？是不是要拿來幫人打分？

其實不是。

這項研究看的，是講者端可觀察的表達線索，而不是人格本身。它不是在替一個人的價值下判決，而是在分析一些具體、可被看見與聽見的訊號，例如臉部動態、眼神與注視的變化、聲音特徵，以及語句中的語意表達。

研究中，系統主要從四類訊號來理解講者的表達方式。

第一類是臉部動態。研究使用臉部 landmark 技術，擷取每一幀中的 478 個三維臉部特徵點，再從額頭、眼睛、鼻子、嘴唇、臉頰、下巴與眉毛等區域去觀察臉部在短時間內的動態變化。這不是只看有沒有笑，而是去看表達的細微變化是否自然、穩定、帶有節奏。

第二類是眼動與注視相關訊號。研究不是只問「有沒有看鏡頭」，而是看注視停留的穩定度、視線轉移次數與變化分布，藉此理解講者在表達時的注意控制與認知狀態。

第三類是聲音。這也是整篇研究裡最有意思的一部分。系統會從聲音中抽取音高、共振峰、MFCC、jitter、shimmer、HNR 等聲學特徵，並特別挑選較穩定的 2 秒語音片段，讓模型盡量捕捉講者較穩定的聲音品質，而不是一時的雜訊。

第四類是語意內容。研究會先把語音轉成逐字稿，再透過語意嵌入方式，理解講者在短短幾秒內使用的語言是否帶有情緒、強調與表達意圖。

從 HR 的角度來看，這件事其實可以理解成：AI 不是在猜一個人的內心，而是在分析「這個人是怎麼把訊息送出去的」。

為什麼這件事對 HR 很重要？

因為 HR 面對的，常常不是「資料太少」，而是「回饋太慢」。

很多與人有關的工作，都是在溝通裡發生的。招募說明影片能不能留住候選人，培訓影片能不能讓員工願意看完，主管的內部說明能不能讓團隊真的聽進去，這些都與表達方式高度相關。

但在多數情況下，我們真正收到的訊號，往往已經太晚了。可能是課程結束後的滿意度問卷，可能是影片觀看率，可能是候選人最後有沒有往下走。這些指標有價值，但它們通常太後端，像是退潮後才看到沙灘上的痕跡。

如果有一種方法，能在不大量蒐集觀眾端資料的前提下，只根據講者本身的表達方式，就提供比較即時、比較一致的分析視角，那對 HR 來說，價值就很明確了。它可以成為一種輔助回饋工具，幫助我們更早發現：哪些表達方式更容易讓人聽進去，哪些地方可能正在流失注意力。

研究結果告訴了我們什麼？

這篇研究使用來自 MOOC 非同步教學影片的大型資料集，最終納入了 10,360 個可用於情感投入模型的片段，以及 9,960 個可用於聲音吸引力模型的音訊片段，並採用 speaker-independent 的分割方式，盡量確保模型不是只記住特定講者，而是真的學到可泛化的表達規律。

結果相當亮眼。

預測 affective engagement 的模型，在 speaker-independent test set 上達到 R² = 0.85；預測 vocal attractiveness 的聲學模型，則達到 R² = 0.88。

更值得注意的是，光是聲音特徵本身，就已經能解釋約 72% 的投入感變異；在各種單一模態中，聲音表現最強，只略低於整合多模態資訊的完整模型。

這個結果其實很有意思。它提醒我們一件常被低估的事：

很多時候，讓人願意繼續聽下去的關鍵，不一定先是畫面，而可能先是聲音。

語速、停頓、抑揚、清晰度、穩定度，這些看似細小的元素，往往才是情緒共鳴真正開始的地方。

這不只是技術問題，也是管理與發展問題

如果把這項研究放回 HR 的實務場景，它的意義不在於「用 AI 取代人類判斷」，而在於提供一面更穩定的鏡子。

這面鏡子可以幫助講師、主管、面試官、招募品牌內容製作者，從另一個角度看見自己的表達方式。它不一定告訴你「你是誰」，但它可能告訴你「你的訊息是怎麼被接住的」。

這種技術未來比較適合的方向，不是偷偷評估人，也不是直接用來決定誰該被錄取、誰該被淘汰；它更適合被用在培訓、溝通優化、講者 coaching、教材改善、影片內容設計等場景。因為它真正擅長的，是提供一種表達層面的回饋，而不是對人的全部價值做簡化判決。

而且，這篇研究還有一個很重要的現實價值：它的設計只依賴講者端資料，不需要蒐集觀眾端個資或即時影像，因此更接近可擴展、也更符合隱私友善原則的做法。研究本身也明確將這種設計與 privacy-by-design、資料最小化，以及如 EU AI Act 這類治理精神連結起來。

結語：真正打動人的，從來不只是內容本身

HR 的世界，本來就很靠近人，也很靠近語氣、情緒、節奏與感受。

我們常說內容為王，但在很多真實情境裡，內容若沒有被好好送達，就像一封沒有寄到的信。講者的表達方式，正是那條把訊息送進人心的路。

這篇研究最迷人的地方，不是在於 AI 很厲害，而是在於它讓我們更清楚地看見：原來一個人怎麼說話、怎麼看人、怎麼讓聲音落下來，真的會影響別人是否願意繼續聽。

而這件事，對 HR 來說，從來都不是小事。

Reference

Suen, H.-Y., Hung, K.-E., & Tseng, F.-H. (2026). Dual-Model Prediction of Affective Engagement and Vocal Attractiveness From Speaker Expressiveness in Video Learning. IEEE Transactions on Computational Social Systems. DOI: 10.1109/TCSS.2026.3675249.

The Blog