在工作現場,我們其實都見過這種差別。
同樣一份簡報,有的人一講,大家很快就飄走了;有的人一開口,氣氛就慢慢被拉住,注意力像潮水回岸,聽的人願意停下來,願意跟著走。內容可能差不多,但感受完全不同。
對 HR 來說,這不是小事。
不管是招募說明、內訓影片、主管溝通、雇主品牌內容,甚至是面試官與講師訓練,真正影響效果的,從來不只是「講了什麼」,還包括「怎麼講」。有些人說話讓人安心,有些人讓人想繼續聽,有些人則明明內容不差,卻總讓訊息在半路散掉。
問題是,這種「表達力」到底能不能被更客觀地理解?
過去如果想知道一段影片是否真的吸引人,常見做法通常是看問卷、看互動紀錄,或直接蒐集觀眾端資料,例如臉部表情、眼動、生理訊號等。但這些方法有一個共同困境:在真實世界裡,尤其是非同步的影片場景,很難大量取得,也常常牽涉隱私與成本問題。
也因此,一個很值得思考的問題浮現出來:
如果拿不到觀眾端資料,我們能不能只看講者本身,就推估這段表達是否更容易讓人投入?
這正是這篇研究想回答的事。研究提出一種以講者為核心的 Emotion AI 方法,試著只從講者端的表達訊號,預測兩件事:一是聽眾的 affective engagement,也就是情感上的投入感;二是 vocal attractiveness,也就是聲音是否讓人覺得有吸引力、願意繼續聽下去。研究結果顯示,這件事不但可行,而且在預測表現上相當不錯。
什麼是「大家更願意聽下去」?
先說白話。
這裡講的,不是舞台魅力那種玄學,也不是把人分成「有魅力」或「沒魅力」。研究關注的,是聽眾在接收內容時,是否產生了比較高的情感投入。這種投入感,包含了情緒上的共鳴、持續注意的傾向,以及「我願意跟著這段內容走下去」的感受。
另一個相關概念是聲音吸引力。這不只是聲音好不好聽,而是聲音裡的清晰度、穩定度、抑揚起伏、節奏感,是否讓人更容易產生好感與專注。研究也發現,這兩者之間其實關係很深:當一個人的聲音表達越容易被感知為有吸引力,聽眾的投入感通常也越高。測試資料中,兩者的人類評分相關達到 r = 0.732,模型預測結果之間的相關也有 r = 0.743。
換句話說,很多時候,聽眾不是先被「資訊量」抓住,而是先被一種可感受的表達節奏接住。
AI 看的,不是人格,而是表達線索
這裡很重要。
HR 一看到這類技術,直覺常會問:所以 AI 是在判斷一個人有沒有魅力?是不是在讀心?是不是要拿來幫人打分?
其實不是。
這項研究看的,是講者端可觀察的表達線索,而不是人格本身。它不是在替一個人的價值下判決,而是在分析一些具體、可被看見與聽見的訊號,例如臉部動態、眼神與注視的變化、聲音特徵,以及語句中的語意表達。
研究中,系統主要從四類訊號來理解講者的表達方式。
第一類是臉部動態。研究使用臉部 landmark 技術,擷取每一幀中的 478 個三維臉部特徵點,再從額頭、眼睛、鼻子、嘴唇、臉頰、下巴與眉毛等區域去觀察臉部在短時間內的動態變化。這不是只看有沒有笑,而是去看表達的細微變化是否自然、穩定、帶有節奏。
第二類是眼動與注視相關訊號。研究不是只問「有沒有看鏡頭」,而是看注視停留的穩定度、視線轉移次數與變化分布,藉此理解講者在表達時的注意控制與認知狀態。
第三類是聲音。這也是整篇研究裡最有意思的一部分。系統會從聲音中抽取音高、共振峰、MFCC、jitter、shimmer、HNR 等聲學特徵,並特別挑選較穩定的 2 秒語音片段,讓模型盡量捕捉講者較穩定的聲音品質,而不是一時的雜訊。
第四類是語意內容。研究會先把語音轉成逐字稿,再透過語意嵌入方式,理解講者在短短幾秒內使用的語言是否帶有情緒、強調與表達意圖。
從 HR 的角度來看,這件事其實可以理解成:AI 不是在猜一個人的內心,而是在分析「這個人是怎麼把訊息送出去的」。
為什麼這件事對 HR 很重要?
因為 HR 面對的,常常不是「資料太少」,而是「回饋太慢」。
很多與人有關的工作,都是在溝通裡發生的。招募說明影片能不能留住候選人,培訓影片能不能讓員工願意看完,主管的內部說明能不能讓團隊真的聽進去,這些都與表達方式高度相關。
但在多數情況下,我們真正收到的訊號,往往已經太晚了。可能是課程結束後的滿意度問卷,可能是影片觀看率,可能是候選人最後有沒有往下走。這些指標有價值,但它們通常太後端,像是退潮後才看到沙灘上的痕跡。
如果有一種方法,能在不大量蒐集觀眾端資料的前提下,只根據講者本身的表達方式,就提供比較即時、比較一致的分析視角,那對 HR 來說,價值就很明確了。它可以成為一種輔助回饋工具,幫助我們更早發現:哪些表達方式更容易讓人聽進去,哪些地方可能正在流失注意力。
研究結果告訴了我們什麼?
這篇研究使用來自 MOOC 非同步教學影片的大型資料集,最終納入了 10,360 個可用於情感投入模型的片段,以及 9,960 個可用於聲音吸引力模型的音訊片段,並採用 speaker-independent 的分割方式,盡量確保模型不是只記住特定講者,而是真的學到可泛化的表達規律。
結果相當亮眼。
預測 affective engagement 的模型,在 speaker-independent test set 上達到 R² = 0.85;預測 vocal attractiveness 的聲學模型,則達到 R² = 0.88。
更值得注意的是,光是聲音特徵本身,就已經能解釋約 72% 的投入感變異;在各種單一模態中,聲音表現最強,只略低於整合多模態資訊的完整模型。
這個結果其實很有意思。它提醒我們一件常被低估的事:
很多時候,讓人願意繼續聽下去的關鍵,不一定先是畫面,而可能先是聲音。
語速、停頓、抑揚、清晰度、穩定度,這些看似細小的元素,往往才是情緒共鳴真正開始的地方。
這不只是技術問題,也是管理與發展問題
如果把這項研究放回 HR 的實務場景,它的意義不在於「用 AI 取代人類判斷」,而在於提供一面更穩定的鏡子。
這面鏡子可以幫助講師、主管、面試官、招募品牌內容製作者,從另一個角度看見自己的表達方式。它不一定告訴你「你是誰」,但它可能告訴你「你的訊息是怎麼被接住的」。
這種技術未來比較適合的方向,不是偷偷評估人,也不是直接用來決定誰該被錄取、誰該被淘汰;它更適合被用在培訓、溝通優化、講者 coaching、教材改善、影片內容設計等場景。因為它真正擅長的,是提供一種表達層面的回饋,而不是對人的全部價值做簡化判決。
而且,這篇研究還有一個很重要的現實價值:它的設計只依賴講者端資料,不需要蒐集觀眾端個資或即時影像,因此更接近可擴展、也更符合隱私友善原則的做法。研究本身也明確將這種設計與 privacy-by-design、資料最小化,以及如 EU AI Act 這類治理精神連結起來。
結語:真正打動人的,從來不只是內容本身
HR 的世界,本來就很靠近人,也很靠近語氣、情緒、節奏與感受。
我們常說內容為王,但在很多真實情境裡,內容若沒有被好好送達,就像一封沒有寄到的信。講者的表達方式,正是那條把訊息送進人心的路。
這篇研究最迷人的地方,不是在於 AI 很厲害,而是在於它讓我們更清楚地看見:原來一個人怎麼說話、怎麼看人、怎麼讓聲音落下來,真的會影響別人是否願意繼續聽。
而這件事,對 HR 來說,從來都不是小事。
