AI 時代的人才評估，應該從單一分數走向多元證據

AI 正在快速進入招募流程。從履歷篩選、人格測驗、非同步影音面試，到 AI 生成面試報告，企業開始有更多工具可以協助人資整理候選人資訊。這些技術的價值，並不在於完全取代人資，而是讓招募流程更有效率、更一致，也更容易被記錄與回顧。

然而，當 AI 被用來推估人格、潛力或職能時，企業真正需要關心的，可能不只是「AI 能不能產出一份報告」，而是：

這份報告背後，究竟有多少可被驗證的行為證據？

這個問題在 AI 招募時代變得特別重要。因為候選人的履歷、文字回答，甚至面試回答內容，都可能透過 AI 工具被修飾得更完整、更有邏輯、更符合企業期待。換句話說，企業看到的回答品質，未必等於候選人在真實工作情境中的穩定表現。

一、語音回答有價值，但不等於完整多模態評估

近年有些 AI 評估工具會讓候選人透過語音回答問題，再將語音內容轉為文字，由大型語言模型或語意分析模型進行判斷，最後產出人格、潛力或職能相關報告。

這種方式並非沒有價值。相較於只看履歷或問卷，語音回答至少讓候選人進入一個回應情境，企業可以看到候選人如何組織答案、如何描述經驗、如何使用案例，也能保留一定程度的臨場表達痕跡。

但從 AI 分析的角度來看，如果系統主要依賴「語音轉文字」後的內容進行推論，那麼核心分析仍然偏向語意與文字表達。它能分析候選人「說了什麼」，卻未必完整分析候選人「如何說」、「當下狀態如何」、「反應過程是否穩定」。

真正的多模態評估，通常不只看文字內容，也會納入聲音、臉部、表情、反應節奏、情緒變化、互動行為等不同訊號。近期人格辨識與人格運算相關研究，也多將 audio、visual、text 等資料來源視為多模態人格分析的重要方向。Zhao 等人在 2022 年的綜述中指出，深度人格特質辨識研究已經涵蓋單模態與多模態方法，並整理了音訊、視覺、文字與生理訊號等不同特徵來源；同時也指出，多模態人格辨識仍面臨資料量、資料偏差、跨資料集泛化與可解釋性等挑戰。DOI: 10.3389/fpsyg.2022.839619。

因此，語音回答可以是重要資料來源，但如果最後只轉成文字，再由語言模型產出報告，它仍然不等於完整的多模態評估。

二、為什麼人才評估不能只看單一分數？

人才評估本來就不是單一分數可以完整代表的事情。職場中的表現，通常是多種因素交互作用的結果：人格特質、知識經驗、情境判斷、溝通互動、情緒調節、學習能力、工作動機，以及企業本身的職務要求與文化環境。

人事甄選研究長期強調，評估工具最重要的不是「看起來先進」，而是是否具備預測效度，也就是能不能有效預測未來的工作表現。Schmidt 與 Hunter 在 1998 年整理 85 年人員甄選研究後指出，甄選工具的實務價值與預測效度高度相關；他們也比較了多種甄選方法及組合，例如一般心智能力、工作樣本、誠信測驗、結構化面試等。(The validity and utility of selection methods in personnel psychology: Practical and theoretical implications of 85 years of research findings.)

更近期，Sackett、Zhang、Berry 與 Lievens 在 2022 年重新檢視人員甄選效度估計，指出過去某些效度可能因 range restriction correction 而被高估，但多數高排名工具仍然維持相對重要的位置；其中結構化面試仍被視為排名很高的甄選方法。(Revisiting meta-analytic estimates of validity in personnel selection: Addressing systematic overcorrection for restriction of range)。

這給 AI 招募一個很重要的提醒：

AI 不是只要能產出一個分數，就等於完成了人才評估。
真正重要的是，這個分數背後是否有足夠清楚、可解釋、可驗證的證據鏈。

如果 AI 只根據單一回答、單一文字內容或單一模型推論，直接輸出「高職能」「低職能」「適合」「不適合」，企業很容易把 AI 的結論誤認為完整判斷。但在實務上，職能往往需要透過多個證據來源交叉驗證。

三、大五人格不是職能本身，而是職能表現的心理特質基礎

HRDA 選擇以大五人格作為重要分析基礎，並不是因為人格可以直接等同職能，而是因為人格特質能提供一個相對穩定、可研究、可比較的心理特質框架。

大五人格通常包含五個面向：

大五人格面向	可能對應的工作觀察
開放性 Openness	學習彈性、創新傾向、接受新觀點
盡責性 Conscientiousness	自律、責任感、目標導向、可靠度
外向性 Extraversion	主動表達、社交能量、影響他人
友善性 Agreeableness	合作、同理、衝突處理
情緒穩定性 Emotional Stability	壓力調節、穩定反應、挫折恢復

Barrick 與 Mount 在 1991 年的經典後設分析中，研究大五人格與工作表現的關係，涵蓋不同工作族群與不同績效指標，結果指出大五人格與工作表現之間存在關聯，尤其盡責性在多種職類中具有較穩定的預測價值。(THE BIG FIVE PERSONALITY DIMENSIONS AND JOB PERFORMANCE: A META-ANALYSIS)。

不過，這裡必須非常謹慎：

大五人格不是職能本身。
大五人格比較像是職能表現背後的心理特質基底。

例如，「溝通能力」可能與外向性、友善性、情緒穩定性有關；但一個人的實際溝通表現，還需要看他是否理解情境、是否能組織訊息、是否能根據對象調整說法、是否能在壓力下維持穩定，以及是否具備足夠的職務知識。

同樣地，「主動性」在業務、工程、客服與主管職中的表現方式也不一樣。業務的主動性可能表現在開發客戶與跟進需求；工程師的主動性可能表現在發現系統風險、提出技術改善；客服的主動性可能表現在提前處理客訴與降低摩擦。

所以，如果 AI 沒有清楚定義職務情境，就直接輸出職能分數，可能會讓企業誤以為分數代表完整能力。

比較成熟的做法應該是：

先理解候選人的穩定人格特質，再結合行為訊號、語音表達、面試內容與職務情境，推論其職能潛力與工作適配風險。

四、為什麼 HRDA 不直接宣稱「測出職能」？

這其實是 HRDA 很重要的方法論差異。

我們不是不重視職能，而是認為職能需要被更謹慎地定義。職能不是一個抽象標籤，而是一個人在特定工作情境中，將人格特質、知識經驗、動機、情緒調節與行為策略展現出來的結果。

因此，與其直接宣稱「AI 測出某某職能」，HRDA 更重視：

候選人的人格基礎是什麼
候選人在面試情境中的表達狀態如何
語音、表情、情緒與互動訊號是否一致
回答內容是否與非語言訊號相互支持
這些訊號如何對應到企業關心的職務行為

這樣的設計更接近「證據式人才評估」，而不是「單一分數式人才評估」。

五、從研究角度看，多模態不是噱頭，而是補足單一資料來源的限制

在人格辨識與面試分析研究中，多模態方法之所以重要，是因為人的行為表現本來就不是單一訊號構成的。

Zhao 等人在 2022 年的音訊與視覺多模態人格辨識研究中指出，真實情境中的第一印象行為資料通常是多模態的，不是單一模態；語言與非語言資訊，例如音訊與視覺訊號，都與人格特質有關，因此需要採用多種輸入模態來進行人格辨識。該研究使用 audio-visual fusion 方法，結合 CNN、Bi-LSTM 與 Transformer 等模型，並以 ChaLearn First Impression-V2 資料集進行實驗。(Integrating audio and visual modalities for multimodal personality trait recognition via hybrid deep learning )。

這類研究對 HRDA 的啟發是：

聲音、臉部、語意與反應節奏不應被視為彼此取代的資料，而應被視為互相補充的證據。

例如：

評估訊號	可能提供的觀察
文字／語意	回答內容、邏輯結構、經驗描述
語音	語速、停頓、穩定度、聲音能量
臉部／表情	情緒變化、緊張反應、互動狀態
時間節奏	反應速度、猶豫、回答流暢度
人資觀察	情境脈絡、職務需求、企業文化適配

這些資料都不應該單獨被過度解讀，但它們可以彼此交叉驗證。當多個訊號指向一致方向時，企業可以更有信心；當訊號彼此矛盾時，反而提醒人資需要進一步追問與確認。

六、AI 招募不能只追求自動化，也要重視公平與接受度

AI 招募工具除了技術效度，也必須考慮候選人的公平感與接受度。

Oostrom 等人在 2024 年研究演算法評估與招募人員評估對候選人反應的影響，研究情境包含非同步影音面試與人格問卷。結果顯示，當候選人被告知由演算法而非招募人員分析其面試與人格資料時，可能增加不適感，並降低公平感、感知預測效度與回饋接受度。(Applicant reactions to algorithm- versus recruiter-based evaluations of an asynchronous video interview and a personality inventory)。

這提醒企業，AI 招募的關鍵不只是準不準，也包括候選人是否理解 AI 如何被使用、是否知道人資仍保留判斷角色，以及是否感受到程序公平。

因此，HRDA 的定位不應是「AI 取代人資」，而應是：

AI 協助人資整理更多元的行為證據，讓面試判斷更一致、更透明，也更容易回到具體資料上討論。

這樣的定位，比單純強調自動打分，更符合企業導入 AI 招募時需要面對的現實問題。

七、從單一分數走向多元證據，是 AI 人才評估的下一步

AI 招募的真正價值，不是讓企業更快得到一個分數，而是讓企業更接近候選人的真實樣貌。

當每個人都可以用 AI 把履歷寫得更完整、把回答整理得更漂亮，企業更需要看的，不只是答案本身，而是答案背後的反應、表達、情緒與行為證據。

因此，未來的人才評估應該從「單一分數」走向「多元證據」：

從只看結果分數，走向理解推論依據
從只看文字內容，走向整合語音、表情與互動訊號
從直接判斷職能，走向理解人格特質與職務情境的關係
從 AI 替人資下結論，走向 AI 協助人資看得更完整

HRDA 選擇從大五人格與多模態行為分析切入，正是因為我們相信：人才評估不應該被壓縮成單一標籤，而應該被還原為一組可觀察、可解釋、可討論的證據。

AI 時代的人才評估，真正重要的不是「模型能不能給分」，而是「這個分數背後，有沒有足夠清楚的證據」。

參考資料

主題	文獻	DOI	用途
大五人格與工作表現	Barrick, M. R., & Mount, M. K. (1991). The Big Five personality dimensions and job performance: A meta-analysis. Personnel Psychology.	10.1111/j.1744-6570.1991.tb00688.x	支持「大五人格與工作表現有關，但不等於職能」
甄選工具效度	Schmidt, F. L., & Hunter, J. E. (1998). The validity and utility of selection methods in personnel psychology. Psychological Bulletin.	10.1037/0033-2909.124.2.262	支持「人才評估要看 predictive validity」
面試效度	McDaniel, M. A., Whetzel, D. L., Schmidt, F. L., & Maurer, S. D. (1994). The validity of employment interviews: A comprehensive review and meta-analysis. Journal of Applied Psychology.	10.1037/0021-9010.79.4.599	支持「結構化面試比非結構化面試更具效度」
甄選效度再檢視	Sackett, P. R., Zhang, C., Berry, C. M., & Lievens, F. (2022). Revisiting meta-analytic estimates of validity in personnel selection. Journal of Applied Psychology.	10.1037/apl0000994	支持「甄選工具仍有效，但效度估計需謹慎」
多模態人格辨識綜述	Zhao et al. (2022). Deep Personality Trait Recognition: A Survey. Frontiers in Psychology.	10.3389/fpsyg.2022.839619	支持「人格辨識研究已走向 audio、visual、text 等多模態」
音訊＋視覺人格辨識	Zhao et al. (2022). Integrating audio and visual modalities for multimodal personality trait recognition via hybrid deep learning. Frontiers in Neuroscience.	10.3389/fnins.2022.1107284	支持「單一模態有限，多模態有助於人格與面試分析」
AI 面試候選人反應	Oostrom et al. (2024). Applicant reactions to algorithm- versus recruiter-based evaluations of an asynchronous video interview and a personality inventory. Journal of Occupational and Organizational Psychology.	10.1111/joop.12465	支持「AI 招募需重視公平感、接受度與人資角色」

The Blog