AI 的下一步不是更聰明，而是更像一個世界

從機器學習到世界模型，我為什麼開始重新思考 AI 與人的關係

我們很習慣用一句話形容 AI 的進步：
「模型變得越來越聰明了。」

但如果你真的一路看著 AI 走到今天，會發現這句話其實有點模糊，甚至有點誤導。

AI 的關鍵突破，從來不只是準確率多了幾個百分點，
而是——
它一步一步，開始在心中建構「世界」的樣子。

而這個轉變，正在悄悄改寫 AI 能做什麼、該做什麼，以及我們該不該讓它做這些事。

一、機器學習的年代：我們教 AI 下判斷，但沒教它理解

早期的機器學習，其實很誠實。

你給它資料、定義特徵、設定目標，它就學一個函數，幫你把輸入對應到輸出。
分類、回歸、打分、排序——清楚、直接、可驗證。

那時候的 AI，很像一台考試機器。

題型固定，它表現優異；
題目一換，它立刻露餡。

在 HR、心理評估、風險預測這類場景中，這種 AI 其實很快就撞牆：

分數算得出來，但說不清楚為什麼
指標有效，但換一批人就失效
模型準確，但主管不敢真的拿來用

這也是為什麼，我一開始做這類系統時，就很清楚一件事：

如果 AI 只會給答案，卻無法解釋它怎麼想，那它永遠只能當輔助。

二、深度學習：AI 終於學會「看見」，但還沒學會「想」

深度學習帶來的不是「更好的算法」，而是一個態度上的轉彎。

我們不再硬塞規則與特徵給模型，
而是讓模型自己，從大量資料中，長出對世界的表示。

這讓 AI 第一次在影像、語音、表情這些「人類感官層級」的問題上，真正追了上來。

對我來說，這是一個關鍵節點。

因為當你開始分析聲音的節奏、臉部的微小變化、眼神的穩定性，你會很清楚地感覺到一件事：

人類真正重要的訊息，往往不在語言裡。

但問題也在這裡。

深度學習讓 AI 看得更清楚，
卻沒有保證它真的理解自己看到的是什麼。

三、Transformer 與 LLM：AI 會說話了，但它真的知道自己在說什麼嗎？

當 Transformer 出現，語言模型迎來質變。

AI 開始能生成長篇、連貫、看似有邏輯的內容。
它不只是回答問題，而是在「表演理解」。

這也是近年最容易讓人誤判的地方。

因為人類太習慣用「說得通」來判斷「懂不懂」。

但在實務中，這種錯覺其實非常危險。

在 AI 面試、心理對話、能力評估這些場景裡，如果你只依賴語言：

最會講話的人，未必最穩定
最流暢的回答，未必最真實
最像理解的句子，反而可能是幻覺

這也是為什麼，我從一開始就沒有把「純 LLM」當成終點。

四、多模態：AI 開始有感官，但世界仍是碎片的

多模態 AI 看起來像是答案。

文字、影像、聲音、表情、動作，全部整合在一起，
終於不像只活在文字裡。

但真正做過多模態系統的人都知道，困難從來不在「接進來」，
而在於——
它們是不是在描述同一個世界。

一個人說自己很冷靜，但聲音顫抖；
一段話語很正向，但表情與眼神完全不同步。

如果 AI 只是把這些訊號「平均起來」，
那它看到的世界，反而比單一模態更扭曲。

所以在我自己的系統裡，我關心的從來不是：

「這一刻像不像某種情緒？」

而是：

「這個人的行為，在時間中是不是一致、穩定、可預測？」

五、世界模型：我真正想做的，不是判斷人，而是理解人如何變化

走到這裡，我開始對「世界模型」產生共鳴。

世界模型的核心概念其實很簡單：

不是只回答「現在是什麼」，
而是能模擬「接下來可能會發生什麼」。

這對人類相關的 AI 應用，尤其重要。

因為我們真正關心的，從來不是某一秒的狀態，而是：

行為會不會惡化
壓力是否正在累積
介入的時機是不是太早或太晚

當 AI 開始能在內部模擬這些變化，它就不再只是分析工具，
而是開始成為決策的參與者。

而這，也讓問題變得更嚴肅。

結語｜AI 的問題，已經不只是能不能，而是該不該

當 AI 越來越像一個世界，
我們就不能再假裝它只是工具。

對我來說，這也是為什麼在產品設計上，我始終堅持幾件事：

可解釋，而不是只給結論
人在迴路，而不是自動裁決
漸進介入，而不是一次定生死

因為當 AI 能理解世界，
真正需要被仔細思考的，其實是——
我們準備好，如何讓它理解人了嗎？

🎁 彩蛋｜一張表，看懂 AI 是怎麼一步步「長出世界觀」的

如果把 AI 的發展拉遠來看，你會發現它其實不是線性進步，而是一連串 「解決一個問題 → 暴露更深層問題」的循環。

下面這張表，整理了 AI 主要演進階段、每一代真正解決的核心問題，以及它同時帶來的新困境。

這也是我在設計 AI 產品時，反覆對照的一張「心理地圖」。

AI 演進總覽表（從判斷工具到世界模型）

時代階段	核心技術	AI 在做什麼	解決了什麼問題	新出現的問題
規則式 AI	專家系統、邏輯規則	照人寫的規則做事	可控、可解釋	無法擴展，脆弱，無法面對真實世界
統計機器學習	SVM、Random Forest、XGBoost	從資料中學判斷邊界	不靠手寫規則，效果穩定	強依賴特徵工程，無法處理感知型資料
深度學習	CNN、RNN、LSTM	自動學表示（representation）	影像、語音、感知能力突破	黑盒化，資料與算力需求暴增
注意力機制	Attention	學會「該看哪裡」	解決長距依賴、資訊壓縮問題	計算成本上升，理解仍是表面
Transformer	Self-Attention 架構	全局建模、並行學習	語言與序列能力質變	流暢但不保證真實，幻覺問題浮現
自監督 / Foundation Models	BERT、GPT 類	學通用世界語言	少樣本、跨任務遷移	不聽話、不安全、不知道「自己不知道」
對齊與工程化	RLHF、RAG、Tool Use	變得可用、可控制	指令遵循、知識可更新	系統複雜度高，評估困難
多模態 AI	Vision × Audio × Text	整合多種感官	不再只活在文字裡	模態不一致、假理解更逼真
世界模型（進行中）	Predictive Models、Simulation	在內部模擬世界	從反應走向預測與規劃	可驗證性、對齊與風險急遽放大

為什麼這張表很重要？

因為它點出一件很少被說清楚的事：

AI 的每一次進化，
都不是因為它「不夠聰明」，
而是因為它「還不夠理解世界」。

而現在，我們正站在一個轉折點上：

AI 不只在回答問題
不只在生成內容
而是開始在內部演算未來

這也是為什麼，接下來最關鍵的問題，不再只是技術，而是：

誰來決定它怎麼理解人？
哪些情境可以交給模型？
哪些判斷，必須永遠留給人？

The Blog