AI 的下一步不是更聰明,而是更像一個世界

從機器學習到世界模型,我為什麼開始重新思考 AI 與人的關係

我們很習慣用一句話形容 AI 的進步:
「模型變得越來越聰明了。」

但如果你真的一路看著 AI 走到今天,會發現這句話其實有點模糊,甚至有點誤導。

AI 的關鍵突破,從來不只是準確率多了幾個百分點,
而是——
它一步一步,開始在心中建構「世界」的樣子。

而這個轉變,正在悄悄改寫 AI 能做什麼、該做什麼,以及我們該不該讓它做這些事


一、機器學習的年代:我們教 AI 下判斷,但沒教它理解

早期的機器學習,其實很誠實。

你給它資料、定義特徵、設定目標,它就學一個函數,幫你把輸入對應到輸出。
分類、回歸、打分、排序——清楚、直接、可驗證。

那時候的 AI,很像一台考試機器。

題型固定,它表現優異;
題目一換,它立刻露餡。

在 HR、心理評估、風險預測這類場景中,這種 AI 其實很快就撞牆

  • 分數算得出來,但說不清楚為什麼
  • 指標有效,但換一批人就失效
  • 模型準確,但主管不敢真的拿來用

這也是為什麼,我一開始做這類系統時,就很清楚一件事:

如果 AI 只會給答案,卻無法解釋它怎麼想,那它永遠只能當輔助。


二、深度學習:AI 終於學會「看見」,但還沒學會「想」

深度學習帶來的不是「更好的算法」,而是一個態度上的轉彎。

我們不再硬塞規則與特徵給模型,
而是讓模型自己,從大量資料中,長出對世界的表示。

這讓 AI 第一次在影像、語音、表情這些「人類感官層級」的問題上,真正追了上來。

對我來說,這是一個關鍵節點。

因為當你開始分析聲音的節奏、臉部的微小變化、眼神的穩定性,你會很清楚地感覺到一件事:

人類真正重要的訊息,往往不在語言裡。

但問題也在這裡。

深度學習讓 AI 看得更清楚,
卻沒有保證它真的理解自己看到的是什麼。


三、Transformer 與 LLM:AI 會說話了,但它真的知道自己在說什麼嗎?

當 Transformer 出現,語言模型迎來質變。

AI 開始能生成長篇、連貫、看似有邏輯的內容。
它不只是回答問題,而是在「表演理解」。

這也是近年最容易讓人誤判的地方。

因為人類太習慣用「說得通」來判斷「懂不懂」。

但在實務中,這種錯覺其實非常危險。

在 AI 面試、心理對話、能力評估這些場景裡,如果你只依賴語言:

  • 最會講話的人,未必最穩定
  • 最流暢的回答,未必最真實
  • 最像理解的句子,反而可能是幻覺

這也是為什麼,我從一開始就沒有把「純 LLM」當成終點。


四、多模態:AI 開始有感官,但世界仍是碎片的

多模態 AI 看起來像是答案。

文字、影像、聲音、表情、動作,全部整合在一起,
終於不像只活在文字裡。

但真正做過多模態系統的人都知道,困難從來不在「接進來」,
而在於——
它們是不是在描述同一個世界。

一個人說自己很冷靜,但聲音顫抖;
一段話語很正向,但表情與眼神完全不同步。

如果 AI 只是把這些訊號「平均起來」,
那它看到的世界,反而比單一模態更扭曲。

所以在我自己的系統裡,我關心的從來不是:

「這一刻像不像某種情緒?」

而是:

「這個人的行為,在時間中是不是一致、穩定、可預測?」


五、世界模型:我真正想做的,不是判斷人,而是理解人如何變化

走到這裡,我開始對「世界模型」產生共鳴。

世界模型的核心概念其實很簡單:

不是只回答「現在是什麼」,
而是能模擬「接下來可能會發生什麼」。

這對人類相關的 AI 應用,尤其重要。

因為我們真正關心的,從來不是某一秒的狀態,而是:

  • 行為會不會惡化
  • 壓力是否正在累積
  • 介入的時機是不是太早或太晚

當 AI 開始能在內部模擬這些變化,它就不再只是分析工具,
而是開始成為決策的參與者

而這,也讓問題變得更嚴肅。


結語|AI 的問題,已經不只是能不能,而是該不該

當 AI 越來越像一個世界,
我們就不能再假裝它只是工具。

對我來說,這也是為什麼在產品設計上,我始終堅持幾件事:

  • 可解釋,而不是只給結論
  • 人在迴路,而不是自動裁決
  • 漸進介入,而不是一次定生死

因為當 AI 能理解世界,
真正需要被仔細思考的,其實是——
我們準備好,如何讓它理解人了嗎?


🎁 彩蛋|一張表,看懂 AI 是怎麼一步步「長出世界觀」的

如果把 AI 的發展拉遠來看,你會發現它其實不是線性進步,而是一連串 「解決一個問題 → 暴露更深層問題」的循環。

下面這張表,整理了 AI 主要演進階段、每一代真正解決的核心問題,以及它同時帶來的新困境。

這也是我在設計 AI 產品時,反覆對照的一張「心理地圖」。


AI 演進總覽表(從判斷工具到世界模型)

時代階段核心技術AI 在做什麼解決了什麼問題新出現的問題
規則式 AI專家系統、邏輯規則照人寫的規則做事可控、可解釋無法擴展,脆弱,無法面對真實世界
統計機器學習SVM、Random Forest、XGBoost從資料中學判斷邊界不靠手寫規則,效果穩定強依賴特徵工程,無法處理感知型資料
深度學習CNN、RNN、LSTM自動學表示(representation)影像、語音、感知能力突破黑盒化,資料與算力需求暴增
注意力機制Attention學會「該看哪裡」解決長距依賴、資訊壓縮問題計算成本上升,理解仍是表面
TransformerSelf-Attention 架構全局建模、並行學習語言與序列能力質變流暢但不保證真實,幻覺問題浮現
自監督 / Foundation ModelsBERT、GPT 類學通用世界語言少樣本、跨任務遷移不聽話、不安全、不知道「自己不知道」
對齊與工程化RLHF、RAG、Tool Use變得可用、可控制指令遵循、知識可更新系統複雜度高,評估困難
多模態 AIVision × Audio × Text整合多種感官不再只活在文字裡模態不一致、假理解更逼真
世界模型(進行中)Predictive Models、Simulation在內部模擬世界從反應走向預測與規劃可驗證性、對齊與風險急遽放大

為什麼這張表很重要?

因為它點出一件很少被說清楚的事:

AI 的每一次進化,
都不是因為它「不夠聰明」,
而是因為它「還不夠理解世界」。

而現在,我們正站在一個轉折點上:

  • AI 不只在回答問題
  • 不只在生成內容
  • 而是開始在內部演算未來

這也是為什麼,接下來最關鍵的問題,不再只是技術,而是:

  • 誰來決定它怎麼理解人?
  • 哪些情境可以交給模型?
  • 哪些判斷,必須永遠留給人?