從機器學習到世界模型,我為什麼開始重新思考 AI 與人的關係
我們很習慣用一句話形容 AI 的進步:
「模型變得越來越聰明了。」
但如果你真的一路看著 AI 走到今天,會發現這句話其實有點模糊,甚至有點誤導。
AI 的關鍵突破,從來不只是準確率多了幾個百分點,
而是——
它一步一步,開始在心中建構「世界」的樣子。
而這個轉變,正在悄悄改寫 AI 能做什麼、該做什麼,以及我們該不該讓它做這些事。
一、機器學習的年代:我們教 AI 下判斷,但沒教它理解
早期的機器學習,其實很誠實。
你給它資料、定義特徵、設定目標,它就學一個函數,幫你把輸入對應到輸出。
分類、回歸、打分、排序——清楚、直接、可驗證。
那時候的 AI,很像一台考試機器。
題型固定,它表現優異;
題目一換,它立刻露餡。
在 HR、心理評估、風險預測這類場景中,這種 AI 其實很快就撞牆:
- 分數算得出來,但說不清楚為什麼
- 指標有效,但換一批人就失效
- 模型準確,但主管不敢真的拿來用
這也是為什麼,我一開始做這類系統時,就很清楚一件事:
如果 AI 只會給答案,卻無法解釋它怎麼想,那它永遠只能當輔助。
二、深度學習:AI 終於學會「看見」,但還沒學會「想」
深度學習帶來的不是「更好的算法」,而是一個態度上的轉彎。
我們不再硬塞規則與特徵給模型,
而是讓模型自己,從大量資料中,長出對世界的表示。
這讓 AI 第一次在影像、語音、表情這些「人類感官層級」的問題上,真正追了上來。
對我來說,這是一個關鍵節點。
因為當你開始分析聲音的節奏、臉部的微小變化、眼神的穩定性,你會很清楚地感覺到一件事:
人類真正重要的訊息,往往不在語言裡。
但問題也在這裡。
深度學習讓 AI 看得更清楚,
卻沒有保證它真的理解自己看到的是什麼。
三、Transformer 與 LLM:AI 會說話了,但它真的知道自己在說什麼嗎?
當 Transformer 出現,語言模型迎來質變。
AI 開始能生成長篇、連貫、看似有邏輯的內容。
它不只是回答問題,而是在「表演理解」。
這也是近年最容易讓人誤判的地方。
因為人類太習慣用「說得通」來判斷「懂不懂」。
但在實務中,這種錯覺其實非常危險。
在 AI 面試、心理對話、能力評估這些場景裡,如果你只依賴語言:
- 最會講話的人,未必最穩定
- 最流暢的回答,未必最真實
- 最像理解的句子,反而可能是幻覺
這也是為什麼,我從一開始就沒有把「純 LLM」當成終點。
四、多模態:AI 開始有感官,但世界仍是碎片的
多模態 AI 看起來像是答案。
文字、影像、聲音、表情、動作,全部整合在一起,
終於不像只活在文字裡。
但真正做過多模態系統的人都知道,困難從來不在「接進來」,
而在於——
它們是不是在描述同一個世界。
一個人說自己很冷靜,但聲音顫抖;
一段話語很正向,但表情與眼神完全不同步。
如果 AI 只是把這些訊號「平均起來」,
那它看到的世界,反而比單一模態更扭曲。
所以在我自己的系統裡,我關心的從來不是:
「這一刻像不像某種情緒?」
而是:
「這個人的行為,在時間中是不是一致、穩定、可預測?」
五、世界模型:我真正想做的,不是判斷人,而是理解人如何變化
走到這裡,我開始對「世界模型」產生共鳴。
世界模型的核心概念其實很簡單:
不是只回答「現在是什麼」,
而是能模擬「接下來可能會發生什麼」。
這對人類相關的 AI 應用,尤其重要。
因為我們真正關心的,從來不是某一秒的狀態,而是:
- 行為會不會惡化
- 壓力是否正在累積
- 介入的時機是不是太早或太晚
當 AI 開始能在內部模擬這些變化,它就不再只是分析工具,
而是開始成為決策的參與者。
而這,也讓問題變得更嚴肅。
結語|AI 的問題,已經不只是能不能,而是該不該
當 AI 越來越像一個世界,
我們就不能再假裝它只是工具。
對我來說,這也是為什麼在產品設計上,我始終堅持幾件事:
- 可解釋,而不是只給結論
- 人在迴路,而不是自動裁決
- 漸進介入,而不是一次定生死
因為當 AI 能理解世界,
真正需要被仔細思考的,其實是——
我們準備好,如何讓它理解人了嗎?
🎁 彩蛋|一張表,看懂 AI 是怎麼一步步「長出世界觀」的
如果把 AI 的發展拉遠來看,你會發現它其實不是線性進步,而是一連串 「解決一個問題 → 暴露更深層問題」的循環。
下面這張表,整理了 AI 主要演進階段、每一代真正解決的核心問題,以及它同時帶來的新困境。
這也是我在設計 AI 產品時,反覆對照的一張「心理地圖」。
AI 演進總覽表(從判斷工具到世界模型)
| 時代階段 | 核心技術 | AI 在做什麼 | 解決了什麼問題 | 新出現的問題 |
|---|---|---|---|---|
| 規則式 AI | 專家系統、邏輯規則 | 照人寫的規則做事 | 可控、可解釋 | 無法擴展,脆弱,無法面對真實世界 |
| 統計機器學習 | SVM、Random Forest、XGBoost | 從資料中學判斷邊界 | 不靠手寫規則,效果穩定 | 強依賴特徵工程,無法處理感知型資料 |
| 深度學習 | CNN、RNN、LSTM | 自動學表示(representation) | 影像、語音、感知能力突破 | 黑盒化,資料與算力需求暴增 |
| 注意力機制 | Attention | 學會「該看哪裡」 | 解決長距依賴、資訊壓縮問題 | 計算成本上升,理解仍是表面 |
| Transformer | Self-Attention 架構 | 全局建模、並行學習 | 語言與序列能力質變 | 流暢但不保證真實,幻覺問題浮現 |
| 自監督 / Foundation Models | BERT、GPT 類 | 學通用世界語言 | 少樣本、跨任務遷移 | 不聽話、不安全、不知道「自己不知道」 |
| 對齊與工程化 | RLHF、RAG、Tool Use | 變得可用、可控制 | 指令遵循、知識可更新 | 系統複雜度高,評估困難 |
| 多模態 AI | Vision × Audio × Text | 整合多種感官 | 不再只活在文字裡 | 模態不一致、假理解更逼真 |
| 世界模型(進行中) | Predictive Models、Simulation | 在內部模擬世界 | 從反應走向預測與規劃 | 可驗證性、對齊與風險急遽放大 |
為什麼這張表很重要?
因為它點出一件很少被說清楚的事:
AI 的每一次進化,
都不是因為它「不夠聰明」,
而是因為它「還不夠理解世界」。
而現在,我們正站在一個轉折點上:
- AI 不只在回答問題
- 不只在生成內容
- 而是開始在內部演算未來
這也是為什麼,接下來最關鍵的問題,不再只是技術,而是:
- 誰來決定它怎麼理解人?
- 哪些情境可以交給模型?
- 哪些判斷,必須永遠留給人?
