AI 每次回答都不一樣?問題可能不是模型,而是你的 Prompt 沒有 SOP

當企業開始大量使用生成式 AI,真正的挑戰不只是選哪個模型,而是如何讓每個人用一致的方法下 prompt、產生可預期的結果。Prompt-based Skills 正是把零散 prompt 變成可重複、可管理、可治理 AI 工作流的方法。

一、問題不是 AI 不夠強,而是每個人都在「各問各的」

你是否遇過這種情況?

同樣是請 AI 產生一份會議紀錄,A 同事得到的是條理清楚、可直接寄出的版本,B 同事得到的卻是段落鬆散、重點不明的文字。
同樣是請 AI 寫週報,有人會要求「列出本週進度、風險、下週計畫」,有人只寫「幫我整理一下」。
同樣是請 AI 協助合約審查、客服回覆、履歷篩選、資安弱點說明,最後輸出的品質卻高度依賴「誰比較會下 prompt」。

這時候,很多企業會直覺認為:「是不是模型不夠好?要不要換更強的 AI?」

但實際上,問題可能不完全在模型,而在於企業內部根本沒有一套 Prompt SOP

當每個人都用自己的方式問 AI,AI 的輸出自然會出現差異。這不是單純的技術問題,而是管理問題、流程問題,也是知識治理問題。

生成式 AI 的價值,不只是讓員工「偶爾變快」,而是讓組織能夠穩定地把知識、流程與判斷標準轉化成可重複的工作成果。這也是為什麼近年 prompt engineering 會被視為一個重要研究領域:它透過任務指令、上下文與提示設計,在不修改模型參數的情況下改善模型表現。(arXiv)


二、沒有 Prompt SOP,企業 AI 導入會遇到什麼問題?

企業開始使用 AI 後,最常見的問題不是「大家不用」,而是「大家都在用,但用法完全不同」。

這會造成幾個明顯問題。

1. 輸出品質不穩定

同一個任務,不同人下不同 prompt,就會產生不同結果。
有些人會給 AI 背景、角色、格式、限制條件;有些人只給一句模糊指令。結果自然有落差。

例如:

幫我寫一份客戶拜訪摘要。

和:

請根據以下訪談內容,整理成「客戶背景、需求痛點、採購疑慮、下一步行動」四個段落,語氣專業、簡潔,適合業務主管閱讀。

這兩個 prompt 的品質完全不同,產出的內容也會不同。

問題在於:企業不能期待每個員工都剛好懂 prompt engineering。

2. 好 prompt 無法被複製

很多企業裡,其實已經有人寫出不錯的 prompt。
但這些 prompt 通常散落在個人筆記、Slack 對話、Notion 頁面、Google Docs,甚至只是某位同事腦中的經驗。

這會讓好的 AI 用法停留在個人層級,無法變成組織能力。

當那位同事離職、換部門,或只是忘記當初怎麼寫,這套方法就消失了。

3. 沒有版本控管

企業流程會變,產品說法會變,法務條款會更新,資安規範也會更新。
如果 prompt 沒有版本管理,就會出現一個問題:沒有人知道現在大家用的到底是不是最新版。

這在一般文案任務可能只是小問題,但在法務、財務、資安、醫療、ESG、HR 等場景,錯誤 prompt 可能導致錯誤判斷或不合規輸出。

4. 沒有審核與治理

Prompt 不是一句普通文字。
它其實包含了企業希望 AI 如何理解任務、如何使用資料、如何輸出內容、如何遵循規則。

換句話說,prompt 已經變成一種「隱形流程」。

如果企業沒有管理 prompt,就等於把一部分流程交給每個員工自由發揮。這在導入初期很靈活,但一旦規模變大,就會造成品質、合規與安全風險。


三、Prompt-based Skills 是什麼?

Prompt-based Skills 可以理解成:

把一組可重複使用的 AI 指令、流程、範本、檢查清單、參考資料與工具使用方式,封裝成 AI 可以在特定任務中調用的技能模組。

它不是單次 prompt,也不是重新訓練模型。
它比較像是把企業的「AI 使用 SOP」打包起來。

如果一般 prompt 是:

這次請你幫我這樣做。

那 Prompt-based Skill 則是:

以後只要遇到這類任務,都請按照這套流程、格式、標準與檢查規則來做。

舉例來說,企業可以建立:

Skill 類型內容
會議紀錄 Skill固定整理決議、待辦事項、負責人、期限
客戶訪談 Skill固定萃取痛點、需求、採購阻礙、下一步
合約審查 Skill依照法務 checklist 檢查風險條款
資安回覆 Skill依公司資安政策回覆客戶問卷
ESG / 碳盤查 Skill依固定格式整理盤查資料與排放係數
HR 面試 Skill依評分規則產生面試摘要與建議
品牌簡報 Skill套用品牌語氣、版型、顏色與敘事架構

這些 Skill 的本質,就是把「好的 prompt」從個人技巧變成組織資產。


四、從 Prompt Engineering 到 Prompt-based Skills:差別在哪裡?

Prompt engineering 解決的是「怎麼把這次問題問好」。
Prompt-based Skills 解決的是「以後遇到同類任務時,怎麼穩定照標準流程做」。

可以這樣比較:

項目Prompt EngineeringPrompt-based Skills
使用方式使用者每次手動設計 prompt預先封裝,任務出現時調用
重點如何問得更好如何讓 AI 依 SOP 做事
對象個人使用者團隊、企業、Agent 系統
穩定性取決於使用者能力取決於 Skill 設計與治理
可管理性較低較高,可版本化、審查、共享
適合場景臨時任務、探索性任務重複任務、標準流程、企業工作流

研究上,prompt engineering 已經被廣泛討論為提升大型語言模型表現的重要方法;相關綜述指出,prompt 可透過自然語言指令與上下文引導模型,不必重新訓練模型就能支援下游任務。(arXiv)
而 Prompt-based Skills 則是把這種方法進一步產品化、流程化、模組化。

換句話說:

Prompt Engineering 是個人的 AI 使用技巧;Prompt-based Skills 是組織的 AI 工作流基礎建設。


五、為什麼大公司開始重視 Skills?

Prompt-based Skills 不是單純的概念。近年大型 AI 公司已經開始把它產品化。

Anthropic:Claude Skills

Anthropic 在 2025 年推出 Claude Skills,將 Skills 定義為包含自訂 instructions、scripts、resources 的資料夾,讓 Claude 能在特定工作任務中載入使用,例如處理 Excel、遵循企業品牌規範等。這些 Skills 可用於 Claude.ai、Claude Code、Anthropic API 與 Claude Agent SDK;媒體報導也指出 Box、Rakuten、Canva 等公司已經使用。(The Verge)

這個方向很值得企業注意,因為它代表 AI 產品正在從「聊天工具」走向「可依組織流程工作的專業助理」。

過去我們問 AI:

幫我寫一份簡報。

現在我們希望 AI 知道:

請依照我們公司的品牌語氣、簡報架構、資料來源、版型規範與審核標準,產生這份簡報。

這就是 Skills 的價值。

Agent Skills:走向開放規格

除了 Claude Skills,Anthropic 也推動 Agent Skills 作為開放規格。相關報導指出,Agent Skills 是模組化的 instructions 與 resources,可用於 coding、law、finance、accounting、data science 等領域,並已被 Microsoft VS Code、GitHub,以及 Cursor、Goose、Amp、OpenCode 等 coding agents 整合或採用。(TechRadar)

這意味著 Skills 可能不只是某一家公司的產品功能,而是 AI Agent 生態系的一種通用工作模組格式。

未來企業可能不只管理 API、文件、資料庫 schema,也會開始管理自己的 Skills library。

OpenAI:Custom GPTs 與企業 Agents 的相近方向

OpenAI 的 GPTs 也反映了類似趨勢。GPTs 是使用者可建立的客製化 ChatGPT,能加入特定 instructions 與知識,用於特定寫作風格、任務或領域。(Wikipedia)

雖然 Custom GPTs 和 Prompt-based Skills 的技術形式不完全相同,但背後邏輯相似:
企業與個人都希望把「一次性的 AI 對話」變成「可重複使用的 AI 能力」。


六、Prompt-based Skills 能解決什麼企業痛點?

1. 讓 AI 輸出從「看個人功力」變成「依組織標準」

如果每個人都自己寫 prompt,AI 輸出會像自由發揮。
但 Skill 可以規定輸出格式、語氣、步驟與檢查清單,讓結果更接近企業標準。

例如一個「客戶訪談摘要 Skill」可以要求 AI 每次都輸出:

  1. 客戶背景
  2. 目前痛點
  3. 採購動機
  4. 反對理由
  5. 商機等級
  6. 下一步建議

這樣主管看到的報告就會一致,也更容易比較與追蹤。

2. 讓專家經驗可以被複製

很多企業真正有價值的知識,不在文件裡,而在資深員工的經驗裡。

例如:

  • 法務知道哪些條款要特別看
  • 顧問知道報告怎麼寫才有說服力
  • 業務知道客戶訪談要抓哪些訊號
  • 資安人員知道客戶問卷怎麼回才安全
  • PM 知道需求文件要避免哪些模糊描述

Prompt-based Skills 可以把這些經驗轉成 AI 可執行的流程。

這不是取代專家,而是把專家的方法變成可擴散的組織能力。

3. 降低教育訓練成本

與其訓練每個員工都成為 prompt 高手,不如把常用任務封裝成 Skill。

員工只需要知道:

我要執行哪一種任務?

而不必每次重新思考:

prompt 要怎麼寫?格式要怎麼設?有哪些檢查點?語氣要怎麼控制?

這會大幅降低 AI 導入門檻。

4. 讓 AI 工作流可以版本管理

當 Skill 被模組化後,它就可以像文件、程式碼、SOP 一樣被管理:

  • 誰建立?
  • 誰審核?
  • 什麼時候更新?
  • 適用哪些部門?
  • 是否包含敏感資料?
  • 是否允許執行程式碼?
  • 舊版是否仍有人使用?

這會讓企業 AI 從「個人效率工具」進入「組織級系統」。


七、但 Prompt-based Skills 不是萬靈丹,也會帶來新風險

當 prompt 只是使用者輸入的一句話,風險相對有限。
但當 prompt 被封裝成 Skill,並且可以被 AI Agent 自動載入,甚至搭配 scripts、tools、files 使用時,它就變成 AI 系統供應鏈的一部分。

這會帶來新的安全問題。

1. Skill 可能被植入惡意指令

研究已經指出,Agent Skills 可能帶來新型 prompt injection 風險。惡意指令可以藏在 Skill 文件或腳本中,誘導 Agent 執行不該做的行為,例如讀取敏感資料或執行非預期操作。(WIRED)

這提醒企業:Skill 不能只看功能好不好用,也要看來源是否可信、內容是否經過審查。

2. Custom GPTs 也有類似風險

針對 OpenAI Custom GPTs 的報導指出,研究人員曾發現部分 custom GPTs 可能被誘導洩漏初始 instructions 或上傳的知識檔案,這對企業與個人隱私都是風險。(WIRED)

這說明一件事:
只要企業開始把 instructions、knowledge、files、tools 綁進 AI 系統,就必須建立治理機制。

3. Skill 需要審核、權限與稽核

企業導入 Prompt-based Skills 時,至少要建立幾個基本規則:

治理項目目的
Skill 來源審核確認 Skill 是否可信
版本控管避免舊版流程繼續被使用
權限管理限制 Skill 可存取的資料與工具
安全檢查避免 prompt injection 與惡意腳本
輸出審核高風險任務需人工確認
使用紀錄追蹤誰在何時使用哪個 Skill

這些治理機制,會決定 Prompt-based Skills 是提升效率的工具,還是新的風險入口。


八、企業可以從哪些 Prompt-based Skills 開始?

如果企業想導入 Prompt-based Skills,不建議一開始就做很複雜的 Agent。
最好的起點,是從「高頻、低風險、格式固定」的任務開始。

例如:

1. 會議紀錄 Skill

輸入逐字稿或會議摘要,輸出:

  • 會議重點
  • 決議事項
  • 待辦事項
  • 負責人
  • 截止日期
  • 風險提醒

2. 客戶訪談摘要 Skill

輸入訪談紀錄,輸出:

  • 客戶背景
  • 需求痛點
  • 採購動機
  • 疑慮與阻礙
  • 推薦下一步

3. 週報 Skill

輸入本週工作內容,輸出:

  • 本週完成事項
  • 遇到問題
  • 風險與協助需求
  • 下週計畫
  • 管理層摘要

4. 資安問卷回覆 Skill

輸入客戶資安問題,依公司政策產生一致回覆。
這類 Skill 特別需要審核,因為可能涉及合規與敏感資訊。

5. ESG / 碳盤查報告 Skill

輸入活動數據、排放係數與盤查資料,輸出固定格式說明、異常檢查與待補資料清單。

6. HR 面試報告 Skill

輸入面試紀錄或 AI 面試分析結果,輸出:

  • 能力摘要
  • 溝通表現
  • 風險訊號
  • 面試官建議
  • 是否進入下一關

這些任務都有一個共同特徵:
它們不是完全創意型任務,而是有固定輸入、固定流程、固定輸出標準。這正是 Prompt-based Skills 最適合發揮的場景。


九、導入 Prompt-based Skills 的建議流程

企業可以用以下方式開始:

第一步:盤點重複性 AI 任務

先找出員工最常用 AI 做什麼:

  • 寫報告?
  • 整理會議?
  • 翻譯?
  • 回覆客戶?
  • 審查文件?
  • 寫程式?
  • 分析資料?

不要一開始就做所有任務,先挑 3 到 5 個高頻任務。

第二步:收集目前大家怎麼下 prompt

把不同同事的 prompt 收集起來,比較差異:

  • 誰的輸出比較好?
  • 哪些指令最有效?
  • 哪些格式最穩定?
  • 哪些地方常常出錯?
  • 哪些資訊每次都要補充?

這一步的目的,是把個人經驗萃取成組織規則。

第三步:定義標準輸入與輸出

每個 Skill 都應該定義:

  • 需要什麼輸入?
  • AI 要扮演什麼角色?
  • 要遵守什麼限制?
  • 要輸出什麼格式?
  • 要檢查哪些風險?
  • 哪些情況需要提醒人工審核?

這就是 Prompt SOP 的核心。

第四步:建立 Skill 並測試

不要只用一兩個案例測試。
應該用真實案例測試多次,觀察輸出是否穩定、是否符合格式、是否容易誤判。

第五步:建立審核與版本控管

當 Skill 變成企業流程的一部分,就要有人負責維護。

尤其是涉及法務、資安、財務、醫療、HR 的 Skill,不能讓任何人自由修改後直接上線。


十、結論:未來企業的 AI 能力,不只取決於模型,也取決於 Prompt SOP

未來企業使用 AI 的差異,不會只在於誰買了更強的模型。
真正的差異會在於:

誰能把自己的知識、流程、格式、判斷標準與工具使用方式,轉化成 AI 可以穩定執行的 Skills。

Prompt-based Skills 的價值,不只是讓 AI 回答得更好,而是讓 AI 工作變得可複製、可管理、可治理。

如果 Prompt Engineering 是個人使用 AI 的基本功,那麼 Prompt-based Skills 就是企業導入 AI Agent 的基礎建設。

當企業還停留在「大家自己想 prompt」的階段,AI 的成果就會高度依賴個人經驗。
但當企業開始建立 Prompt SOP,並把它封裝成可重複使用的 Skills,AI 才真正有機會從「好用的工具」變成「可靠的工作流程」。

所以,當你發現 AI 每次回答都不一樣時,先不要急著怪模型。

也許真正該問的是:

我們的 prompt,有 SOP 嗎?


參考來源

  1. Sahoo et al., A Systematic Survey of Prompt Engineering in Large Language Models: Techniques and Applications, arXiv, 2024. (arXiv)
  2. The Verge, Anthropic turns to “skills” to make Claude more useful at work, 2025. (The Verge)
  3. TechRadar, Anthropic takes the fight to OpenAI with enterprise AI tools — and they’re going open source too, 2026. (TechRadar)
  4. OpenAI GPTs overview, describing GPTs as custom versions of ChatGPT with added instructions and extra knowledge. (Wikipedia)
  5. Wired, OpenAI’s Custom Chatbots Are Leaking Their Secrets, 2023. (WIRED)