Anthropic 長期以來都將自己定位為安全至上的 AI 實驗室——這間公司由前 OpenAI 研究人員創立,他們相信要建立強大的 AI 系統,需要一種截然不同的對齊(alignment)方法。隨著 Claude Mythos 於 2026 年 4 月 20 日發布,Anthropic 提出了其迄今為止最雄心勃勃的論點,即安全性和能力並非互相對立,而是實際上相互促進的。
Claude Mythos 代表著 Anthropic 旗下 Claude 模型系列的第四代主要產品,它在競爭激烈的時刻登場。2026 年初的 AI 領域,是由少數幾個前沿模型定義的,它們在基準測試、企業合約和開發者心佔率方面爭奪主導地位。Anthropic 認為 Claude Mythos 不僅能在性能指標上取勝,還能在可信賴性上脫穎而出——這項特質正日益受到受監管行業、政府以及那些對 AI 系統自信地陳述虛假資訊感到厭倦的用戶所重視。
憲法式 AI 框架,再進化
Constitutional AI 是 Anthropic 在 2022 年開創的訓練方法,其運作方式是為模型提供一套原則——即「憲法」——並訓練它根據這些原則評估和修改自己的輸出。這種方法旨在減少對每個潛在有害輸出都需要人工反饋的需求,轉而教導模型從第一性原理(first principles)來推論無害性。
Claude Mythos 在幾個重要方面擴展了這個框架。憲法訓練現在納入了動態原則層次結構,讓模型能夠在原則衝突的情況下,判斷哪些原則應優先。它還包括 Anthropic 所稱的「認知謙遜訓練」(epistemic humility training)—— 一系列旨在讓模型更準確地校準其自身知識極限的技術,從而減少困擾前幾代大型語言模型的聽起來自信的幻覺。
幻覺減少:數字
Anthropic 技術報告中的主要統計數據顯示,與 Claude 3.5 Sonnet 相比,幻覺(hallucinations)減少了 35%。這個數字是使用 Anthropic 內部 TruthfulQA 變體測量的,該變體測試模型在廣泛領域中事實問題的準確性。Stanford 的 Center for Human-Compatible AI 研究人員進行的獨立評估,大致證實了這項改進,儘管他們指出幻覺率因領域而異——該模型在科學和歷史問題上表現出色,但在近期事件和小眾技術主題上則顯示出較大的變異性。
Data Visualization
幻覺率(按領域):Claude Mythos 與 Claude 3.5 Sonnet
- Claude Mythos
- Claude 3.5 Sonnet
"安全性與能力並非互相對立。Claude Mythos 是迄今為止最有力的證據,證明最值得信賴的 AI 系統同時也是能力最強的系統。"
— Dario Amodei, CEO, Anthropic
企業採用與定價策略
Anthropic 推出 Claude Mythos 的策略,明確聚焦於企業採用。該模型透過 Anthropic 的 API 提供,其定價結構使其在與 GPT-4o 競爭時具有優勢,同時提供該公司所稱的「信任溢價」(trust premium)—— 即保證該模型已在高風險應用中經過更徹底的可靠性和安全性測試。
幾家主要企業客戶已承諾部署 Claude Mythos。Salesforce 已宣佈將其整合到其 Einstein AI 平台中。Morgan Stanley 正在試用該模型,用於金融研究和客戶溝通。英國的 National Health Service 正在評估 Claude Mythos,用於臨床決策支援,並指出該模型改進的校準和降低的幻覺率是他們評估的關鍵因素。
醫療保健和法律領域是 Anthropic 最重要的增長機會。這些行業中,AI 錯誤的成本極高,而 Claude Mythos 提供的信任溢價(trust premium)能直接轉化為商業價值。如果 Anthropic 能將 Claude 確立為高風險專業應用程式的首選,它將創造一個難以被競爭對手僅憑性能基準(performance benchmarks)所動搖的防禦性市場地位。
未來之路:可解釋性與長程推理
Anthropic 在 Claude Mythos 之外的研究議程,聚焦於公司認為對先進 AI 系統的長期安全性至關重要的兩個領域:機械可解釋性(mechanistic interpretability)和長程推理(long-horizon reasoning)。機械可解釋性研究旨在理解神經網路內部實際發生了什麼——識別與特定行為相對應的具體電路和表示。這項工作如果成功,將使研究人員能夠驗證 AI 系統的價值觀和推理過程是否如其所呈現,而非僅僅依賴行為測試。
長程推理(Long-horizon reasoning)研究解決的是另一個挑戰:確保 AI 系統在長時間互動中,能夠規劃並執行複雜、多步驟的任務,同時不失連貫性或偏離其預期目標。隨著 AI 系統被部署到 agentic 環境中,這一點變得越來越重要——在這些環境中,AI 系統被期望能在現實世界中採取一系列行動,而不僅僅是回答個別問題。
Claude Mythos 代表著 Anthropic 目前對於如何建構既強大又值得信賴的 AI 系統,所能給出的最佳答案。這個答案是否足夠,以及憲法式 AI (constitutional AI) 方法能否擴展到未來更強大的系統,仍然是 AI 安全研究的核心問題。