在 AI 業界許多人期待了近兩年的時刻,OpenAI 於 2026 年 4 月 22 日正式發布了 GPT-5——該公司形容這是自最初 ChatGPT 推出以來最重大的飛躍。這項發布透過 OpenAI 舊金山總部舉行的直播活動進行,吸引了數百萬人同時觀看,並立即在科技界引起了巨大迴響。

GPT-5 不僅僅是漸進式的更新。據 OpenAI CEO Sam Altman 表示,這個模型代表了 AI 系統處理複雜推理方式的質變,從模式匹配轉向更接近結構化審議的模式。「我們已經跨越了一個門檻,」Altman 在主題演講中說道。「GPT-5 不僅僅是檢索——它能推理、規劃並驗證自己的結論,這是以前的模型根本無法做到的。」

GPT-5 有何不同

GPT-5 最引人注目的能力是其擴展的上下文視窗,現在支援多達一百萬個 tokens——這大約相當於同時處理十本完整的小說。這使得模型能夠在極長的文檔中保持連貫的推理,對於法律合約分析、科學文獻回顧以及多會話軟件開發專案等任務來說,都變得真正實用。

但原始上下文長度只是故事的一部分。OpenAI 在發布時同步公開的內部基準測試顯示,GPT-5 在 MATH-500 基準測試中比 GPT-4o 高出 47%,在標準編碼能力測試 HumanEval 中高出 38%。在 MMLU Pro 基準測試——一項涵蓋醫學、法律、工程和科學等專業級知識的綜合測試——GPT-5 獲得 91.2% 的分數,而 GPT-4o 則為 72.6%。

Data Visualization

GPT-5 與 GPT-4o:基準性能比較

MATH-500HumanEvalMMLU ProGPQA DiamondSWE-Bench0255075100
  • GPT-5
  • GPT-4o
來源:OpenAI 技術報告,2026 年 4 月。分數代表正確完成任務的百分比。

多模態功能與實際應用

GPT-5 在多模態推理方面也標誌著一項重大進步。該模型現在可以同時處理文字、圖像、音訊和影片並進行推理,實現了以前不可能的應用場景。醫護人員可以上傳 MRI 掃描圖像以及病患的書面病歷,並獲得結構化的鑑別診斷。建築師可以分享藍圖並獲得詳細的結構分析。軟體工程師可以在分享螢幕錄影的同時口頭描述一個 bug,並獲得根本原因分析。

OpenAI 內部基準測試的可視化圖表,顯示 GPT-5 在主要評估類別中的性能提升。該模型在數學推理和軟體工程任務方面表現出最顯著的改進。
OpenAI 內部基準測試的可視化圖表,顯示 GPT-5 在主要評估類別中的性能提升。該模型在數學推理和軟體工程任務方面表現出最顯著的改進。

"我們已經跨越了一個門檻。GPT-5 不僅僅是檢索資訊——它還能以過往模型無法做到的方式進行推理、規劃並驗證自己的結論。"

— Sam Altman, CEO, OpenAI

定價、存取與競爭格局

GPT-5 現已開放予 ChatGPT Plus 和 Pro 訂閱者使用,而開發人員的 API 存取則將以分級定價結構推出。基本的 API 費率設定為每百萬輸入 token 15 美元,以及每百萬輸出 token 60 美元——這明顯高於 GPT-4o,反映了該模型在運算需求上大幅增加。企業定價可透過與 OpenAI 銷售團隊直接洽談取得。

發佈時間具有重要的戰略意義。Anthropic 的 Claude Mythos 在短短兩天前發佈,曾短暫地在多個公開排行榜上奪得榜首。GPT-5 的到來立即重新洗牌了這些排名,兩家公司現在正陷入分析師們所稱的,自 2020 年最初 GPT-3 發佈以來最關鍵的 AI 性能競賽。

Google DeepMind 一直在悄然開發 Gemini Ultra 2,預計將在數週內作出回應。競爭壓力正以驚人的速度加劇,迫使所有主要的 AI 實驗室加快其發布時間表,這讓安全研究人員質疑在部署前是否進行了充分的測試。

安全考量與對齊研究

OpenAI 對於 GPT-5 進行的安全評估異常透明。該公司在模型發布時同步公開了一份長達 94 頁的技術安全報告,詳細說明了紅隊演練、對抗性測試以及其 Preparedness Framework 評估的結果。GPT-5 整體獲得「中等」風險評級,但在說服和影響操作類別中被標示為「高」風險,這些領域由於模型增強的推理能力,使其可能更有能力生成具有說服力的虛假資訊。

為減輕這些風險,OpenAI 已實施多項新安全措施,包括加強政治內容的過濾、對 AI 生成圖像強制添加浮水印,以及設計用於偵測協同濫用模式的新監控系統。批評者認為,鑑於該模型的強大功能,這些措施仍不足夠,而 OpenAI 則堅稱,部署此技術的好處大於不發布所帶來的風險。

GPT-5 的發布不僅對 OpenAI,也對整個 AI 產業來說,都是一個關鍵時刻。現在的問題不再是 AI 系統能否在複雜的認知任務上達到接近人類的水平——GPT-5 已經回答了這個問題——而是社會將如何適應一個此類系統廣泛普及的世界,以及需要哪些治理結構來確保它們被負責任地使用。

Data Visualization

AI 模型 Context Window 成長(2020–2026)

202020212022202320242025202602505007501000
  • Context Window (K tokens)
AI 模型 Context Window 成長 (2020–2026) 主要模型世代的 Context window 大小,以千個 token 為單位測量。GPT-5 的 1M token window 比其前身增加了 5 倍。

AI 模型上下文視窗增長 (2020–2026) 對於開發者和企業而言,實際影響是立竿見影的。那些一直在等待能夠在單一 context window 中處理整個 codebase 的模型團隊,現在已經擁有這個工具。需要同時綜合數百篇學術論文的研究人員也能夠做到。瓶頸已經從 AI 能處理什麼,轉變為組織如何有效地將這些能力整合到他們的工作流程中——這將定義 AI 採用曲線的下一個階段。