SUPERBASH_ 繁體中文

DeepSeek V4 預覽版：中國最大開源模型攜帶100萬 Token 上下文登場

中國 AI 實驗室 DeepSeek 發布備受期待的 V4 系列——一款1.6兆參數的混合專家模型，在大多數基準測試上比肩西方前沿模型，定價卻更低廉。

Michael C

政策與亞太地區記者

DeepSeek V4 預覽版：中國最大開源模型攜帶100萬 Token 上下文登場

Image: SUPERBASH_ / Michael C

中國 AI 實驗室 DeepSeek 帶著其迄今為止最宏大的發佈回歸。在 2026 年 4 月 24 日，該公司公佈了 DeepSeek-V4-Pro 和 DeepSeek-V4-Flash — 這兩款預覽模型共同構成了其備受期待的 V4 系列中的首次發佈。這兩款模型均在寬鬆的 MIT 許可證下開源，延續了 DeepSeek 發佈強大模型，讓更廣泛的研究社群能夠自由使用和在此基礎上進行開發的模式。

標題的重點是規模。DeepSeek-V4-Pro 是一個 Mixture-of-Experts (MoE) 模型，總參數為 1.6 兆，其中在任何給定的推論步驟中，有 490 億個參數是活躍的。這使其成為有史以來發布的最大開源模型，超越了 Moonshot AI 的 Kimi K2.6 (1.1T) 和 GLM-5.1 (754B)，並且比 DeepSeek 自家的 V3.2 (685B) 大了一倍多。其較小的版本 DeepSeek-V4-Flash 總參數為 2840 億，其中 130 億個是活躍的——對於希望在本地運行模型的研究人員和開發人員來說，這是一個更實用的規模。

百萬 Token 普及化

DeepSeek V4 的兩款模型都支援 100 萬個 token 的上下文視窗——直到最近，這項功能還是 Google 的 Gemini 和 OpenAI 的 GPT-5 系列獨有的。對於需要一次性處理整個程式碼庫、冗長法律文件或大型研究語料庫的開發者來說，這種上下文長度具有顛覆性意義。DeepSeek 在效率上的創新意味著，即使在 1M token 的上下文長度下，每個 token 的運算成本也遠低於競爭模型。

效率的故事或許是 V4 最引人注目的一面。根據模型發布時的技術論文，DeepSeek-V4-Pro 在 1M-token 的上下文情境中，單一 token 的 FLOPs 僅為 DeepSeek-V3.2 的 27%，KV cache 大小也只有 10%。DeepSeek-V4-Flash 更進一步，在相同情境下，FLOPs 達到 V3.2 的 10%，KV cache 則為 7%。這些並非漸進式的改進，而是對大型模型如何處理長上下文的根本性重新思考。

Data Visualization

DeepSeek V4 與 Frontier Model 定價（每百萬 tokens 輸入費用）

Input Price ($/M)

DeepSeek V4 Flash 是市場上最便宜的小型模型，每百萬輸入 tokens 價格為 $0.14。V4 Pro 則以每百萬 tokens $1.74 的價格成為最便宜的大型 frontier model，比 GPT-5.4 便宜 30%，比 Claude Sonnet 4.6 便宜 42%。

基準效能：幾乎達到 Frontier

DeepSeek 自行報告的基準測試顯示，在標準推理基準測試中，V4-Pro 與 GPT-5.2 和 Gemini-3.0-Pro 具有競爭力，儘管該論文承認其性能「略遜於 GPT-5.4 和 Gemini-3.1-Pro，這表明其發展軌跡落後於最先進的 frontier models 約 3 到 6 個月」。對於大多數實際應用來說，這個差距可能無關緊要——而且價格差異足以彌補這一點。

DeepSeek V4 與 Frontier Model 定價（每百萬 tokens 美元，輸入）這些模型可透過 DeepSeek 自己的平台和 OpenRouter 經由 API 取得。Flash 的定價為每百萬輸入 tokens $0.14，每百萬輸出 tokens $0.28；Pro 的定價為每百萬輸入 tokens $1.74，每百萬輸出 tokens $3.48。作為參考，GPT-5.5 的成本為每百萬輸入 tokens $5，每百萬輸出 tokens $30。DeepSeek V4 Pro 以大約三分之一的輸入成本和九分之一的輸出成本，提供可媲美的效能。

DeepSeek V4 與 Frontier Model 定價（每百萬 tokens 美元，輸入）這次發佈的地緣政治層面不容忽視。DeepSeek 在美國對中國實施先進半導體出口管制下開發了 V4。據報導，這些模型經過優化，可在華為的 Ascend 晶片上高效運行，這是 NVIDIA 受限制的 H100/H200 GPU 的替代方案。如果 DeepSeek 在這些限制下仍能持續與西方 frontier models 匹敵，這將引發關於出口管制作為 AI 競爭政策工具的有效性之根本問題。

#AI 模型#Artificial Intelligence#2026#AI Research