久久精品1区,国产在视频线精品视频www666,日韩欧美一区二区视频

DeepSeek-V3/R1推理系統架構公開，成本利潤率高達545%

【新智元導讀】DeepSeek公開推理系統架構，成本利潤率可達545%！明天還有更大驚喜嗎？就在剛剛，當大家以為開源周已經結束的時候，真「Open AI」DeepSeek帶來了壓軸大戲——DeepSeek-V3/R1推理系統，全面揭秘！

吞吐量和延遲優化：

跨節點高效并行（EP）驅動的批處理擴展
計算與通信并行處理
智能負載均衡

在線服務性能數據：

每個H800節點每秒處理73,700/14,800輸入/輸出token
成本利潤率高達545%

DeepSeek表示，希望本周分享的技術見解能為開源社區帶來價值，共同推進通用人工智能的發展目標。

DeepSeek-V3/R1推理系統架構公開，成本利潤率高達545%

看到這里，網友都驚了！所以，基本免費的DeepSeek成本利潤率高達545%，而堪稱世界最貴的OpenAI卻在虧損？

DeepSeek-V3/R1推理系統架構公開，成本利潤率高達545%

系統設計原則

簡單來說，DeepSeek-V3/R1推理服務的優化目標是：提高吞吐量和降低延遲。為了實現這兩個目標，團隊采用了跨節點專家并行（Expert Parallelism，EP）技術。首先，EP顯著擴大了批處理規模，提高了GPU矩陣計算效率，從而提升吞吐量。其次，EP將專家模塊分布在不同GPU上，每個GPU僅處理少量專家模塊（減少內存訪問需求），從而降低延遲。然而，EP也增加了系統復雜度，主要體現在兩個方面：

EP引入了跨節點通信。為了優化吞吐量，需要設計合理的計算工作流，使通信過程與計算過程能夠并行進行。
EP涉及多個節點，因此必然需要數據并行（Data Parallelism，DP），并要求在不同DP實例之間進行負載均衡。

為此，DeepSeek通過以下方式應對這些挑戰：

利用EP技術擴展批處理規模
將通信延遲與計算過程重疊處理
實現有效的負載均衡

大規模跨節點專家并行（EP）

DeepSeek-V3/R1中包含大量專家模塊：每層256個專家中僅激活8個，所以模型的高稀疏性特點要求采用極大的整體批處理規模。這樣才能確保每個專家模塊獲得足夠的批處理量，從而實現更高的吞吐量和更低的延遲。因此，大規模跨節點EP技術成為必不可少的選擇。DeepSeek采用了預填充-解碼解耦架構（prefill-decode disaggregation architecture），在預填充和解碼階段分別采用不同程度的并行策略：

預填充階段「路由專家EP32，MLA/共享專家DP32」：每個部署單元跨越4個節點，配置32個冗余路由專家，每個GPU負責處理9個路由專家和1個共享專家。
解碼階段「路由專家EP144，MLA/共享專家DP144」：每個部署單元跨越18個節點，配置32個冗余路由專家，每個GPU管理2個路由專家和1個共享專家。

計算-通信重疊處理

大規模跨節點EP技術引入了顯著的通信開銷。為了緩解這一問題，采用dual-batch重疊策略，將同一批請求分割為兩個microbatch，以隱藏通信成本并提高整體吞吐量。在預填充階段，兩個microbatch交替執行，一個microbatch的通信開銷被另一個microbatch的計算過程所掩蓋。

DeepSeek-V3/R1推理系統架構公開，成本利潤率高達545%

在解碼階段，各執行階段的時長存在不平衡現象。為此，需要將注意力層細分為兩個步驟，并采用五階段流水線（5-stage pipeline）技術，實現計算與通信的無縫重疊。

DeepSeek-V3/R1推理系統架構公開，成本利潤率高達545%

實現最優負載均衡

大規模并行（包括數據并行DP和專家并行EP）帶來了一個關鍵挑戰：如果單個GPU在計算或通信方面過載，它將成為整個系統的性能瓶頸，導致系統速度下降，同時造成其他GPU資源閑置。為了最大限度地提高資源利用率，DeepSeek的目標是在所有GPU上實現計算和通信負載的平衡。

1. 預填充階段負載平衡器

關鍵問題：不同數據并行實例之間的請求數量和序列長度差異導致核心注意力計算和分發發送負載不平衡。

優化目標：

平衡各GPU之間的核心注意力計算（核心注意力計算負載均衡）；
均衡每個GPU處理的輸入token數量（分發發送負載均衡），避免特定GPU出現處理延遲。

2. 解碼階段負載平衡器

關鍵問題：數據并行實例之間請求數量和序列長度不均導致核心注意力計算（與KV緩存使用相關）和分發發送負載的差異。

優化目標：

平衡各GPU之間的KV緩存（KVCache）使用（核心注意力計算負載均衡）；
均衡每個GPU的請求處理數量（分發發送負載均衡）。

3. 專家并行負載平衡器

關鍵問題：在混合專家模型（Mixture of Experts，MoE）中，存在天然的高負載專家，導致不同GPU上的專家計算工作負載不平衡。

優化目標：

平衡每個GPU上的專家計算工作量（即最小化所有GPU中的最大分發接收負載）。

DeepSeek在線推理系統圖示

DeepSeek在線服務統計數據

所有DeepSeek-V3/R1推理服務均在H800 GPU上運行，精度與訓練保持一致。具體而言，矩陣乘法和分發傳輸采用與訓練一致的FP8格式，而核心MLA計算和組合傳輸使用BF16格式，確保最佳的服務性能。此外，由于白天服務負載高而夜間負載低，團隊采取了一種創新的機制：

在白天高峰時段，所有節點都部署推理服務；在夜間低負載時段，減少推理節點并將資源分配給研究和訓練。

在過去24小時內（02月27日中午12:00至02月28日中午12:00），V3和R1推理服務的合計峰值節點占用達到278個，平均占用226.75個節點（每個節點包含8個H800 GPU）。假設租賃一個H800 GPU的成本為每小時2美元，每日總成本為87,072美元。

DeepSeek-V3/R1推理系統架構公開，成本利潤率高達545%

在24小時統計期內，V3和R1：

總輸入token：6080億，其中3420億token（56.3%）命中磁盤上的KV緩存。
總輸出token：1680億。平均輸出速度為每秒20-22個token，每個輸出token的平均KV緩存長度為4,989個token。
每個H800節點在預填充階段提供平均約7.37萬token/秒的輸入吞吐量（包括緩存命中），或在解碼階段提供約1.48萬token/秒的輸出吞吐量。

上述統計數據包括來自網頁、APP和API的所有用戶請求。如果所有token都按照下列DeepSeek-R1的定價計費，每日總收入將達到562,027美元，利潤率為545%。

R1定價：輸入token（緩存命中）每百萬0.14美元，輸入token（緩存未命中）每百萬0.55美元，輸出token每百萬2.19美元。然而，實際收入大幅低于此數字，原因如下：

DeepSeek-V3的定價顯著低于R1
只有部分服務實現了商業化（網頁和APP訪問仍然免費）
在非高峰時段自動應用夜間折扣

DeepSeek-V3/R1推理系統架構公開，成本利潤率高達545%

參考資料：https://x.com/deepseek_ai/status/1895688300574462431

發表評論

以上留言僅代表用戶個人觀點，不代表優設立場

評論就這些咯，讓大家也知道你的獨特見解立即評論

菜單 優設網uisdc.com 優設網 - 學設計上優設

您還未登錄

登錄后即可體驗更多功能

DeepSeek-V3/R1推理系統架構公開，成本利潤率高達545%

2025/03/03 閱讀 8.7k 評論有獎 閱讀本文需 8 分鐘

系統設計原則

大規模跨節點專家并行（EP）

計算-通信重疊處理

實現最優負載均衡

1. 預填充階段負載平衡器

2. 解碼階段負載平衡器

3. 專家并行負載平衡器

DeepSeek在線推理系統圖示

DeepSeek在線服務統計數據

繼續閱讀本文相關話題

你即將了解 品牌資訊

「東方好運·宣紙團扇系列」，黃陵野鶴攜手上海制扇演繹傳統文化新篇章

< 上一篇

你即將了解 活動賽事

2025 iF 設計獎獲獎名單公布！馬千里代表中國團隊斬獲大獎

下一篇 >

榜上有名 聯系優設

行業風向標！13年助力企業品牌宣發

文章目錄

發評論！每天贏獎品

點擊 登錄 后，在評論區留言，系統會隨機派送獎品

2012年成立至今，是國內備受歡迎的設計師平臺，提供獎品贊助 聯系我們

AI輔助海報設計101例

已累計誕生 737 位幸運星

發表評論

↓ 下方為您推薦了一些精彩有趣的文章熱評 ↓

優設讀報 2025年07月07日 星期一

上周熱門文章：《5億人在用的淘寶，如何做好秒殺頻道設計？》

Figma 正式啟動美股上市程序，募資 15 億美元沖刺年度最大科技 IPO

AI 神器 Shortcut 顛覆 Excel 操作，說話生成報表提速 10 倍

英偉達 4 億美元打包收購 CentML，95 后華人團隊全員加盟

百度湖北總代理世紀百捷宣告破產，22年"躺賺時代"終結

熱門品牌

潘虎包裝設計

NVIDIA

秋葉

技嘉

BenQ明基

米蘭設計周

1 聯系優設

QQ直接交流

2 微信掃碼咨詢

榜上有名 聯系優設

行業風向標！13年助力企業品牌宣發

關于我們

熱門頻道

設計靈感

支持與服務

官方社群

優設官方微信群

微信掃碼 添加管理員 招財

微信號： 掃碼添加

嚴格審核打造高質量交流群

進群會有面試題謝絕打廣告

優設微博

優設AIGC

400W粉絲！每日更新設計干貨

優設

強烈推薦！優設官方品牌微博

優優教程網

官方微博，海量教程看不完

優設基礎訓練營

零基礎入門，帶你成為軟件高手

優設微信

每天官微五分鐘

一年萌新變大神

掃碼關注

優設新媒體矩陣等你來關注

湖北省文化創意產業

協會副會長單位

湖北工業大學

數字藝術產業學院理事單位

東方設計獎

全國高校創新設計大賽運營單位

工信國際

菜單優設網 - 學設計上優設

2025/03/03 閱讀 8.7k 評論有獎閱讀本文需 8 分鐘

你即將了解品牌資訊

你即將了解活動賽事

榜上有名聯系優設

點擊登錄后，在評論區留言，系統會隨機派送獎品

2012年成立至今，是國內備受歡迎的設計師平臺，提供獎品贊助聯系我們

優設讀報 2025年07月07日星期一

榜上有名聯系優設

微信掃碼添加管理員招財

微信號：掃碼添加