(原标题:DeepSeek一天能赚几许钱?官方一霎揭秘!潞晨科技暂停DeepSeek API做事)
沿途珍藏一下对于DeepSeek的最新音信!
DeepSeek初度泄露:表面资本利润率545%
当市集觉得DeepSeek的开源周内容发布完了之后,3月1日,DeepSeek布告了“One More Thing”,一霎揭秘V3/R1推理系統,公开了大限制部署资本和收益。
字据《DeepSeek-V3/R1推理系统概览》的著作,假设GPU租出资本为2好意思元/小时,总资本为87072好意思元/天;要是扫数tokens全部按照DeepSeek R1的订价计较,表面上一天的总收入为562027好意思元/天,资本利润率为545%。
据官方泄露,DeepSeek-V3/R1推理系统的优化指标是:更大的模糊,更低的延长。
为了终了这两个指标,DeepSeek使用大限制跨节点巨匠并行(Expert Parallelism / EP)。领先EP使得batch size大大增多,从而擢升GPU矩阵乘法的遵循,擢升模糊。其次EP使得巨匠分散在不同的GPU上,每个 GPU 只需要计较很少的巨匠(因此更少的访存需求),从而裁减延长。
但EP同期也增多了系统的复杂性。复杂性主要体当今两个方面:
EP引入跨节点的传输。为了优化模糊,需要筹算顺应的计较历程使得传输和计较不错同步进行。
EP波及多个节点,因此自然需要Data Parallelism(DP),不同的DP之间需要进行负载平衡。
因此,DeepSeek先容了如何使用EP增大batch size,如何荫藏传输的耗时,如何进行负载平衡。
大限制跨节点巨匠并行(Expert Parallelism / EP)
由于DeepSeek-V3/R1的巨匠数目宽敞,何况每层256个巨匠中仅激活其中8个。模子的高度稀少性决定了必须选择很大的overall batch size,智商给每个巨匠提供实足的expert batch size,从而终了更大的模糊、更低的延时。需要大限制跨节点巨匠并行(Expert Parallelism / EP)。
选择多机多卡间的巨匠并行战略来达到以下方针:
Prefill:路由巨匠EP32、MLA和分享巨匠DP32,一个部署单位是4节点,32个冗余路由巨匠,每张卡9个路由巨匠和1个分享巨匠。
Decode:路由巨匠EP144、MLA和分享巨匠DP144,一个部署单位是18 节点,32个冗余路由巨匠,每张卡2个路由巨匠和1个分享巨匠。
计较通讯访佛
多机多卡的巨匠并行会引入比拟大的通讯支拨,是以使用了双batch访佛来袒护通讯支拨,擢升全体模糊。
对于prefill阶段,两个batch的计较和通讯交错进行,一个batch在进行计较的本领不错去袒护另一个batch的通讯支拨;
对于decode阶段,不同阶段的推论时辰有所辞别,是以把attention部分拆成了两个stage,统统5个stage的活水线来终了计较和通讯的访佛。
尽可能地负载平衡
由于选择了很大限制的并行(包括数据并行和巨匠并行),要是某个GPU的计较或通讯负载过重,将成为性能瓶颈,拖慢扫数这个词系统;同期其他GPU因为恭候而空转,变周至体期骗率下落。因此需要尽可能地为每个GPU分拨平衡的计较负载、通讯负载。
PrefillLoadBalancer
中枢问题:不同数据并行(DP)实例上的肯求个数、长度不同,导致core-attention计较量、dispatch发送量也不同。
优化指标:各GPU的计较量尽量疏导(core-attention计较负载平衡)、输入的token数目也尽量疏导(dispatch发送量负载平衡),幸免部分GPU处理时辰过长。
DecodeLoadBalancer
中枢问题:不同数据并行(DP)实例上的肯求数目、长度不同,导致core-attention计较量(与KVCache占用量关系)、dispatch发送量不同。
优化指标:各GPU的KVCache占用量尽量疏导(core-attention计较负载平衡)、肯求数目尽量疏导(dispatch发送量负载平衡)。
Expert-ParallelLoadBalancer
中枢问题:对于给定MoE模子,存在一些自然的高负载巨匠(expert),导致不同GPU的巨匠计较负载不平衡。
优化指标:每个GPU上的巨匠计较量平衡(即最小化扫数GPU的dispatch接受量的最大值)。
线上系统的实质统计数据
DeepSeekV3和R1的扫数做事均使用H800GPU,使用和考试一致的精度,即矩阵计较和dispatch传输选择和考试一致的FP8措施,core-attention计较和combine传输选择和考试一致的BF16,最猛进度保证了做事限度。
另外,由于白昼的做事负荷高,晚上的做事负荷低,期货配资公司因此终显着一套机制,在白昼负荷高的本领,用扫数节点部署推理做事。晚上负荷低的本领,减少推理节点,以用来作念磋议和考试。在最近的24小时里(北京时辰2025/02/27 12:00至2025/02/28 12:00),DeepSeek-V3和R1推理做事占用节点总和,峰值占用为278个节点,平均占用226.75个节点(每个节点为8个H800GPU)。假设GPU租出资本为2好意思金/小时,总资本为87072好意思元/天。
在24小时统计时段内,DeepSeek-V3和R1:
输入token总额为608B,其中342Btokens(56.3%)射中KVCache硬盘缓存。
输出token总额为168B。平均输出速度为20~22tps,平均每输出一个token的KVCache长度是4989。
平均每台H800的模糊量为:对于prefill任务,输入模糊约73.7ktokens/s(含缓存射中);对于decode任务,输出模糊约14.8ktokens/s。
以上统计包括了网页、APP和API的扫数负载。要是扫数tokens全部按照DeepSeek-R1的订价计较,表面上一天的总收入为562027好意思元,资本利润率为545%。诚然实质上莫得这样多收入,因为V3的订价更低,同期收费做事只占了一部分,另外夜间还会有扣头。
有网友将DeepSeek与OpenAI进行对比,示意:“‘资本利润率545%’,等一下,是以你是说我被OpenAI抢掠了?”
潞晨科技暂停DeepSeek API做事
就在DeepSeek泄露大限制部署资本和收益之后,潞晨科技一霎布告:“尊敬的用户,潞晨云将在一周后罢手提供DeepSeek API做事,请尽快用完您的余额。要是没用完,咱们全额退款。”
此前2月4日晚间,华为计较微信公众号发文示意,DeepSeek-R1系列模子的开源,因其出色的性能和便宜的成立资本,已激发人人的伏击究诘和珍藏。潞晨科技联袂昇腾,连合发布基于昇腾算力的DeepSeek-R1系列推理API,及云镜像做事。
但近期潞晨科技CEO尤洋指出,满血版DeepSeek-R1每百万token(输出)订价16元,要是逐日输出1000亿token,一个月算下来接入方企业可取得4800万元收入。据他测算,完成1000亿token的输出,需要约4000台搭载H800的机器,以咫尺H800的市价大略折旧来计较,每月仅机器资本就达4.5亿元,因此企业方可能濒临每月4亿元的失掉,“用户越多,做事资本越高,失掉越多”。
3月1日下昼4点,潞晨科技CEO尤洋发文复兴DeepSeek公布的表面资本利润率。
公开尊府涌现,潞晨科技是一家戮力于“安谧AI分娩力”的人人性企业,团队中枢成员来自好意思国加州大学伯克利分校,斯坦福大学,清华大学,北京大学等国表里有名高校。主贸易务包括散布式软件系统,大限制东说念主工智能平台,以及企业级云计较处罚决策。公司旨在打造一个开源低资本AI大模子成立系统Colossal-AI,动作深度学习框架的内核,匡助企业最大化东说念主工智能考试遵循的同期最小化东说念主工智能的考试资本。