热门文档
- 2025-04-21 11:02:12 2025年中国宠物行业白皮书
- 2024-11-17 13:23:03 Mckinsey:2024中国消费趋势调研
- 2025-03-07 11:57:25 【剧星传媒】《哪吒2》资源推荐0205
- 2024-07-31 22:30:59 城市飞行营地总体规划及主题体验区概念设计规划案
- 2024-05-19 21:59:54 2024小红书餐饮行业方法论
- 2024-03-22 23:03:56 红爵啤酒品鉴会“红爵之夜 嗨啤TIME ”主题活动策划方案
- 2024-07-21 20:53:59 2024全球E-Bike市场洞察报告(电动自行车)
- 2024-07-09 21:55:15 如何运营你的小红书?
- 2024-08-18 12:25:23 2024年科大讯飞1024招商方案
- 2024-11-04 20:41:56 淘天集团:2024年家装家居行业营销解决方案
- 2024-08-25 22:28:04 喜马拉雅:喜马拉雅2024营销白皮书
- 2024-09-08 21:00:26 【Short TV】ShortTV出海短剧内容生态

1、本文档共计 33 页,下载后文档不带水印,支持完整阅读内容或进行编辑。
2、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。
4、如文档内容存在违规,或者侵犯商业秘密、侵犯著作权等,请点击“违规举报”。
2、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。
4、如文档内容存在违规,或者侵犯商业秘密、侵犯著作权等,请点击“违规举报”。
华为昇腾AI解决方案汇报HUAWEI2025年2月O NT E NTSDeepSeek洞察及昇腾适配进展2华为昇腾AI基础软硬件介绍目录HUAWEIDeepSeek;是AI发展史上的一个关键里程碑,但远未达到AI终点重新定义Scaling Law泛化性和经济性大幅提升补齐最后一块自主创新的版图延续智能涌现的方向真正形成中美两条AI技术路线DeepSeek-R1进一步验证“算力即性能"NLPScaling Law升级,模型能力=算力X数据X思考计算机视觉自然语言处理1998 LeNetTransformer架构模型OpenAl-al/al2015 Resnet效率与成本双突破随着DeepSe欧提供了一种效率训的方法,同等·D对强化学习的创使用。可以让大模型便捷的获得中国A公司首欢以关键创新贡献者的身份加入到全球通用性+专用性。可以满足各应用场景需求·在克争背景下,头玩家仍将追逐Scaling Law,坚定DS对通过从模型结构到训推全流程的极数工程优化。A慎力的战略投资。加速探家下一代A肢术大幅提升A的计算效率。提升横型落地经济性重新思考中美技术路线的选择HUAWEIDeepSeek V3:实现极致性能,稀疏MOE提质降本低成本完美对标OpenAl O1,突破精确语义理解及复杂推理任务DeepSeek-V3是一款MoE模型,总参数量671B,激活参数量37B,采用2048张H800(节点内NVLink,节点间IB,非超节点架构)在14.8 T token数据集上基于自研HA-LLM训练系统总训练了1394h(58.08天)低成本性能优技术创新绕过CUDA挖掘FP8硬件潜力,MOE数学、科学和代码等领域领先业界,硬件级、算法级、架构级。、工程级。开和MLA技术实现不到10%的成本方案成为业界公认的LLM的领先模型源生态5大技术创新,轰动全球绕过GUDA进行PTX编程~150M$5.57M$硬件级优化计算与通信优化,性能升30%Lama3.1-405B练DeepSeek-V3i训l算法革命GRPO:群体进化的智慧筛选器自我验证机制:A的错题本系统混合专家模型的“智能路由器“多头潜在注意力MLA:空间压缩术训陈框架速:16到3的量化压缩,工程奇迹通信降低B9%推理加速:预加战,动态批处理等开源生态模型、,数据、工具链部署全开源DeepSeek-R1推理成本仅为OpenAl o1的3%来源:DeepSeek型测试数据&互联网蒸馏技术使能第三方模型性能HUAWEIDeepSeek R1:在Reasoning任务达到了世界水平((OpenAl-o1)DeepSeek-R1技术路线Rl-ZereAccury-langugeV3-haseRI-ColdstartRI-ColdstartRI SFTR1-DinllModel-bated RMFigure 1 Benchmark performance of DeepScek-R1.DeepSeek-R1以DeepSeek-V3Base(671B)为基础模型,使>以2阶段SFT+2阶段RL完成,从而解决R1-Zero可读性差、多种用GRPO算法作为RL框架来提升Reasoning性能语言混给问题本次开源同时发布了6个基于DeepSeek-R1蒸馏的更小稠密模型(Qwen/LLaMa 1.5B 7B 14B 32B 70BHUAWEIDeepSeekV3模型架构:Multi-Head Latent Attention (MLA)1.推理阶段理论上可以将V Cache降低1~2个数量级,大幅减沙HBM存取和通信的研销.影响2对昇腾更亲和,大幅降低对HBM依赖,提升推理Decode性能MLA架构具体实现”张量低秩压缩以降低KV Cache资源开销:相比于传统MHA,MLA通过降维口只需存储超中的cK即可;操作使得存储的张量维度大幅减小。(下图中仅红色阴影部分需要存储)口考虑到矩阵乘法结合律,具体实现过程中Ww可以与W融合、W可以与W融合,从而无需为每个queryi计算key-value值.Multi-Head AttentionMulti-Head Latent AttentionRoPE获得粒置信息;3)使用MHA计算得野到输出.实验结果Attention MechanismKV Cache per Token (Element)Multi-Head Attention (MHA)Shotsw MHAw/MLAw/MHAw/MLAGrouped-Query Attention (GQA)24BMulti-Query Attention(MQA)Total P'arame24MLA (Ours)BBH (EM)3-shot79575C.Eval (Acc)52353.407MTP:Multi-Token Prediction多token预测提升模型效果CACG-RtTOom·每个MTP横块共享嵌入层和输出头Block·多个MTP横块串联保持完整的因果关系链②训练策略·多个TP横块的损失函加权平均得到最终训炼目标Figure 3 lllustration of our Multi-Token Prediction (MTP)implementation.We keep thecomplete causal chain for the prediction of each token at each depth.③关键作用·提升批训炼数据的使用效率,强化训陈信号·优化横型达能力,提升nex-token的预测效果·可参考投机采样改造MTP模块。加推理效率MTP模块仅在训练中使用。提升模型训练效果。推理阶段可以不使用MTP模块。基础模型能够独立亮成证常推理发现HUAWEIDualPipe:双流并行优化计算和通信,All-to-AIl通信开销接近0Device 1Device 2Device 3Figure 4 Overlapping strategy for a pair of individual forward and backward chunks(theDevice 4boundaries of the transformer blocks are not aligned).Orange denotes forward,green denotesDevice 5backward for input",blue denotes "backward for weights",purple denotes PP communication,Device 6and red denotes barriers.Both all-to-all and PP communication can be fully hidden.Device 7 10 11Time①细粒的计算通信行Figure 5 Example DualPipe scheduling for 8 PP ranks and 20 micro-batches in two directions.·过细粒度的拆分和偏排之后。计算流和通信流的ae好可以重叠The micro-batches in the reverse direction are symmetric to those in the forward direction,sowe omit their batch ID for illustration simplicity.Two cells enclosed by a shared black borderhave mutually overlapped computation and communication.②双向管道调度减沙PP中的气泡MethodBubbleParameterActivation1F1B1×PpZBIP1×PP+1·双向曾道训炼,需要存两份参数来进行训炼(Parameter2x)关键参考DualPipe技术,基于MindSpeedi训练加速框架以及异腾硬件特性,针对启示性地设计高效率流水并行技术,提升整体训博性能·模型总参数量671B,每个卡上4个routed e以pert对应26.8B,同时考虑到PP-16和FP8量化,每个卡上显存占用为1.675GBHUAWEIDeepSeek通过从模型结构到训推全流程的优化,带来大模型新范式DeepSeekV3/R1,大幅提升从训练到推理的计算效率,降低模型创新及应用落地的门槛模型结构优化计算通信优化后训练优化推理优化降低学习复杂度单次推理效率倍级提升AttentionMOE训练精度强化学习Token预测业界MHA/GQAGPT4FP16/BF16分姐共减少缓存1前1后单流水LLM大模型16专家选2MLADeepSeekMoE更稀疏256选8+1双向流水并行新老策路组队评估DeepSeek低秩压缩减少缓存核心压缩KVCache计算量减少35%模型容量提升3倍计算与通信极致掩盖简化强化学习流程一次预测路个token收益效果降低内存90%平衡训练效率与计算量减少70%减少50%PP气泡降低后训练复杂度推理倍级提升支持更高并发数值精度HUAWEI大模型从技术摸高走向技术摸高+工程创新并行,训练需求持续增长①技术摸高:头部玩家将战略坚定投入预训练基础模型创新,丰富模型组合,追逐Scaling Law,加速探索AGl②工程创新:新的范式降低后训练和蒸馏门槛,模型效果大幅提升,出现平权现象,引发新一波的“百模干态”训练算力需求(PFLOPS)技术摸高关注高效、稳定、开放的底座新一轮技术竞争·极致性能、稳定可靠的A集群GPT-5深度开放的平台和生态极致的端到端性能效率优化工程创新DeepSeek-V3-671BDeepSeek-R1-671BDeepSeek-R1-Distil-Qwen-32B关注便捷、易用、性价比的平台DeepSeek-R1-Distil-Qwen-15B开箱即用的强化学习套件GBERT-Lange●兼倾成本与性能的蒸馏/微调方案便捷的部曙、敏捷业务上线201220132014201520162017201820192020202120222023202420252026训练的算力需求将特续增长,算力结构从“预训练为主”走向“预训练+后训练/二次训练”HUAWEIDeepSeeki能力提升成为各行业生产力工具,加速推理落地干行百业DeepSeek催熟大模型落地技术,降低推理部署门槛开箱即用的一体机,加速大模型应用落地TO BE交通油气少量行业据大量行业超云服务硬件+社区一体机化学习更多行业华为云Hugging行业大型魔乐社区东云算法依赖降低部署更高效均已支特DeepSeek月级调优今周/天级优化硬件+开源模型+RL套件+SV/云,商业模式逐渐诚熟HUAWEIDeepSeek模型发布即支持昇腾推理,各行业已基于昇腾快速上线最新DeepSeekV3/R1/月anus-Pro及6个蒸馏模型DeepSeek发布两周,3大社区全系列模型上线基于昇腾开箱即用,配版本已上线各大开源社区40+客户/伙伴基于昇腾已上线,15+测试钟(预计两周内全部上线)硅基流动讯飞测试中电信天翼云联通云运营商移动云已上钱DeepSeek R1-Distl-Lama-8B南京、福建、新江移动已上线北京银行广大证券DergSerk-R1国计民生行业服务平台招行测试中工行测试中太保测试中HUAWEI昇腾DeepSeek一体机:大吞吐+高并发,加速行业模型落地金融电力交通教育油气制造文本创作开发板营们文案个人文相分析模型数:671B+满血版模型袋数:70B模型数:14B/32B模型袋数:7B/8B/14B模型数:1.5BDoepSeek-R1+Distll-Uama+708DoepSeel-R1-DistllQwon328DoepSeek-R1-Distll-Qwon148Decp Seele-R I-Distll-Uama+88DeepSoek-R1-DstlbQwen1.58Atlas 8001 A2Atlas 300V(1024GB)(512GB)256GB)Atlas 3001 Duo191113HUAWEIDeepSeekV3/R1及蒸馏模型,昇腾DeepSeek一体机推荐配置模型集合模型名称参数产品配适系统吞吐并发用户数token/sDeepSeek-V3DeepSeek V3671BINT81024GB1911192DeepSeek-R1DeepSeek-R1671BINT81024GB1911192DeepSeek-R1-Distill-Llama-70B70BINT8Atlas 8001 A2512GB3300165DeepSeek-R1-Distill-Qwen-32B32BINT8256GB4940247DeepSeek-R1256GB7500300蒸馏模型DeepSeek-R1-Distill-Qwen-14B14BINT81*Duo 96GB PCIE73080DeepSeek-R1-Distill-Llama-8B8BINT81*Duo 96GB PCIE956115DeepSeek-R1-Distill-Qwen-7B7BINT81*Duo 96GB PCIE956115DeepSeek-R1-Distill-Qwen-1.5B1.5BINT8Atlas 300V1*300V 24GB PCIE43216HUAWEIO NT E NTSDeepSeeki洞察及昇腾适配进展2华为昇腾AI基础软硬件介绍目录HUAWEI
请如实的对该文档进行评分-
-
-
-
-
0 分