近日,百度智能云成功点亮昆仑芯三代万卡集群,这也是国内首个正式点亮的自研万卡集群。据悉,百度智能云将进一步点亮3万卡集群。这一重大突破标志着百度在人工智能算力领域迈出了坚实的一步,不仅为百度自身的技术发展提供了强大动力,也为整个中国科技界、互联网行业和AI行业带来了新的发展机遇。
万卡集群优势凸显,助力算力突破与成本优化
万卡集群的建成不仅为百度带来了强大的算力支持,还推动了模型降本的趋势。在过去一年中,整个行业都在努力降低大模型的使用成本,而算力紧张是导致成本居高不下的重要因素之一。百度通过自研芯片和大规模集群的建设,不仅解决了自身算力供应的问题,还为整个行业提供了新的思路和方向。
从算力上看,超大规模并行计算能力可实现训练效率跃升,万卡集群可将千亿参数模型的训练周期大幅降低,满足AI原生应用快速迭代的需求。同时也能支持万亿参数模型、复杂任务和多模态数据,支撑Sora类应用的开发。此外,万卡集群能够支持多任务并发能力,通过动态资源切分,单集群可同时训练多个轻量化模型,通过通信优化与容错机制减少算力浪费,实现训练成本指数级下降。
随着国产大模型的兴起,万卡集群逐渐从“单任务算力消耗”到“集群效能最大化”过渡,通过模型优化、并行策略、有效训练率提升、动态资源分配等手段,智能调度任务,将训练、微调、推理任务混合部署,从而提升集群综合利用率,降低单位算力成本。
百舸赋能,全方位提升集群性能与稳定性
过去,多芯混训和激增的故障率等难题,成为万卡集群部署过程中的巨大挑战。而24年9月升级的百度百舸AI异构计算平台4.0,在万卡集群的建设中发挥了至关重要的作用。
首先,突破硬件扩展性瓶颈,如卡间互联的拓扑限制,避免通信带宽成为瓶颈;同时,围绕芯片及集群功耗,基于万卡规模常规方案功耗可达十兆瓦或更高,采用创新性散热方案,从而解决万卡集群的能效与散热问题;完善模型的分布式训练优化,采用高效并行化任务切分策略,训练主流开源模型的集群MFU提升至58%;在提升稳定性方面,提供容错与稳定性机制,避免由于单卡故障率随规模指数上升而造成的万卡集群有效性大幅下降,保障有效训练率达到98%;最后,针对机间通信带宽需求,建设超大规模HPN高性能网络,优化拓扑结构,从而降低通信瓶颈,带宽有效性达到90%以上。#65279;
日前,花旗银行发布研报表示,DeepSeek、百度等中国模型展现出高效和低成本优势,将有助于加速全球AI应用开发,并在全球引发更多技术创新,推动2025年人工智能应用的拐点。中国工程院院士、清华大学计算机系教授郑纬民也表示,当下构建国产自主万卡系统充满挑战,但"至关重要"。
声明:本网转发此文章,旨在为读者提供更多信息资讯,所涉内容不构成投资、消费建议。文章事实如有疑问,请与有关方核实,文章观点非本网观点,仅供读者参考。
上一篇:松下考虑出售电视业务重组集团以聚焦增长领域...
下一篇:返回列表
新年伊始,在估值攀上3400亿美元的新*后,OpenAI也辞旧迎新,更换了新...
2025-02-09 15:34:39
直升机、航天遥感相机、智能手机、笔记本电脑……从国之重器到智能电子设备,金属...
2025-02-09 13:47:51
2月8日,星纪魅族官宣FlymeAIOS已完成DeepSeek-R1大模型接...
2025-02-09 13:38:18
2025年1月,特色咖啡品牌Chelvies正式对外宣布,其已成功获得100...
2025-02-09 12:19:31
2025年2月8日,长城汽车哈弗品牌总经理赵永坡宣布将同时负责哈弗和欧拉两个...
2025-02-09 12:01:24
当前,我国消费呈现出向发展型、享受型、品质型消费快速升级的趋势,消费者更加注...
2025-02-09 11:25:10
广西规划许可审批较法定办结时限提速76% ,该厅连续三年以“双随机、一公开...
2025-02-09 10:26:39
11月19日至21日,以“在新时期实现零售的进化”为主题的CCFA新消费论坛...
2025-02-09 09:37:48
标点财经、投资时间网研究员卓玛 《封神第二部:战火西岐》是目前春节档影片票...
2025-02-09 08:51:16
12月14日,由内蒙古自治区人民政府驻上海办事处主办的全方位建设模范自治区暨...
2025-02-09 08:11:25