以技术突破与行业落地,推动算力从“基础支撑”向“价值引擎”跨越

责任编辑:lijing

2025-09-05 13:51:45

摘自:msup

未来,随着MoE模型、智能体技术的持续演进,AI算力将面临“更大规模、更优效能、更绿色低碳”的挑战,但同时也孕育着更大机遇 —— “算力的竞赛本质是创新力的竞赛”。百度智能云将与产业链伙伴共同构建算力生态,让算力真正成为企业智能化转型的“核心引擎”,推动数字经济高质量发展。

2025年8月29日,百度智能云主办,msup协办的“AI+算力平台专题论坛”在国家会议中心召开。本次论坛以“打造面向未来AI计算架构”为核心议题,汇聚百度智能云、英特尔、格灵深瞳、汽车之家等企业的技术专家与业务负责人,深入剖析AI算力技术前沿趋势、超大规模集群建设实践,以及算力在多行业的落地应用,共同勾勒出AI算力从“基础支撑”向“价值创造引擎”跨越的清晰路径。

当前,随着大模型向MoE(混合专家系统)架构演进、智能体应用规模化落地,AI算力需求正从“单一性能追求”转向“高效调度、弹性适配、绿色低碳”的综合诉求。论坛现场呈现的技术突破与实践案例显示,AI算力已不仅是技术创新的“幕后推手”,更成为企业突破业务瓶颈、抢占智能时代先机的核心竞争力。

AI 算力发展:架构突破、效能跃升、生态协同

AI算力正经历从“资源供给”到“创新支撑”的关键转变,其发展核心围绕三大方向展开:全链路效能提升、架构适配性突破、产业生态协同深化。

效能提升是算力落地的关键命题。论坛上,百度智能云基础公有云部总经理孟宪军表示,百度智能云已实现两大突破:一是发布百度百舸AI计算平台5.0,同步上线昆仑芯超节点,推理性能较传统架构大幅提升,可有效缓解大模型训推的算力缺口;二是在具身智能、互联网等领域实现高渗透率,为10余家头部企业提供万卡规模集群交付,支撑智能客服、推荐系统等场景实现“质的飞跃”。

 

百度智能云基础公有云部总经理 孟宪军

从技术底层看,大模型架构的迭代是驱动算力革新的核心动力。百度智能云AI计算首席科学家王雁鹏指出,MoE架构已成为主流趋势 —— 相比传统稠密模型,MoE通过“扩大参数量但控制计算量”的逻辑延续Scaling Law(缩放定律),但也带来了参数量激增、通信占比提升的新挑战。

生态协同则体现在“软硬一体”与“跨行业合作”两方面。英特尔等合作伙伴的参与,形成了从芯片、计算平台到行业应用的完整链条。正如孟宪军所言:“AI 算力的价值不仅在于硬件堆叠,更在于构建‘高效算力+工程体系+产业实践’的创新底座,这需要产业链各方共同探索。”

从“单一算力供给”到“全栈算力生态”的技术升级

论坛聚焦百度智能云在算力基础设施领域的全栈创新,尤其是百度百舸5.0的技术突破与实践落地,为行业提供了可复用的解决方案。王雁鹏在《AI基础设施新范式,百度百舸5.0技术深度解析》中,详细拆解了百舸5.0的核心升级方向。针对当前算力场景“训练与推理混合、中心云与边缘云协同、Dense与MoE 模型并存”的特点,百度百舸5.0构建了三大能力:

 

百度智能云AI计算首席科学家 王雁鹏

首先是实现资源的高效调度,百度百舸支持数百个SFT(有监督微调)任务同时运行,从而达成中心云与边缘云算力的一体调度及强化学习训推一体部署,显著提升资源利用率;其次,百度百舸5.0拥有全生命周期支持能力,从AI开发、训练到推理的全流程提供工具链支撑,比如针对MoE模型的分布式并行策略,可依据MLP大小、Attention规模动态调整TP(张量并行)切分方式,实现“混合并行”适配。

第三,百舸5.0还具备性能极致加速能力,在FP8精度优化上,通过分阶段量化策略解决 Loss发散问题,结合算子融合与通信优化使整体训练效率提升30%,在推理场景中,借助PB分离(Prefill 与 Decode 分离)、VIT 分离等架构优化,实现16K上下文输入0.5 秒首token响应、128K输入3秒响应,满足在线业务低延迟需求。

此外,昆仑芯的突破成为国产算力的重要亮点。王雁鹏表示,百度已建成3万卡规模的国产芯集群,通过解决“扩展性、稳定性、精度”三大挑战,使昆仑芯成为可训练先进大模型的国产芯片。例如,昆仑芯P800凭借独立张量核心与向量核心架构,可实现通信与计算并行,MoE推理效率达行业领先水平;32卡全互联的昆仑芯超节点,在易用性(无需机房改造)、成本(与8卡机器接近)与性能(训推效率提升 30%-100%)间实现平衡,成为MoE模型的理想载体。

软硬协同与全产品矩阵:百度智能云的算力生态构建

在软硬协同的大背景下,百度智能云不仅在硬件适配方面不断优化,在云产品技术层面更是持续创新。百度智能云的全新云产品整合了前沿技术,旨在为用户提供更高效、更智能、更便捷的云计算服务。百度智能云技术委员会联席主席郑然在《AI原生云再进化:百度智能云全新技术与产品全景解读》中,进一步展示了算力生态的“全产品支撑”。除百舸平台外,百度智能云在计算、存储、网络三大领域同步升级:

计算领域:发布机柜式超节点(UltraServer),实现32卡高速互联,MoE性能较传统单机8卡提升50%;基于太行DPU技术,GPU虚拟机性能无限接近物理机,同时推出弹性临时盘,兼顾本地盘性能与云盘扩展性;

存储领域:沧海存储针对AI Workload优化,支持分布式KV Cache、异步CKPT读写,对象存储开放Pytorch/Ray SDK,数据预处理效率得以提升;统一存储底座实现块、对象、文件存储的协同,元数据系统性能入选SOSP 25大会论文;

网络领域:针对MoE动态通信需求,优化HPN网络带宽20%,通过弹性RDMA技术实现KV Cache传输与计算隐藏,同时构建“Overlay + 物理网络”全链路监控,故障定位效率大幅提升。

 

百度智能云技术委员会联席主席 郑然

总之,生成式AI时代的算力生态,需要“计算 - 存储 - 网络”的深度协同,百度智能云通过全栈技术创新,让算力从“可用”走向“好用”,支撑企业应对大模型与智能体的复杂需求。

在AI基础设施的搭建中,硬件算力的支撑至关重要。作为百度智能云重要的合作伙伴,英特尔从面向终端与边缘的AI算力需求酷睿Ultra处理器,到面向通用服务器承载AI大模型的至强处理器,再到针对中等规模AI负载的锐炫系列显卡,最终延展至专为生成式AI定制的高性能Gaudi-2E AI加速器,构建出覆盖从低并发到高并发、从边缘到云的完整AI算力图谱。

 

英特尔数据中心客户软件工程部总监 汪洋

论坛上,英特尔数据中心客户软件工程部总监汪洋详细介绍了Gaudi2E AI加速器,专为生成式AI设计,支持96GB HBM显存,单机可部署DeepSeek 671B满血版模型,性价比大幅度领先同类产品;推理性能优异,支持延迟敏感,高并发高吞吐等多种实时/离线推量场景的需求,即将在百度智能云千帆大模型平台上线。

超大规模算力集群 从建设到提效的实操路径

论坛不仅聚焦技术突破,更以业务实践为锚点,将 AI 基础设施落地之路,按建设规划、使用提效、运维运营等环节层层拆解,深挖各环节的核心挑战和解法思路,为企业打通算力落地的关键堵点,提供全周期实操路径。

 

百度智能云混合云部总经理 杜海

百度智能云混合云部总经理杜海以《超大规模集群建设:极致释放算力效能》为题,分享了超大规模算力基础设施的建设挑战与解决方案。依托于此方案,百度智能云落地的 3.2 万卡全国产智算集群去的三大行业突破:万卡集群有效训练率 98%、PUE 1.199、并获得万卡规模智算集群服务稳定性的五星级认证。

其核心实践包括:

AIDC 部署与算能协同优化:采用“度冰川+度灵溪”分布式制冷架构,结合液冷技术解决高功耗散热难题;引入“一体化+储能”供电体系,绿电直供降低能耗;创新“向心布局”,控制算力节点到网络核心的延迟波动;

跨园区组网突破:通过自研高性能交换机与RDMA协议优化,实现150公里跨园区长传,大模型训练性能损耗控制在3% 以内;采用二层多平面组网与自适应路由技术,集群规模可扩展至13万卡,吞吐性能提升20%;

训练与推理提效:在基础设施层面,通过新一代智算底座进一步提升单节点与集群的吞吐效率;在资源管理与控制面进行针对性优化,有序支撑上万节点,高效调度算力资源;基于模型特点(如 MoE 模型),通过并行策略匹配、PD 分离部署、All-to-all 算子优化等多种手段,实现训练和推理场景的大幅性能提升;

运维与安全体系:构建从故障感知+自动处置+全局可观测”的运维体系,通过全链路软硬件质检监控体系可识别280余种GPU故障,故障召回率98%;借助端到端一站式运维管理平台,实现全路径的资源管理、监控,以及对任务故障的快速定位和修复。

杜海表示:在算力跨越式增长的当下,既要把算力建好,更要把算力用透。百度智能云混合云已经打造并运营了多个千卡、万卡规模的智算实践案例,希望与更多的伙伴共同迈入超大规模 AI 基础设施从“优质建设”到“高效使用”的新征程。

从“技术探索”到“行业落地”的实践指南

在不同行业中,AI技术的应用在不断深入与细化。计算机视觉领域、汽车行业等都在积极拥抱AI技术,实现智能化转型。格灵深瞳、汽车之家等企业代表分享了算力落地的标杆案例,展现 AI 算力的产业价值:

在世界模型(World Model)成为全球AI研究新焦点的背景下,格灵深瞳技术副总裁冯子勇、算法研究院院长阐述了视觉理解在这一技术演进中的核心地位。他指出,世界模型需要对环境进行感知和认知,而视觉是人类与外界交互的主要信息来源,因此强大的视觉编码能力是世界模型准确理解现实世界的基石。

 

格灵深瞳技术副总裁、算法研究院院长 冯子勇

冯子勇分享了格灵深瞳自研视觉基础模型Glint-MVT的发展脉络和技术亮点。该模型通过 “基于间隔的Softmax损失函数”“多标签训练” 等创新,在检测、分割、VLM(视觉语言模型)等任务中表现优于CLIP、SigLIP等主流模型。其训练过程中,借助百度百舸平台实现多模态数据高效拼接,训练效率提升3倍,助力Glint-MVT 快速迭代至v1.5版本,未来将进一步支持视频与图像统一编码。

除了计算机视觉领域之外,汽车行业也正经历着快速的智能化转型。面对通用大模型在垂直领域存在的知识幻觉、业务理解浅层和缺乏行动能力三大痛点,汽车之家算法平台部马宝昌分享了其行业大模型的“精耕”实践。基于汽车行业20年的数据积累,汽车之家构建了百万量级、准确率超99.5%的行业知识图谱,为模型提供了精准可靠的领域知识底座。

 

汽车之家算法平台部底层算法团队负责人 马宝昌

马宝昌表示,基于百度百舸平台,汽车之家搭建了“仓颉大模型平台”,采用“增量预训练+强化学习”的路径,创新性地将用户行为反馈、知识图谱校验和多模型协同评估融合为综合奖励函数(Reward),指导模型在保持事实准确性的同时提升生成内容的转化效果。在百度百舸的算力支撑下,汽车之家实现三大突破:一是模型后训练效率和参配问答准确率的提升;二是构建层次化评测体系,解决通用大模型“答非所问”问题;三是通过强化学习优化AIGC内容质量,结合知识图谱降低幻觉率。

AI 算力加速成为“普惠型生产力工具”

当今,AI 算力已不再是“少数企业的专属资源”,而是通过架构优化、成本控制、生态协同,逐步成为千行百业可复用的生产力工具。百度智能云的全栈算力体系(百度百舸 + 昆仑芯 + 全产品矩阵),英特尔的硬核算力支撑,以及格灵深瞳、汽车之家的行业落地,共同验证了算力“从技术到价值”的转化路径。

未来,随着MoE模型、智能体技术的持续演进,AI算力将面临“更大规模、更优效能、更绿色低碳”的挑战,但同时也孕育着更大机遇 —— “算力的竞赛本质是创新力的竞赛”。百度智能云将与产业链伙伴共同构建算力生态,让算力真正成为企业智能化转型的“核心引擎”,推动数字经济高质量发展。

链接已复制,快去分享吧

企业网版权所有©2010-2025 京ICP备09108050号-6京公网安备 11010502049343号