在日前举行的2024百度云智大会上,百度方面宣布带来升级后的百舸AI异构计算平台4.0、千帆大模型平台3.0两项AI基础设施,并升级代码助手、智能客服、数字人三款AI原生应用产品,旨在帮助企业更快、更好、更省地使用大模型。对此百度智能云事业群总裁沈抖表示,大模型以及配套的算力管理平台、模型和应用开发平台,正在迅速成为新一代基础设施。
据官方透露,为满足企业落地大模型从集群创建、开发实验,到模型训练、推理的全旅程算力需求,应对超大规模GPU集群高成本、难运营两种挑战,百度智能云升级发布百舸AI异构计算平台4.0,面向万卡、十万卡集群全面升级算力管理能力。
具体而言,在集群创建阶段,百舸AI异构计算平台4.0预置了主流的大模型训练工具,能够实现工具层面的秒级部署,并将万卡集群运行准备时间从几周缩减至1小时,极大地提升部署效率、缩短业务上线周期。在开发实验阶段,百舸AI异构计算平台4.0全新升级的可观测大盘能够对多芯适配、集群效能、任务自动容错等方面进行全方位监测,提供直观决策依据,帮助用户更好地把控整体项目。
而在稳定性方面,百舸AI异构计算平台4.0能够自动筛查集群状态,并基于对GPU故障的精准预测,及时转移工作负载,降低故障发生频次。此外百舸AI异构计算平台独有的故障秒级感知定位、Flash Checkpoint模型任务状态回滚等技术,也能够大幅减少集群故障处置时间,实现接近无损的集群容错。
据官方透露,目前百舸AI异构计算平台在万卡集群上实现有效训练时长占比99.5%以上,高于业界领先水平,极大地节约客户算力与时间成本。此外,百舸AI异构计算平台4.0通过集群设计、任务调度、并行策略、显存优化等一系列创新,大幅提升集群的模型训练效率,整体性能相比业界平均水平提升高达30%。
对此沈抖表示,“百舸AI异构计算平台4.0正是为部署十万卡大规模集群而设计的。今天的百舸AI异构计算平台4.0,已经具备成熟的十万卡集群部署和管理能力,就是要突破这些新挑战,为整个产业提供持续领先的算力平台”。
在此次活动中,百度智能云还发布了千帆大模型平台3.0。具体而言,在模型开发方面,对于需要定制、微调专属模型的客户,千帆大模型平台3.0不仅提供最完善的大模型工具链,还支持CV、NLP、语音等传统模型的开发。此外千帆大模型平台3.0可实现数据、模型、算力等资源的统一纳管和调度,为企业提供一站式的大、小模型开发服务。
而在应用开发方面,针对企业落地大模型的高频应用场景,千帆大模型平台3.0从检索效果、检索性能、存储扩展、调配灵活性四方面对企业级检索增强生成(RAG)进行全面升级。针对企业级Agent的开发,千帆大模型平台3.0增加业务自主编排、人工编排、知识注入、记忆能力以及百度搜索等80多个官方组件支持。
据官方透露,截止目前,在千帆大模型平台上文心大模型日均调用量超过7亿次,累计帮助用户精调3万个大模型,开发出70多万个企业级应用。此外在过去一年,文心旗舰大模型降价幅度超过90%。
值得一提的是,在此次活动上百度智能云方面还发布了智能化低代码应用开发平台“AI速搭”。据悉,用户通过自然语言对话就可在该平台上进行企业级应用开发,且只需一句话便可完成应用创建。