您的位置: app科技网 > 国内 > 正文

阿里云PAI发布DeepRec Extension,打造稳定高效的分布式训练,并宣布开源!

2024-05-23来源:网络阅读: 1730

近日,阿里云人工智能平台PAI正式发布自研的 DeepRec Extension(即 DeepRec 扩展),旨在以更低成本,更高效率进行稀疏模型的分布式训练。DeepRec Extension 在 DeepRec 训练推理框架之上,围绕大规模稀疏模型分布式训练,创新性地从训练任务的视角提出了自动弹性训练和分布式容错功能,进一步提升稀疏模型训练的整体效率,助力 DeepRec 引擎在稀疏场景中发挥更大的优势。

DeepRec Extension 有效地解决了企业级场景大规模稀疏模型训练中的难点。随着业务发展,模型尺寸增长到百 GB / TB 量级,分布式训练往往会遇到分布式建模接口复杂、资源预估困难且无法弹性、分布式容错机制过于简单和分布式环境复杂等问题,阻碍大尺寸模型高效、稳定地完成训练。DeepRec Extension 提供易用、高效、高性价比的框架,使得模型能够便捷地在分布式环境中运行,切实解决上述问题

DeepRec Extension 设计思路及整体架构

DeepRec Extension 推出分布式训练资源预估、自动弹性训练、资源/计算图监控、自动备份容错等功能,有效降低了大规模稀疏模型训练的技术门槛和成本,同时提升了分布式训练的效率和稳定性。DeepRec Extension 简化分布式训练的工作流程,保障用户聚焦于模型的构建阶段,更加专注于模型本身的创新与优化,无需关注繁琐的底层架构配置。在性能提升方面,资源预估以及自动弹性训练为用户节约 20% ~ 60% 资源,在稳定性方面,PS 发生异常后,模型 E2E 训练吞吐提升 10%。

一直以来,大规模稀疏模型分布式训练是备受关注的话题,阿里云人工智能平台PAI正式将 DeepRec Extension 开源,与AI开发者共同打造更快更好的分布式训练框架,全面助力AI大模型发展!

开源地址:https://github.com/DeepRec-AI/extension

滚动推荐
2024-03-25唯时间不负高雅丨新奥迪A8L Horch 创始人版60TFSI 磅礴上市
唯时间不负高雅丨新奥迪A8L Horch 创始人版60TFSI 磅礴上市...[详细]
2024-06-05阿勒泰市森林消防大队多措并举抓实车辆安全工作
阿勒泰市森林消防大队多措并举抓实车辆安全工作...[详细]
2024-09-18蛙先生“江西辣”牛蛙开启10周年庆,解锁国风“新玩法”
蛙先生“江西辣”牛蛙开启10周年庆,解锁国风“新玩法”...[详细]
2024-06-13木材经营加工网:邹先生引领下的木材行业新纪元!
木材经营加工网:邹先生引领下的木材行业新纪元!...[详细]
2023-11-30金鑫新能:储能技术助力新能源发展,开启绿色能源新时代
金鑫新能:储能技术助力新能源发展,开启绿色能源新时代...[详细]
2023-12-06南京瑞控电气 鲁家银:我用岁月 换你新生
南京瑞控电气 鲁家银:我用岁月 换你新生...[详细]
2024-04-29《城中之城》展现商战残酷面,天眼查助力信贷尽调洞察风险
《城中之城》展现商战残酷面,天眼查助力信贷尽调洞察风险...[详细]
2024-04-23世界金控助力集群e家美国上市壳公司并购启动会于上海证券大厦总部隆重举行,共谋集群美国资本市场上市大计
世界金控助力集群e家美国上市壳公司并购启动会于上海证券大厦总部隆重举行,共谋集群美国资本市场上市大计...[详细]
2024-06-21预算30万选购合资四驱SUV ,汉兰达、陆放、锐界L谁更适合出来野?
预算30万选购合资四驱SUV ,汉兰达、陆放、锐界L谁更适合出来野?...[详细]
2024-04-23文献速递∣宣肺败毒颗粒治疗慢阻肺又出新证据!
文献速递∣宣肺败毒颗粒治疗慢阻肺又出新证据!...[详细]