当前位置:首页 > 站长资讯 > 正文内容

摩尔线程发布 Torch-MUSA v2.7.0

a811625533个月前 (11-28)站长资讯5

近日,摩尔线程正式推出 PyTorch 深度学习框架的 MUSA 扩展库新版本——Torch-MUSA v2.7.0。此次更新在功能整合、性能调优以及硬件适配方面实现了多项重要进展。

自v2.5.0版本起,Torch-MUSA 的版本号已与 PyTorch 主版本保持一致,方便开发者更直观地进行版本匹配与管理。本次v2.7.0版本进一步集成了muSOLver与muFFT等高性能计算库,显著提升了复杂算法任务的运行效率;同时新增对统一内存设备(Unified Memory)的UMM支持,有效改善了内存资源的利用效率。

此外,新版继续保持与最新MUSA SDK的兼容性,支持使用MUSA SDK 4.2.0至4.3.0及更高版本完成编译构建。截至目前,Torch-MUSA 已实现对超过1050个专属算子的支持,在系统整体性能和稳定性方面也得到持续增强。

v2.7.0 版本核心更新亮点

新增功能

  • 动态双精度转换(Dynamic Double Cast

通过设置环境变量 export TORCH_USE_MUSA_DOUBLE_CAST=1,用户可启用 Float64 类型算子的动态降级机制,torch_musa 将自动采用 float32 进行实际计算,提升运算速度。

  • 分布式检查点(Distributed Checkpoint)

支持多 rank 并行加载与保存模型状态,大幅缩短检查点操作耗时。当前已实现分布式检查点的异步保存能力,进一步提升训练流程效率。

功能升级

HARPA AI

浏览器插件,chatgpt自动化助手,将Chatgpt集成到谷歌搜索

下载
  • 新增 Poisson、binomial、_standard_gamma、_sample_dirichlet、vdot、upsample(1d/2d/3D/with aa)、flash_attention、transformer_encoder_layer 等多个常用算子,MUSA专属支持算子数量突破1050个
  • 基于PyTorch底层架构升级,强化 torch.compile 与 AOTInductor 功能支持;
  • 默认开启 TF32 计算模式,加快浮点密集型运算;
  • 升级性能分析工具 Kineto 至 2.7.0 版本,提升其运行稳定性;
  • 持续优化 FSDP2 流水线并行策略,进一步减少显存占用。

v2.5.0 版本关键更新回顾

新增特性

  • 集成 muFFT 与 muSolver 加速库,显著扩展科学计算与工程仿真场景下的应用能力;
  • 在面向边缘计算的 SoC 平台上引入统一内存管理支持,基于 arm 架构的 UMA(统一内存寻址)设计,实现 cpu 与 GPU 共享物理内存空间,带来以下优势:
    • 避免 GPU 端重复分配内存;
    • 减少主机与设备间的冗余数据拷贝;
    • GPU 可直接访问由 CPU 内存分配器提供的地址空间。

算子拓展与性能改进

  • 新增 ilshift、irshift、replication_pad1d_bwd、angle、ctcLossTensor、ctcLossTensorBwd、logit、amin/amax/prod.dim_int、glu_bwd 等多个算子支持;
  • 初步支持基础 Sparse(CSR) 相关操作;
  • 扩展量化算子覆盖范围;
  • 修复 torch.norm 存在的输出形状错误问题;
  • 支持 reduce_sum 接收 uint8 输入并输出 int64 结果;
  • C++ 扩展中新增 tensor.is_musa() *** ;
  • 修正空输入情况下 argmax/argmin 的异常行为;
  • 对 var/std、pad、convolution3d、layer_norm 等关键操作进行性能优化。

系统能力增强

  • 开放 torch.musa.mccl.version() 接口,便于查看通信库版本信息;
  • 支持 getCurrentMUSABlasHandle 与 getCurrentMUSABlasLtHandle 调用;
  • 优化 FSDP2 流水线并行机制,降低训练过程中的内存开销。

未来,Torch-MUSA 将持续跟进 PyTorch 官方版本演进节奏,计划下个版本将支持 PyTorch 2.9.0,并持续推进性能调优与功能完善,致力于打造更加成熟、高效的基于 MUSA 架构的国产全功能GPU深度学习生态体系。

源码地址:点击下载

扫描二维码推送至手机访问。

版权声明:本文由2345好导航站长资讯发布,如需转载请注明出处。

本文链接:http://www.2345hao.cn/blog/index.php/post/36276.html

分享给朋友:

“摩尔线程发布 Torch-MUSA v2.7.0” 的相关文章

高强度竞争领域注定容不下安逸,等待敲锣的协和电子正走在掉队的路上?

高强度竞争领域注定容不下安逸,等待敲锣的协和电子正走在掉队的路上?

  扎根印制电路板技术研发二十年,专注于汽车电子、高频通讯等中高端领域的协和电子(605258)本周启动招股,下周四(11月19日)即将网上申购。   多年的沉淀,令其收获了一批优质客户。不过随着行业规模增长放缓、各类成本抬升以及行业龙头集中度提高,协和电子往日优势逐渐消退,利润水平也逐年降低,此...

手握采购、研发、销售三条“命脉” 谁是操控创耀科技命运的神秘“公司A”

手握采购、研发、销售三条“命脉” 谁是操控创耀科技命运的神秘“公司A”

  1947年,美国贝尔实验室的威廉.肖克利和他的两位助手布拉顿、巴丁,研制出了世界上第一只晶体管,为集成电路产业打开时代大门,也造就了现代信息社会的根基――“芯片”。   但是现代信息社会并不能避不开国与国之间的问题。   “芯片强则产业强,芯片兴则经济兴,没有高端芯片就没有真正的产业安全和国...

威腾电气IPO观察:自夸“头部企业”被打回原形 拿投资者4个亿只为“试试水”?

威腾电气IPO观察:自夸“头部企业”被打回原形 拿投资者4个亿只为“试试水”?

  威腾电气,一家缺乏科创属性、爱夸夸其谈还带着问题供应商的公司,正在冲击科创板市场。   2021年1月14日,以输配电中母线产品研发、制造及销售为主业的威腾电气,正式通过上市委会议,距离科创板上市又近了一步。   但这对投资者而言,可能并不是一件好事。   由于身在传统电力行业,科研步伐又...

崧盛股份:头部玩家红利、前瞻布局两大风口 2021Q1营收、净利同步飙升1.6倍只是开端?丨

崧盛股份:头部玩家红利、前瞻布局两大风口 2021Q1营收、净利同步飙升1.6倍只是开端?丨

  LED植物照明驱动电源第一股崧盛股份,即将亮相创业板资本市场。   2021年5月17日,深圳市崧盛股份披露《首次公开发行股票并在创业板上市招股意向书》及《初步询价及推介公告》等材料,启动IPO招股,距离正式登场仅剩一步之遥。      图/Wind   崧盛股份本次IPO拟募资4.59...

严牌股份:技术、规模、销售优势渐起 又于行业机遇中募资扩产 能否开启第二增长曲线?丨

严牌股份:技术、规模、销售优势渐起 又于行业机遇中募资扩产 能否开启第二增长曲线?丨

  作为国内“过滤分离”材料主要供应商之一的严牌股份,正在做创业板资本市场的最后冲刺。   2021年5月14日,专注于环保过滤材料的研发、生产和销售业务的严牌股份,向交易所递交了上市注册稿,距离登陆公开资本市场又近了一步。公司此次IPO拟募资5.9亿元,其中2.33亿元将投入高性能过滤材料生产基...

每日优鲜:资不抵债赴美上市 首发出局还是暴打华尔街韭菜?|

每日优鲜:资不抵债赴美上市 首发出局还是暴打华尔街韭菜?|

  有人盯紧我们的菜篮子,也有人盯上我们的菜篮子。   作为社区买菜的“吃螃蟹的人”,每日优鲜正在抓紧在美股IPO冲刺,与友商“叮咚买菜”争夺第一家上市的社区电商,这个虚幻的ID。   报表烧穿,血快流干   初创公司烧钱是一种常态,互联网企业为了获得用户基数,又格外烧钱。烧钱的目标最终还是为...