当前位置:首页 > 站长资讯 > 正文内容

Omni-Infer v0.7.0 已经发布,超大规模 MoE 模型推理加速技术

a811625533个月前 (12-12)站长资讯5

Omni-Infer v0.7.0 正式上线,带来面向超大规模混合专家(MoE)模型的高效推理加速能力。

v0.7.0

核心亮点

  • Omni Cache 新增对 MLA(Multi-Head Latent Attention)与 GQA(Grouped-Query Attention)架构的支持
  • 引入 chunk prefill 混合调度机制,实现更优的计算图融合与内存复用
  • 全面兼容 SGLang 接口协议,提升复杂推理流程的灵活性与易用性

性能提升

  • 在 2P8-1D32@A3 硬件配置下,支持 3.5K+1K 输入长度场景,Deepseek R1 实测 QPM 达 186,首字延迟(TTFT)显著优化
  • 在 2P2-1D4@A3 配置下,openPangu-72B 单卡解码吞吐峰值达 1560 TPS,平均单 Token 延迟(TPOT)表现优异

已验证模型清单

模型 硬件平台 量化精度 部署模式
openPangu-ultra-MoE-718B A3 INT8 PD分离
openPangu-Ultra-MoE-718B A2 INT8 PD分离
openPangu-72B A3 INT8 PD分离
openPangu-38B A3 INT8 混布
openPangu-38B A2 INT8 混布
openPangu-7B A3 BF16 混布
openPangu-7B A2 BF16 混布
openPangu-7BVL A3 BF16 混布
DeepSeek-R1 A3 INT8 PD分离
DeepSeek-R1 A3 W4A8C16 PD分离
DeepSeek-R1 A3 BF16 PD分离
DeepSeek-R1 A2 INT8 PD分离
DeepSeek-V3.1 A3 INT8 PD分离
DeepSeek-V3.2 A3 INT8 PD分离
DeepSeek-OCR A2 BF16 混布
Qwen2.5-7B A3 INT8 混布(TP>=1 DP=1)
Qwen2.5-7B A2 INT8 混布(TP>=1 DP=1)
QwQ A3 BF16 PD分离
QwQ A2 BF16 PD分离
Qwen3-235B A3 INT8 PD分离
Qwen3-235B A2 BF16 PD分离
Qwen3-32B A3 BF16 PD分离
Qwen3-32B A3 INT8 PD分离
Qwen3-30B A3 BF16 PD分离
Kimi-K2 A3 W4A8C16 PD分离
Kimi-K2 Thinking A3 W4A8C16 PD分离
Longcat-flash A3 BF16 PD分离
Ling-1T A3 BF16 PD分离
gpt-OSS120B A3 INT8 PD分离
GPT-OSS120B A2 INT8 PD分离
GPT-OSS20B A3 INT8 PD分离
GPT-OSS20B A2 INT8 PD分离

安装方式

硬件平台 cpu架构 docker镜像地址 Tar包名称
A3 arm docker pull swr.cn-east-4.myhuaweicloud.com/omni/omniinfer-a3-arm:release\_v0.7.0-vllm omni\_infer-a3-arm:v0.7.0\_vllm
A3 x86 docker pull swr.cn-east-4.myhuaweicloud.com/omni/omniinfer-a3-x86:release\_v0.7.0-vllm omni\_infer-a3-x86:v0.7.0\_vllm
A2 arm docker pull swr.cn-east-4.myhuaweicloud.com/omni/omniinfer-a2-arm:release\_v0.7.0-vllm omni\_infer-a2-arm:v0.7.0\_vllm
A2 x86 docker pull swr.cn-east-4.myhuaweicloud.com/omni/omniinfer-a2-x86:release\_v0.7.0-vllm omni\_infer-a2-x86:v0.7.0\_vllm

更多详情请参阅:https://www.php.cn/link/9f78e8aa1530b26c85f555017d89e745

Bardeen AI

使用ai自动执行人工任务

下载

源码获取:点击下载

扫描二维码推送至手机访问。

版权声明:本文由2345好导航站长资讯发布,如需转载请注明出处。

本文链接:http://www.2345hao.cn/blog/index.php/post/36967.html

分享给朋友:

“Omni-Infer v0.7.0 已经发布,超大规模 MoE 模型推理加速技术” 的相关文章

苹果谷歌亚马逊接洽运营商 或出资建设美国第四张5G网

苹果谷歌亚马逊接洽运营商 或出资建设美国第四张5G网

2019年是行业公认的5G元年,全球的移动运营商正在陆续商用5G网络,智能手机厂商也开始销售各种5G手机,但是由于投资成本巨大,全球5G网络的建设比较缓慢,信号覆盖还比较差,这也让一些准备购买5G手机的消费者犹豫不决。 据外媒最新消息,美国新进入移动通信市场的Dish公司正在和谷歌、亚马逊、苹果等...

你不知道的心电带的那些用法

你不知道的心电带的那些用法

很多运动爱好者都用过心率带。在跑步或者运动的时候带上心率带可以随时查看自己的实时心率,对提高运动效率有很大帮助,运动安全上,也可以在一定程度上避免自己长时间处于最大心率的危险状态。而目前,市面上出现了一款新的智能产品——心电带,可以更好的帮助运动人群。心电带是新出现的智能穿戴产品,是心率带的升级。...

高强度竞争领域注定容不下安逸,等待敲锣的协和电子正走在掉队的路上?

高强度竞争领域注定容不下安逸,等待敲锣的协和电子正走在掉队的路上?

  扎根印制电路板技术研发二十年,专注于汽车电子、高频通讯等中高端领域的协和电子(605258)本周启动招股,下周四(11月19日)即将网上申购。   多年的沉淀,令其收获了一批优质客户。不过随着行业规模增长放缓、各类成本抬升以及行业龙头集中度提高,协和电子往日优势逐渐消退,利润水平也逐年降低,此...

手握采购、研发、销售三条“命脉” 谁是操控创耀科技命运的神秘“公司A”

手握采购、研发、销售三条“命脉” 谁是操控创耀科技命运的神秘“公司A”

  1947年,美国贝尔实验室的威廉.肖克利和他的两位助手布拉顿、巴丁,研制出了世界上第一只晶体管,为集成电路产业打开时代大门,也造就了现代信息社会的根基――“芯片”。   但是现代信息社会并不能避不开国与国之间的问题。   “芯片强则产业强,芯片兴则经济兴,没有高端芯片就没有真正的产业安全和国...

市占率不足0.1% 造血能力不足 罗普特科创上市谋续命?

市占率不足0.1% 造血能力不足 罗普特科创上市谋续命?

  钱流不进口袋的企业,真的算是赚钱企业吗?   盈利,是大部分投资者最关心的问题。但企业盈利的有效性,是有前提的,现金流就是这个前提。但这部分,往往会被许多投资者忽略,正如巴菲特的那句著名评论:“现金是氧气,99%的时间你不会注意它,直到它没有了”。   没有现金流入的盈利只是纸面数字,纸面数...

19%市占率换不来业绩体量的和林微纳 新业务0.24%市占率又该如何期待?

19%市占率换不来业绩体量的和林微纳 新业务0.24%市占率又该如何期待?

  以19%市占率位居精微屏蔽罩市场头部玩家的和林微纳,即将亮相科创板。   2021年3月9日,主要产品为微机电(MEMS)精微电子零部件的和林微纳,开启了科创板招股。公司与楼氏电子、瑞声科技、裕元电子和银河机械,一同成为精微屏蔽罩市场的主要玩家,2019年五家企业合计占到全球市场总份额的80%...