首页 > 新闻中心

让国产算力跑起来!大模型推理引擎“赤兔”开源 时间: 2025-04-30 07:58:30 |   作者: 新闻中心


  3月14日,清华大学高功能核算研究所教授翟季冬团队与清华系科创企业“清程极智”联合宣告,开源大模型推理引擎“赤兔Chitu”。据介绍,该引擎初次完成在非英伟达Hopper架构GPU及各类国产芯片上原生运转FP8精度模型,为国产AI芯片的广泛使用和生态建设扫除了妨碍。

  当时,FP8精度模型长时间依靠英伟达H系列高端GPU,这使得国内企业在布置大模型时受限于AI芯片的约束。为打破这一窘境,清华大学与清程极智联合开源的“赤兔”推理引擎经过底层技能革新,初次完成了非H卡设备(包含英伟达Hopper架构之前的GPU卡及各类国产卡)对原生FP8模型的高效布置,脱节对特定硬件的依靠,极大地降低了企业布置AI模型的门槛和本钱。

  翟季冬介绍说,赤兔凝结了团队多年并行核算与编译优化技能堆集,方针是“弥合先进模型与多样化硬件之间的距离,让国产算力真实‘跑起来’”。

  “赤兔的定位是成为衔接多元算力与大模型使用的桥梁。”清程极智CEO汤雄超表明:“咱们不只支撑英伟达全系列GPU,还针对国产芯片深度优化,未来将连续开源适配版别。”

  在首期开源版别中,赤兔引擎布置DeepSeek-R1-671B满血版时(在A800集群的测验中)比较部分国外开源结构,GPU使用量削减50%的情况下推理速度仍有3.15倍提速。

  翟季冬介绍说,这在某种程度上预示着公司能够用更少的硬件资源取得更高的推理功能,大幅度的降低了布置门槛和运营本钱。一起,赤兔引擎的技能可完成模型作用不受损。这一效果源于团队对GeMM、MoE等中心算子的指令级优化,直接处理FP8数据而非简略量化,保证模型精度无损。

  现在,赤兔引擎方针树立掩盖从纯CPU到大规模集群的全场景大模型布置需求,适配英伟达多款GPU及多款国产芯片。一起面临市场上不同的大模型算力优化需求,赤兔支撑低推迟、高吞吐、小显存三方面优化,用最低本钱完成最高功能。

  另据介绍,清程极智还推出了根据赤兔的“推理一体机”,供给开箱即用布置计划及专业运维服务,进一步简化企业AI落地流程。汤雄超表明,当时国内涵推理引擎这一中心环节,仍缺少出产级开源产品,而开源“赤兔”引擎是助力国内AI生态建设的重要一步。

  为加快生态建设,赤兔团队与多家国产芯片厂商打开协作,敞开代码奉献通道,缩短硬件适配周期。“开源不只是技能同享,更是为国产芯片‘抢时间’,当新模型或数据类型出现时,赤兔能助力国产芯片跟上世界节奏,缩小与世界先进芯片之间的‘时间差’。”汤雄超表明,跟着“赤兔”引擎的开源,“国产大模型+国产引擎+国产芯片”技能闭环正在加快成型,中国大模型工业从技能到生态的全面打破“已按下加快键”。