首页 > 新闻 > 资讯

分享到微信

打开微信,点击底部的“发现”,
使用“扫一扫”即可将网页分享至朋友圈。

豆包提出全新稀疏架构 推理成本较MoE最高可降83%

第一财经 2025-02-12 12:39:29

责编:高莉珊

豆包提出全新稀疏架构 推理成本较MoE最高可降83%

据证券时报,随着模型规模的扩大,推理成本和访存效率已成为限制大模型规模应用的关键瓶颈。近期,字节跳动豆包大模型团队提出了全新的稀疏模型架构UltraMem,该架构有效解决了MoE推理时高额的访存问题,推理速度较MoE架构提升2—6倍,推理成本最高可降低83%。该研究还揭示了新架构的Scaling Law,证明其不仅具备优异的Scaling特性,更在性能上超越了MoE。实验结果表明,训练规模达2000万value的UltraMem模型,在同等计算资源下,可同时实现业界领先的推理速度和模型性能,为构建数十亿规模value或expert开辟了新路径。

举报
第一财经广告合作,请点击这里
此内容为第一财经原创,著作权归第一财经所有。未经第一财经书面授权,不得以任何方式加以使用,包括转载、摘编、复制或建立镜像。第一财经保留追究侵权者法律责任的权利。
如需获得授权请联系第一财经版权部:banquan@yicai.com
一财最热
点击关闭