首页 > 新闻 > 科技

分享到微信

打开微信,点击底部的“发现”,
使用“扫一扫”即可将网页分享至朋友圈。

中国电信翼支付自研推理加速架构Talon被国际人工智能顶会AAAI 2026接收

2025-11-10 20:48:34 听新闻

责编:白杨

AI速读
节省3分钟阅读时间

{{aisd}}

AI生成 免责声明

免责声明

前述内容由第一财经“星翼大模型”智能生成,相关AI内容力求但不保证准确性、时效性、完整性等。请用户注意甄别,第一财经不承担由此产生的任何责任。
如您有疑问或需要更多信息,可以联系我们 yonghu@yicai.com

当前,大语言模型(LLMs)在智能客服、代码生成、内容创作等场景中正发挥着越来越重要的作用,但受限于推理速度瓶颈,多数模型在部署和运行过程中的计算资源消耗仍存在较大优化空间,难以控制推理成本,也因响应延迟而影响用户体验,限制了在实时场景下的应用。据统计,截止到2025年上半年全国公有云厂商大模型调用日均输出约2.96万亿tokens,成本高达405亿元。与此同时,大模型深度思考大幅提升了推理结果的可靠性,然而更长时间的响应延迟也带来了AI产品使用体验不足的问题。

11月9日,中国电信翼支付Talon架构技术论文被国际人工智能顶会AAAI(人工智能促进协会会议)2026接收,标志着其创新性再次获得了国际学术界的权威认可。

中国电信翼支付一直致力于攻关大模型推理加速关键核心技术,2024年中国电信翼支付自研Falcon架构技术论文被国际人工智能顶会AAAI2025接收。2025年,中国电信翼支付推出第二代推理加速架构——Talon,该架构严格保持生成质量无损的基础上,实现最高6.52倍的加速,在精度无损条件下最高可将推理成本降至原来的1/6,性能相较于大模型行业领先水平提升了50%+,也超越了当前国际同类型方法。

AAAI创办于1979年,是国际人工智能顶级学术会议,并收录于CCF-A类会议目录中,每年吸引全球大量知名企业、科研院校等顶尖AI团队参与,至今已举办40届。AAAI 2026将于2026年1月在新加坡举行,本次会议共收到近31000篇投稿,其中有效投稿共计23680篇,创历年新高,然而录用率仅为17.6%,为近三年最低,且热门领域第一阶段拒稿率高达67%,反映出空前的竞争压力。

破解效率难题,实现推理速度最高6.5倍

传统的投机解码虽然一定程度上提升了推理速度,但存在同步瓶颈与Drafttoken的低接受率挑战。Talon从推理范式上进行了重构,通过设计异步并行执行范式,将草稿生成与验证解耦为可同时进行的独立任务,从根本上消除了资源等待。同时,Talon引入了自适应混合草稿策略,融合模型驱动与检索驱动的方法,同时提高模型在通用和专业领域的draft token接受率,大幅提升了大模型推理速度。

得益于扎实的技术组合优势,Talon在涵盖多轮对话、代码生成、数学推理等领域的多个维度权威基准测试中得到严格验证,相比传统自回归解码实现了4.04倍至6.52倍的加速效果,尤其在知识密集型以及确定性解码场景下,Talon在各类模型、任务配置中均表现出色。

学术行业双认可夯实技术领先地位

中国电信翼支付始终坚持在新一代人工智能技术的研发投入,收获深厚的技术积淀。此前,中国电信翼支付已在NeurIPS、AAAI、WWW等国际顶级人工智能会议发表多篇学术论文,参与多项国家行业标准,并累计申请百余项专利,也为此荣获“中央企业人工智能高价值场景”“华彩杯”算力大赛奖项等行业重要荣誉。此次Talon被国际人工智能顶会AAAI2026接收,是中国电信翼支付创新研发能力的又一次有力证明。

理论实践并重,助力企业用户降本增效

性能突破的价值最终体现在业务成效上。目前,Talon技术已集成至中国电信一站式Mass平台InsightAI,服务中国电信翼支付“数字人客服”“翼小橙”“翼点通”“翼小财”等多个核心业务,不仅为用户带来了流畅、迅捷的交互体验,更在保证生成内容精准无误的前提下,将大模型推理成本降至原先的1/6,降本增效效果显著,将数智化技术高效性直接转化为了可观的运营效益,为大规模、高并发下的AI应用铺平了道路。

未来,中国电信翼支付将继续深化Talon等自主核心技术的迭代与应用,并将其通过InsightAI平台向更广泛的行业伙伴开放,以创新技术赋能至千行百业,助力企业实现大模型高效、可靠、低成本的规模化部署,推动人工智能技术的务实发展与产业升级。

举报
一财最热
点击关闭