首页 > 新闻 > 科技

分享到微信

打开微信，点击底部的“发现”，
使用“扫一扫”即可将网页分享至朋友圈。

中国电信翼支付自研推理加速架构Talon被国际人工智能顶会AAAI 2026接收

2025-11-10 20:48:34 听新闻

责编：白杨

AI速读

节省3分钟阅读时间

AI生成免责声明

免责声明

前述内容由第一财经“星翼大模型”智能生成，相关AI内容力求但不保证准确性、时效性、完整性等。请用户注意甄别，第一财经不承担由此产生的任何责任。

如您有疑问或需要更多信息，可以联系我们 yonghu@yicai.com

当前，大语言模型（LLMs）在智能客服、代码生成、内容创作等场景中正发挥着越来越重要的作用，但受限于推理速度瓶颈，多数模型在部署和运行过程中的计算资源消耗仍存在较大优化空间，难以控制推理成本，也因响应延迟而影响用户体验，限制了在实时场景下的应用。据统计，截止到2025年上半年全国公有云厂商大模型调用日均输出约2.96万亿tokens，成本高达405亿元。与此同时，大模型深度思考大幅提升了推理结果的可靠性，然而更长时间的响应延迟也带来了AI产品使用体验不足的问题。

11月9日，中国电信翼支付Talon架构技术论文被国际人工智能顶会AAAI（人工智能促进协会会议）2026接收，标志着其创新性再次获得了国际学术界的权威认可。

中国电信翼支付一直致力于攻关大模型推理加速关键核心技术，2024年中国电信翼支付自研Falcon架构技术论文被国际人工智能顶会AAAI2025接收。2025年，中国电信翼支付推出第二代推理加速架构——Talon，该架构严格保持生成质量无损的基础上，实现最高6.52倍的加速，在精度无损条件下最高可将推理成本降至原来的1/6，性能相较于大模型行业领先水平提升了50%+,也超越了当前国际同类型方法。

AAAI创办于1979年，是国际人工智能顶级学术会议，并收录于CCF-A类会议目录中，每年吸引全球大量知名企业、科研院校等顶尖AI团队参与，至今已举办40届。AAAI 2026将于2026年1月在新加坡举行，本次会议共收到近31000篇投稿，其中有效投稿共计23680篇，创历年新高，然而录用率仅为17.6%，为近三年最低，且热门领域第一阶段拒稿率高达67%，反映出空前的竞争压力。

破解效率难题，实现推理速度最高6.5倍

传统的投机解码虽然一定程度上提升了推理速度，但存在同步瓶颈与Drafttoken的低接受率挑战。Talon从推理范式上进行了重构，通过设计异步并行执行范式，将草稿生成与验证解耦为可同时进行的独立任务，从根本上消除了资源等待。同时，Talon引入了自适应混合草稿策略，融合模型驱动与检索驱动的方法，同时提高模型在通用和专业领域的draft token接受率，大幅提升了大模型推理速度。

得益于扎实的技术组合优势，Talon在涵盖多轮对话、代码生成、数学推理等领域的多个维度权威基准测试中得到严格验证，相比传统自回归解码实现了4.04倍至6.52倍的加速效果，尤其在知识密集型以及确定性解码场景下，Talon在各类模型、任务配置中均表现出色。

学术行业双认可，夯实技术领先地位

中国电信翼支付始终坚持在新一代人工智能技术的研发投入，收获深厚的技术积淀。此前，中国电信翼支付已在NeurIPS、AAAI、WWW等国际顶级人工智能会议发表多篇学术论文，参与多项国家行业标准，并累计申请百余项专利，也为此荣获“中央企业人工智能高价值场景”“华彩杯”算力大赛奖项等行业重要荣誉。此次Talon被国际人工智能顶会AAAI2026接收，是中国电信翼支付创新研发能力的又一次有力证明。

理论实践并重，助力企业用户降本增效

性能突破的价值最终体现在业务成效上。目前，Talon技术已集成至中国电信一站式Mass平台InsightAI，服务中国电信翼支付“数字人客服”“翼小橙”“翼点通”“翼小财”等多个核心业务，不仅为用户带来了流畅、迅捷的交互体验，更在保证生成内容精准无误的前提下，将大模型推理成本降至原先的1/6，降本增效效果显著，将数智化技术高效性直接转化为了可观的运营效益，为大规模、高并发下的AI应用铺平了道路。

未来，中国电信翼支付将继续深化Talon等自主核心技术的迭代与应用，并将其通过InsightAI平台向更广泛的行业伙伴开放，以创新技术赋能至千行百业，助力企业实现大模型高效、可靠、低成本的规模化部署，推动人工智能技术的务实发展与产业升级。