7月5日,在商汤举办的“大爱无疆·向新力”论坛上,商汤科技董事长徐立在现场发布了大模型“日日新5o”,交互体验对标OpenAI最新发布的 GPT-4o。
实时交互能力背后的支撑来自于商汤最新的基座模型。在会上商汤同时宣布大模型迭代到“日日新5.5”,其综合性能较上一代“日日新5.0”平均提升30%,在数学推理、英文能力和指令跟随等能力明显增强。
据介绍,通过整合跨模态信息,基于声音、文本、图像和视频等多种形式,“日日新5o”可以带来全新的AI交互模式,即实时的流式多模态交互。
对标OpenAI和谷歌此前的产品发布会,商汤也在论坛上搭台进行了模型交互能力的现场演示。商汤工作人员举起手机与“日日新5o”打招呼后,它能识别出工作人员脖子佩戴的胸卡,判断这是一个大会会场。
工作人员进一步测试了“日日新5o”识物能力,将手机对准带有商汤LOGO的安全帽,模型能够识别出这与某个品牌或公司有关,将手机对准一个玩偶,模型回复称,“小兔玩具超可爱的,像穿着警服的卡通警察,白身子粉耳朵,紫眼珠特灵动,嘴边红点点缀,俏皮又逗趣。”
工作人员还将手机对准了书,让模型介绍书名和内容,另外对准某一页书,模型也能概括这页大概的内容。根据记者在现场的感受,在交互反馈上,人类与模型问答间隔的时间大概在2-3秒。
值得一提的是,在7月4日的产业发展主论坛上,徐立在发表演讲时提到,要推动人工智能超级时刻的到来,大模型需要具备更卓越的思维能力、更自然的交互能力以及更可控的生成能力。
“我一直的观点是,虽然我们的行业非常热,包括像ChatGPT带来了聊天式的应用,Sora带来了视频,但它还没有到超级时刻,是因为它没有真正走进到一个行业的垂直应用中引起广泛的变化。”徐立认为,实时的交互性能够带来流畅的体验,也是带来超级时刻以及推动应用变化的一个核心。
针对“日日新5o”背后的基座大模型,商汤介绍,日日新5.5基于超过10 TB tokens数据训练,包括大量人工合成数据,数据构造从基础知识转向合成思维链,在数学、推理、长文本、编程等多个维度都有大幅提升。此外,模型采用混合端云协同架构,可最大限度发挥云边端协同。
在演讲最后,徐立在现场特别提到了“大模型0元Go”计划,称凡是“日日新”的新注册用户,都可获得涉及调用、迁徙、训练等多项免费服务大礼包。同时,商汤表示将免费赠送5000万Tokens包,并且派出专属搬家顾问,帮助OpenAI用户实现零服务成本迁移。
OpenAI创始人Sam Altman:将在几周内发布o3、o4-MINI;谷歌宣布一个新的实验性人工智能模型Sec-Gemini V1。
“应用为王”这一理念在大模型技术发展与落地中尤为重要,已经成为产业界、企业界最迫切解决的一个课题。
OpenAI表示,公司用了网络上的图像和文本训练模型,让模型学习图像与文字、图像与图像之间的关系。
蚂蚁自研2900亿大模型用国产AI芯片完成高效训练;京东入局具身智能,已成立多支团队进行前沿研发。
“由于推理技术加入,代理AI(Agentic AI)动不动就需要高出上百倍的计算量。”黄仁勋说。