谷歌新模型“屠榜” 对手边擦汗边点赞

从追赶到领先，谷歌让整个AI圈“炸了”。

版次：A012025年11月20日

刘晓洁

11月19日，预热已久、全网热议的Gemini 3终于正式亮相。谷歌这次打出的不是小修小补的普通升级，而是一张“王牌”——在几乎所有主流基准测试中实现全面领先，大模型的竞争格局可能就此改写。甚至有业内人士预言：“未来六个月内，很难有公司能够超越这一成绩。”

发布不久，OpenAI CEO奥尔特曼与特斯拉CEO马斯克便先后公开表示祝贺。奥尔特曼称其“看起来是个很棒的模型”，评论区则调侃“这句来自竞争对手的夸奖真是暖心”。马斯克也一如既往地送上“Nice work（干得漂亮）”的评价。

一向风格严谨的谷歌，这次也显得格外高调。官方博客标题直接打出“开启智慧新纪元”，内容中多次强调“最佳”“最先进”。谷歌员工也纷纷在社交媒体上为自家产品助阵，谷歌CEO桑达尔·皮查伊（Sundar Pichai）昨天已经连发了8条帖子介绍Gemini 3。

在正式发布前，第一财经参与了谷歌面向媒体的小范围沟通会，尽管对模型进展已有预期，但行业的热烈反响仍超出想象。大家惊叹于谷歌的进步速度，三个月前做不到的设计现在可以一键生成了，AI编程也是“Next Level”了，有人感慨“这行业发展速度太快”。

谷歌在三年间完成了从追赶到领先的反超，谷歌DeepMind的CTO科雷·卡武克乔格鲁（Koray Kavukcuoglu）在媒体沟通会上认为，谷歌差异化的全栈式技术方案很重要，从硬件到研究所有环节环环相扣。对于第一财经问及如何看待缩放定律（Scaling laws）放缓的问题，他回答称，技术进步不一定仅体现在全新能力的诞生，更体现在“模型能赋能的新场景”上。

新模型“屠榜”

昨天凌晨皮查伊发了条帖子，内容只有一张图，但这张图足够有说服力，Gemini 3 Pro几乎“屠榜”，在所有主要竞技场排行榜上排名第一。

具体来看，在“人类最后一次考试”（Humanities's Last Exam：一项衡量深度理解能力的基准测试，要求模型具备多步骤逻辑推理与专家级演绎能力）中，Gemini 3 Pro在不使用工具的情况下取得了37.5%的成绩，而排名第二的GPT.5.1只有26.5%，领先了11个百分点。

在推理能力上，Gemini 3 Pro刷新了Grok4.1刚刚取得的成绩，以1501分登顶LMArena排行榜，而Grok4.1的思考模型是1484分。

榜单仅仅是能力的一部分，谷歌对新模型的定义是，“Gemini 3能将任何想法变为现实”，因此，作为用户的实际体验更为重要。

在沟通会中，媒体也问及产品团队训练这款新模型过程中的一些“顿悟时刻”（Aha moments），谷歌DeepMind Gemini模型产品总监图西·多西（Tulsee Doshi）表示，第一次用它进行代码生成时，最令人惊叹的是，只需简单提示，就能生成各类游戏，且在精细度上极具优势。比如，生成3D可视化内容，还能在其中直接玩游戏，这种体验非常棒。

Gemini智能体还有哪些潜在使用场景？谷歌Gemini App的产品管理副总裁克里斯·斯特鲁哈尔（Chris Struhar）在会上提到，他个人已经在用模型处理两类事情，效果很好。一个是购买票务，另一个是用智能体模式整理邮件收件箱。

“我每天早上醒来都会收到50多封邮件，逐一查看、判断该如何处理要花很久。现在我会用智能体帮忙梳理：它会提炼出邮件里的待办任务，筛选出需要我回复的邮件，还会标注出可以忽略的邮件，这真的节省了大量时间。”斯特鲁哈尔表示，自己也会用模型来买演唱会门票，让智能体根据家庭成员直接筛选出合适的票务组合，而他只需点击一个“购买”。

谷歌团队的期望是，用户可以用新的模型来处理生活中遇到的“多步骤复杂的任务”，这是这款模型的强项。

AI行业“新的旗手”来了？

除了能力上的跃升，谷歌此次还有两个动作较为值得关注，一个是在发布的第一天就将Gemini 3带入谷歌搜索，另一个则是发布了全新的“类IDE（集成开发环境）”AI编程产品Antigravity，押注编程领域。

目前市场上也有其他IDE产品，卡武克乔格鲁表示，谷歌的模型仍将在各类IDE中可用，也会通过API向开发者开放，但Antigravity能为团队提供“另一种与开发者互动的方式”，团队能借此了解用户的使用场景、真实任务需求和面临的挑战，进而反过来优化模型。

谷歌此次的动作也让外界开始猜测是否在AI编程领域与Anthropic和Cursor这样的编程模型和工具展开竞争。

卡武克乔格鲁回应表示，在这次发布中谷歌仍与Cursor保持着紧密的合作关系。他们的目的不是竞争，对团队来说看重的是“在用户所在的场景触达他们”。“我们认为，保持开放实验的态度很重要。”

但无论如何，谷歌确实已经甩开了竞争对手一步，这些动作也必然会让同类产品有所忌惮，比如“Anthropic或许已经满头大汗了”。此前靠着在编程领域的领先性能，Anthropic的营收快速增长，估值也一路走高，但看起来这个优势已经被谷歌追平了。

市场认为，对于谷歌而言，Gemini 3或许也是重要的里程碑。甚至有声音称“谷歌正在托起AI牛市叙事”，近日海外的Loop Capital （路普资本）将谷歌母公司Alphabet的评级从“持有”上调至“买入”，目标股价从每股260美元上调至320美元。而谷歌前几日股价一度大涨，市值突破3.5万亿美元，创历史新高，目前回落到3.43万亿美元，但仍然是历史高位。

此前巴菲特旗下伯克希尔-哈撒韦披露已经重仓买入谷歌，成为该公司第十大股票持仓，引发资本市场围观。

谷歌为什么能在三年之间就完成了从追赶到领先的反超？卡武克乔格鲁分析认为，核心原因之一是团队始终保持着极快的发展节奏，而其中最关键的支撑，是谷歌极具差异化的全栈式技术方案。

这套全栈方案从硬件投资开始：首先是数据中心的基础设施建设，接着是芯片，尤其是谷歌高性能TPU（张量处理单元），这些芯片之间的网络连接方式构建成了支持模型训练的计算集群，进而支撑谷歌前沿的AI研究。

从去年底开始，就有声音认为，大模型的迭代速度已经放缓，缩放定律也不再有效，但谷歌此次的大模型似乎仍取得了一些显著的进步，谷歌如何看待目前的发展趋势？

卡武克乔格鲁对第一财经记者表示，观察一个领域的发展，关键要看它对各个行业的实际影响，而AI领域的影响正在日益扩大，越来越多的职业人士用AI辅助工作。

卡武克乔格鲁认为，不应该将技术进步限制在全新能力的诞生，“模型能赋能的新场景”同样是一个指标。从预训练到后训练的整个模型开发流程中，他们都看到了全方位的积极进展，而且这种趋势还会持续一段时间。