分享到微信

打开微信，点击底部的“发现”，
使用“扫一扫”即可将网页分享至朋友圈。

四点速读2025谷歌开发者大会

第一财经 2025-05-21 11:05:05 听新闻

作者：一财科技责编：彭海斌

谷歌在开发者大会上展示了升级的多模态Gemini模型、增强的生成式内容工具以及集成AI功能的智能硬件。

北京时间5月21日，谷歌开发者大会（Google I/O）上公布了在AI技术上的最新进展，从基础模型升级到生成式内容工具推出，再到硬件更新，标志着谷歌将AI技术融入其生态系统的进程又迈出重要一步。

一、Gemini模型升级，多模态能力显著提升

核心亮点仍是Gemini模型。Gemini 2.5 Pro 和 Flash 模型全面支持视听输入和原生音频输出对话，开发者可通过Live API 预览版构建和微调对话体验的音调、口音和说话风格等。Gemini还可作为Chatbot登录Chrome浏览器，帮助用户快速理解页面上下文并完成任务。其中，Deep Think模式引入增强型推理机制，在处理数学、编程和多模态任务时，能够在回答前充分考虑多种可能性，显著提升了模型的推理能力。

二、生成式内容工具再升级

谷歌推出的Veo 3视频生成模型支持原生音频生成，不仅能够生成高清视频，还可为视频添加背景音乐、音效甚至对白，解决了以往AI视频生成中“有影无声”的问题，极大提升了AI视频的质量和真实感。

Imagen 4图像生成模型在图像细节和文本输出质量上有了质的飞跃。谷歌表示，该模型能够渲染织物、水滴和动物皮毛等精细细节，支持照片级写实和抽象等多种风格，并可创建各种纵横比、高达2K分辨率的图像，为创作者提供了更强大的图像生成工具。

三、AI代理助力生活便捷化

谷歌的实验性AI代理工具Project Mariner迎来更新，其工作方式得到优化，可一次承担近十几项任务。例如，用户无须访问第三方网站，即可通过该工具购买棒球比赛门票或在线购买杂货，为用户的日常生活带来了极大的便利。

谷歌还推出了全新视频通话平台Google Beam，硬件包括一个六摄像头阵列和定制的光场显示器，软件上一个AI模型将不同角度指向用户的摄像头视频转换为3D渲染，让用户可以像处于同一个会议室一样互相交谈。谷歌的Beam可实现毫米级头部跟踪和60fps视频流。当与Google Meet一起使用时，Beam提供实时语音翻译功能，可保留说话者的声音、语调和表情。

四、XR智能眼镜亮相

谷歌与Xreal、Samsung等品牌合作，推出了集成AI助手功能的Android XR智能眼镜。这款眼镜支持实时翻译、导航和信息提示等功能，是谷歌在可穿戴设备领域的新尝试，为用户提供了全新的交互体验和便捷的信息获取方式。

针对各项AI升级功能，谷歌推出了每月249.99美元的AI Ultra订阅计划，为用户提供Gemini 2.5 Pro的Deep Think模式、Veo 3视频生成工具等高级AI功能的访问权限，并提供更高的使用限制和额外存储空间。

第一财经广告合作，请点击这里

此内容为第一财经原创，著作权归第一财经所有。未经第一财经书面授权，不得以任何方式加以使用，包括转载、摘编、复制或建立镜像。第一财经保留追究侵权者法律责任的权利。
如需获得授权请联系第一财经版权部：banquan@yicai.com