首页 > 新闻 > 资讯

分享到微信

打开微信,点击底部的“发现”,
使用“扫一扫”即可将网页分享至朋友圈。

豆包:视频生成模型“VideoWorld”可仅靠视觉认知世界 现已开源

第一财经 2025-02-10 13:44:16

责编:丁源

豆包:视频生成模型“VideoWorld”可仅靠视觉认知世界 现已开源

据豆包大模型团队官方公众号,视频生成实验模型“VideoWorld”由豆包大模型团队与北京交通大学、中国科学技术大学联合提出。VideoWorld在业界首次实现无需依赖语言模型,即可认知世界。正如李飞飞教授9年前TED演讲中提到“幼儿可以不依靠语言理解真实世界”,VideoWorld仅通过“视觉信息”,即浏览视频数据,就能让机器掌握推理、规划和决策等复杂能力。团队实验发现,仅300M参数量下,VideoWorld已取得可观的模型表现。作为一种通用视频生成实验模型,VideoWorld去掉语言模型,实现了统一执行理解和推理任务。同时,它基于一种潜在动态模型,可高效压缩视频帧间的变化信息,显著提升知识学习效率和效果。

举报
第一财经广告合作,请点击这里
此内容为第一财经原创,著作权归第一财经所有。未经第一财经书面授权,不得以任何方式加以使用,包括转载、摘编、复制或建立镜像。第一财经保留追究侵权者法律责任的权利。
如需获得授权请联系第一财经版权部:banquan@yicai.com
一财最热
点击关闭