当地时间5月13日周一,OpenAI首席技术官米拉·穆拉蒂宣布推出新旗舰AI模型GPT-4o(o代表Omni,全能),面向所有人,包括免费用户。她在演示中称,相比GPT-4 Turbo,GPT-4o的速度快了两倍,成本降低了50%,API速率限制、即用户可发出的请求数量提高了五倍。
GPT-4o是一个多模态大模型,支持文本、音频、图像的任意组合输入,并能生成任意组合输出,语音唤起、实时对话。
OpenAI的高管们现场演示了GPT-4o支持下的ChatGPT多项功能,如给它一段代码,它就能分析得头头是道;给它一个方程式,ChatGPT便能充当实时数学老师,识别书写结果,引导完成每一步解答。此外,它能实时做口译,还能读取用户情绪。
OpenAI称,基于GPT-4o的ChatGPT文本和图像输入功能将于本周一上线,语音和视频选项将在未来几周内推出。
虽然并未在直播中现身,但CEO阿尔特曼在直播后总结称,OpenAI本次做了两件大事:一是新旗舰模型GPT-4o是免费的,二是其语音模式“响应速度极快”。
GPT-4o炸裂登场!OpenAI官宣免费开放 超快语音响应 图文音频全搞定。点击视频,一看究竟!
万众瞩目的视频生成模型Sora在2024年底正式向用户开放,而随着近一年来DiT技术的井喷式爆发,大批优秀的视频模型平台也在过去一年纷纷涌现。从物理规律、语义正确、场景一致等多个维度,各视频生成平台使用起来表现如何?业内人士表示,当前视频模型的性能表现各有千秋,而国产模型则已经在过去近一年的时间里追平了与全球顶级产品的代际差。AI视频生成行业当前处于怎样的发展阶段?未来又将面临怎样的问题和挑战?