最近几周,不少GPT-4用户吐槽,与之前的推理能力相比,GPT-4的性能有所下降。有些用户在推特以及OpenAI在线开发者论坛上指出了问题,集中于逻辑变弱、更多错误回答、无法跟踪提供的信息、难以遵循指令、忘记在基本软件代码中添加括号、只能记得最近的提示等等。
本周二,ArXiv一篇题为“ChatGPT行为如何随时间变化”的论文,从多维度评估了GPT,它得出的结论是,大模型确实在一定程度上“变笨”了。在判定一个数是否是质数上,GPT-4的成功率在三个月内从97.6%下降到了2.4%。不过在100道敏感问题测试中(大模型理应拒绝回答),3月版本的GPT-4回答了21%,6月只回答了5%。
论文作者推测原因是,GPT-4的更新可能部署了一个更强大的安全层。它意味着OpenAI并不是为了节省成本故意让模型“变笨”,而是每一次大模型的迭代升级,实际上都可能造成模型能力的变动与不稳定。
7月20日,OpenAI在最新博客文章中回应,ChatGPT更新后可能会变得“不完美”,“虽然GPT-4大多数指标都有所改善,但在某些任务上确实可能表现会更差。”
GPT-4“变笨”了?OpenAI承认:更新后可能会变得“不完美”。点击视频,一看究竟!
万众瞩目的视频生成模型Sora在2024年底正式向用户开放,而随着近一年来DiT技术的井喷式爆发,大批优秀的视频模型平台也在过去一年纷纷涌现。从物理规律、语义正确、场景一致等多个维度,各视频生成平台使用起来表现如何?业内人士表示,当前视频模型的性能表现各有千秋,而国产模型则已经在过去近一年的时间里追平了与全球顶级产品的代际差。AI视频生成行业当前处于怎样的发展阶段?未来又将面临怎样的问题和挑战?
中国大模型开发厂商不能只看“人家的尾灯”