OpenAI推出代码生成评估基准SWE-bench Verified。该公司在官网博客中提到:"随着我们的系统越来越接近 AGI,我们需要在越来越具有挑战性的任务中对它们进行评估"。这一基准是对现有SWE-bench的改进版本(子集),旨在更可靠地评估AI模型解决现实世界软件问题的能力。SWE-bench是一个软件工程评估套件,用于评估大型语言模型 (LLM) 解决从GitHub提取的真实软件问题的能力。
在OpenAI着力攻克下一代模型的挑战的当下,核心人员离职或长期休假,或也反映出OpenAI内部仍存在分歧。
可能面临运营成本飙升。
OpenA还称,公司I正在制定分级级别,以帮助该公司和利益相关者对AI进展实施分类和跟踪。
奥尔特曼表示,他理解前董事会为何会如此焦虑,前董事会成员对人工智能的持续发展感到紧张。
奥尔特曼表示,开发GPT-5还需要一些时间,希望有重大飞跃。