首页 > 新闻 > 科技

分享到微信

打开微信,点击底部的“发现”,
使用“扫一扫”即可将网页分享至朋友圈。

OpenAI推出代码生成评估基准

第一财经 2024-08-14 09:34:24

作者:一财科技    责编:刘佳

用于评估AI模型解决现实世界软件问题的能力。

OpenAI推出代码生成评估基准SWE-bench Verified。该公司在官网博客中提到:"随着我们的系统越来越接近 AGI,我们需要在越来越具有挑战性的任务中对它们进行评估"。这一基准是对现有SWE-bench的改进版本(子集),旨在更可靠地评估AI模型解决现实世界软件问题的能力。SWE-bench是一个软件工程评估套件,用于评估大型语言模型 (LLM) 解决从GitHub提取的真实软件问题的能力。


举报
第一财经广告合作,请点击这里
此内容为第一财经原创,著作权归第一财经所有。未经第一财经书面授权,不得以任何方式加以使用,包括转载、摘编、复制或建立镜像。第一财经保留追究侵权者法律责任的权利。 如需获得授权请联系第一财经版权部:021-22002972或021-22002335;banquan@yicai.com。

文章作者

一财最热
点击关闭