OpenAI推出代码生成评估基准SWE-bench Verified。该公司在官网博客中提到:"随着我们的系统越来越接近 AGI,我们需要在越来越具有挑战性的任务中对它们进行评估"。这一基准是对现有SWE-bench的改进版本(子集),旨在更可靠地评估AI模型解决现实世界软件问题的能力。SWE-bench是一个软件工程评估套件,用于评估大型语言模型 (LLM) 解决从GitHub提取的真实软件问题的能力。
大模型行业军备竞赛从一级市场的泡沫化高额估值,落地到更底层的算力基础设施建设。
AMD、OpenAI联合发布超强AI芯片;德国电信:与英伟达合作打造欧洲制造商首个工业人工智能云;
到2030年,武汉将实现软件产业整体规模突破8000亿元。
①百度AI搜索全面接入DeepSeek R1最新版;②何小鹏:大算力和大模型会共同定义AI汽车的上限;③“互联网女王”米克尔警告OpenAI:可能被性价比更高的对手超越。
OpenAI正式发布Codex。这是一款基于云端运行的软件工程智能 Agent,能够并行处理多个开发任务,协助开发者高效完成编程工作。