OpenAI推出代码生成评估基准SWE-bench Verified。该公司在官网博客中提到:"随着我们的系统越来越接近 AGI,我们需要在越来越具有挑战性的任务中对它们进行评估"。这一基准是对现有SWE-bench的改进版本(子集),旨在更可靠地评估AI模型解决现实世界软件问题的能力。SWE-bench是一个软件工程评估套件,用于评估大型语言模型 (LLM) 解决从GitHub提取的真实软件问题的能力。
特斯拉自研AI5芯片完成设计评审,有望于2026年底开始量产。
OpenAI今年预计通过ChatGPT实现近100亿美元收入
挪威的人口集中在南部城市,而星际之门项目所在的纳尔维克则位于北极圈内,地广人稀。
在面临来自大厂的模型优势时,上下文工程等亮点不足以让创业公司跳脱出来。
头部厂商下场虽然带来更明确的方向,但也令行业迈入关键性十字路口。