OpenAI推出代码生成评估基准SWE-bench Verified。该公司在官网博客中提到:"随着我们的系统越来越接近 AGI,我们需要在越来越具有挑战性的任务中对它们进行评估"。这一基准是对现有SWE-bench的改进版本(子集),旨在更可靠地评估AI模型解决现实世界软件问题的能力。SWE-bench是一个软件工程评估套件,用于评估大型语言模型 (LLM) 解决从GitHub提取的真实软件问题的能力。
Meta收购AI可穿戴公司Limitless;腾讯混元2.0上线。
目前全球在役的空客320系列飞机约11300架,意味着全球超过一半的空客320在役机队受到影响。
新模型语气更温暖且更有同理心。
奥尔特曼表示,如果AI投资未能兑现预期,市场应自行调整,而非依赖政府救助。
AMD CEO苏姿丰预计,AMD的人工智能业务收入将在2027年达到数百亿美元。