当地时间12月6日,OpenAI公布第二日活动主题:推出了强化微调(Reinforcement Fine-Tuning),帮助开发者和机器学习工程师打造针对特定复杂领域任务的专家模型。OpenAI CEO Sam Altman在X发帖称,强化微调的效果非常棒,是他今年最大的惊喜之一,期待看到大家利用这种功能的创造。
该项目通过全新的模型定制技术,让开发者可以使用高质量任务集对模型进行微调,并利用参考答案评估模型的响应,从而提升模型在特定领域任务中的推理能力和准确性。
OpenAI的研究员称,强化微调并不是只教模型模型输出,它的运作方式是,当模型发现一个问题的时候,研究者给模型空间区仔细思考这个问题,然后评估模型给出的最终解答,运用强化学习,研究者可以强化产生正确答案的思路,抑制产生错误答案的思路,只需要“几十个例子”甚至12个例子,模型就能以有效的新方式学习特定领域的推理。
OpenAI研究员演示,强化微调后的o1 mini测试通过率甚至比正式版o1高24%,比未强化微调的o1 mini提高了82%。
大模型行业军备竞赛从一级市场的泡沫化高额估值,落地到更底层的算力基础设施建设。
AMD、OpenAI联合发布超强AI芯片;德国电信:与英伟达合作打造欧洲制造商首个工业人工智能云;
①百度AI搜索全面接入DeepSeek R1最新版;②何小鹏:大算力和大模型会共同定义AI汽车的上限;③“互联网女王”米克尔警告OpenAI:可能被性价比更高的对手超越。
OpenAI正式发布Codex。这是一款基于云端运行的软件工程智能 Agent,能够并行处理多个开发任务,协助开发者高效完成编程工作。
厂商密集涌入Agent赛道的背后,是新一轮“得入口者得天下”的战役。