来自加利福尼亚大学圣迭戈分校(University of California in San Diego)认知科学家本杰明·伯根(Benjamin Bergen)和卡梅隆·琼斯(Cameron Jones)的最新研究结果表明,越来越多的人难以在图灵测试中区分GPT-4和人类。
在上述科学家所做的一项实验中,500名人类与四种AI语言模型进行了5分钟的对话,其中GPT-4在54%的时间里被误认为是人类,这个比例超过了此前版本GPT-3.5的相应比例(50%)。
这一结果表明,GPT-4已通过图灵测试。图灵测试是用来判断机器是否具有模拟人类思维能力的测试。
挪威的人口集中在南部城市,而星际之门项目所在的纳尔维克则位于北极圈内,地广人稀。
在面临来自大厂的模型优势时,上下文工程等亮点不足以让创业公司跳脱出来。
头部厂商下场虽然带来更明确的方向,但也令行业迈入关键性十字路口。
在评估模型编辑真实场景电子表格能力的测试中,ChatGPT Agent的最高得分45.5%远低于人类得分71.3%。
ChatGPT Agent可将多种能力融合,形成统一的智能体系统。