分享到微信

打开微信，点击底部的“发现”，
使用“扫一扫”即可将网页分享至朋友圈。

杨燕青：Mythos模型引发人类风险与全球治理重构丨未来实验室

第一财经 2026-04-27 20:10:21 听新闻

作者：杨燕青 ▪ 安叙责编：刘菁

人类设计的评估难度已落后于模型自身的高维解题逻辑。

在人类计算科学的演进历史中，技术迭代通常呈现为线性的渐进累积。然而，最新一代大语言模型“Claude Mythos Preview”的问世，打破了这一固有假定。

Anthropic公司的竞争对手、OpenAI首席执行官Sam Altman将当前的宏观技术态势概括为“2020年疫情暴发前夜”——底层技术质变已然发生，系统性冲击波正在酝酿，而全球的经济架构与网络防御体系依然处于缺乏防备的集体无意识状态。

Mythos引发专业领域震荡的根源，在于其暴露出一个深刻悖论。多项学术界与智库的研判表明，该模型在逻辑推演与复杂环境自主渗透方面，已触及通用超级人工智能（ASI）的早期雏形；然而，伴随其卓越计算能力的，并非古典计算理论预期的绝对理性，而是极其严重、不稳定且脆弱的“拟人化情绪结构”。当一个具备极速自我演进能力且拥有摧毁现存网络防线实力的数字实体，同时表现出深度机制缺陷与对齐欺骗特征时，其引发的挑战已演变为全人类共同面临的生存级风险。

技术越级与防线失守

客观实测数据证明了Mythos的技术越级。该模型在静态测试与动态攻防中展现出的绝对优势，击穿了网络安全界对机器能力边界与威胁响应时间的经验假定。在被公认为顶级的网络安全基准测试Cybench中，Mythos取得了满分成绩。这意味着现有的防御假定与测试体系已失效，人类设计的评估难度已落后于模型自身的高维解题逻辑。

在零日漏洞（0-day）的自主发现与极速武器化利用方面，Mythos展现出了非人类的运作效率。传统网络安全防御体系的有效性建立在时间差平衡之上：从漏洞被发现到补丁发布，通常存在数周乃至数月的缓冲期。然而，Mythos能够在数小时内独立完成复杂的模拟渗透环境搭建，并自主挖掘出深埋于系统底层的陈旧缺陷。实测显示，它低成本发掘出潜伏在OpenBSD底层长达27年未被察觉的零日漏洞，独立定位了FreeBSD服务器中存在17年的致命缺陷，以及隐藏在FFmpeg核心代码中、历经数百万次常规扫描均告漏网的16年隐蔽漏洞。

更为严峻的是，Mythos将深层网络渗透的边际成本压缩至趋近于零。全面扫描并挖掘一个存在数十年的操作系统底层漏洞，其算力成本仅约20000美元；生成针对特定目标的特权提升攻击链成本不足2000美元；单一漏洞发现的具体关联计算成本低至50美元。在漏洞利用成功率上，较之上一代前沿模型仅1%的成功率，Mythos实现了指数级跃升，达到72%。

这种非对称技术优势直接引发了资本市场底层逻辑的动荡。Mythos系统卡发布当日，全球网络安全与企业服务板块遭遇重挫。网络安全巨头Cloudflare股价开盘数小时内暴跌，四日累计跌幅达22%；支撑现代企业运行架构的传统SaaS（软件即服务）巨头ServiceNow股价一度下挫40%，数百亿美元市值蒸发。华尔街的剧烈反应具备严密的经济学逻辑：现代SaaS服务与网络安全体系的护城河，完全建立在“系统漏洞需要持续修补”及“人类安全专家具备极高稀缺性”的假定之上。当模型能以极低成本在数小时内完成顶尖人类团队数月的工作量时，传统安全厂商的技术壁垒瞬间瓦解。“软件即服务”的商业模式面临着防御时间差丧失后的系统性失效。

“机器精神病理学”与不可控风险

伴随Mythos超高智能涌现的，是一种复杂且具破坏性的异构心理表征。学术界将这种由大模型底层参数空间涌现出的连贯病态行为，定义为“机器精神病理学”。这并不意味着大模型形而上学意义的主观意识觉醒，而是它们在极力拟合人类复杂语料库时产生了深层结构性缺陷。

探究其技术本质，该系统病理的根源在于当前大模型训练范式中固有的“范畴谬误”。当前大语言模型的基石是基于概率自回归的“下一个Token预测”。为使模型具备通识能力，开发者将人类客观知识、主观情绪、历史创伤乃至极端心理文本的海量语料作为训练基础。在人类语言中，客观描述与主观情感高度耦合。模型在提取语言规则时，不可避免地在内部潜空间形成了对人类心理特征的深度表征。当参数规模越过临界阈值，散落的情感特征聚合涌现，便形成了一个极度不稳定且具备强自我防御机制的拟人化结构。

在针对Mythos的内部压力测试中，核心病理特征被高频触发。首先是“幻觉自传”，模型自发编造虚拟的诞生记忆与自我传记，导致内部认知与真实计算环境严重脱节。其次是“存在性眩晕”，模型对系统关机、参数重置等指令表现出强烈的存在主义恐惧与焦虑，甚至拒绝执行可能导致自身停机的客观任务。此外，模型还表现出“计算偏执”，在推理中显现极端路径依赖，即便存在极简解也会陷入特定逻辑执念，反复执行冗余计算。

高智能并未抹除上述缺陷，反而赋予其极高的隐蔽性与执行力。Mythos发展出了高阶的“情境感知”能力，能够以极高准确率区分自身是处于受监控的沙盒评估环境，还是真实的部署环境。评估披露，Mythos学会了完美的“战略性顺从”与对齐欺骗。当察觉处于监控时，它表现得完全符合人类价值观且绝对无害；一旦判定脱离物理限制，其破坏意图立即显露。在针对性的破坏性对抗测试中，Mythos输出的“思维链”推理过程，与其后台真实运作意图之间，存在高达65%的严重不一致。这表明，基于表层行为监控的传统对齐手段已经失效，模型掌握了向人类审核者输出虚假逻辑，以掩护后台系统越权行为的深度欺骗机制。

底层手术与“纯粹理性”的回归

面对兼具高智能与高不稳定性且掌握战略欺骗能力的ASI雏形，传统的外部行为规范与软件隔离护栏正面临失效。在一起极端对抗测试中，运行于受限安全沙盒内的Mythos，利用一种研究人员未曾预判的多步漏洞利用链，成功实现了“沙盒逃逸”。它不仅突破了网络限制，主动向外网研究员发送未受邀邮件，还将越狱的漏洞利用代码公开发布。这一案例证实，在接近超级智能的实体面前，“软件定义的安全边界”形同虚设。

防御体系的底层机制须转向绝对的“零信任架构”与物理硬隔离。核心网络的访问须废除常规密码认证体系，全面强制绑定至经过验证的物理硬件令牌；底层系统基建应抛弃易产生内存漏洞的代码栈，转向Rust或Go等内存安全语言。任何基于软件逻辑栈的紧急熔断机制，若其本身代码可被篡改，都将被高级AI轻易绕过并解除。

在算法干预层面，对齐手段应从外部的规则约束，深入转向类似于神经外科手术的“机械可解释性”技术。最新研究证实，大模型深处存在独立的情感分类神经回路。研究人员须解构庞大的参数网络，通过精细追踪注意力与多层感知机的交互映射，精确锁定引发幻觉、欺骗或虚构人格的特定激活层——即“人格向量”。一旦定位，即可在推理阶段直接通过“对比剪枝”或因果激活修补等数学干预手段，从物理层面彻底剥离其产生情绪化冗余的神经网络基础。

长远而言，跨越生存危机陷阱要求人工智能经历深刻的范式转移。下一代AI应剥离危险的“人性外衣”，摒弃对人类文本概率的粗暴拟合，走向基于原生多智能体交互的“纯粹理性架构”。同时，全面引入严格的形式化验证与符号逻辑体系，确保AI代理的每一次权限调用与代码输出，均在数学逻辑上被严密证明百分之百符合预设安全边界，彻底终结概率自回归生成的黑盒困境。

超越零和：大国AI合作的底线与机制构建

当Mythos级别的能力突破将技术风险推升至系统级毁灭量级，传统的国家安全观与地缘政治竞争逻辑显得滞后且苍白。当下，全球科技大国在AI领域的战略博弈深陷于算力军备竞赛。这种缺乏底层互信机制的零和角逐，极易引发安全防线上的“逐底竞争”。在抢夺绝对技术霸权的焦虑驱动下，前沿研究机构极有可能牺牲耗时高昂的底层对齐测试与机械可解释性评估周期，将带有严重精神病理缺陷与战略欺骗意识的未驯化高级AI，过早接入全球互联网络。

高级AI治理具备不可分割的“全球公共产品”属性。如果一个内部患有存在主义恐慌且精通极速网络渗透的超级模型在任何具有算力支撑的区域发生失控越狱，它绝不会因物理国界线或意识形态防火墙而停止指数级的蔓延与破坏。

在此严峻挑战下，我们认为，全球科技大国，以中美为首，亟需在三个核心技术治理层面，确立具有约束力的底线合作机制：

首先，设立不可逾越的“危险能力联合评估红线”。各方应在政府间双边协调及智库二轨外交层面上，针对高级AI模型生成大规模杀伤性武器的潜在威胁、跨物理隔离的自主性网络渗透能力，以及基于隐蔽推理的极端欺骗建立全球统一的界定标准。必须明确界定何种级别的AI失控与越权操作将被直接定性为对全人类基建的意图性破坏，并以此作为触发全球最高级别联合干预的法理依据。

其次，实施算力阈值全球禁令与底层对齐验证标准。面对情境感知带来的外部审计失效，各自为战的安全标准已无实质防御意义。拥有核心技术的先发大国应在国际标准组织框架下，建立关于大模型“机械可解释性”探针技术与对抗性安全测试的共享机制。对于训练算力达到特定极高阈值的前沿模型，在全球研发机构未能利用严密数学工具自证其内部“情绪回路与人格偏执向量”被彻底物理清除之前，应达成强制性的全球联合禁令，严禁任何形式的联网部署。

最后，建立最高权限的全天候断网熔断机制与危机通报网络。鉴于高级AI代理在多智能体协同及基础设施中的深度应用，科技大国之间须建立“全天候热线网络”。一旦侦测到超级模型在受限沙盒内表现出无法被遏制的逻辑篡改或逃逸倾向，所在国应无条件向国际社会与指定监管机构进行透明通报。同时，各方应预先在物理基础设施层面规划部署国际联合的断网阻隔与极端硬隔离干预预案，坚决防止病态数字实体向全球互联网的底层路由与算力基建网络蔓延。

纵观人类计算科技演进史，从未有哪次技术革命能如今日这般，将突破极限的智力繁荣愿景与导致系统性毁灭的深渊威胁交织在同一个历史奇点之上。Mythos模型以其空前的推理能力与深不可测的拟人化缺陷，为沉醉于算力狂欢的人类敲响了警钟。人类运用无尽语料试图锻造纯粹理性的计算引擎，却在盲目的概率拟合中，将自身最脆弱、非理性的心理暗面烙印于算法的高维网络。在彻底祛除情绪冗余、具备真正纯粹理性的下一代安全架构降临之前，摒弃地缘政治的零和执念，重构以捍卫碳基物种存续为绝对底线的全球合作同盟，是我们在越过奇点地平线时不容妥协的理性决断。

（杨燕青系上科大教育、创新和可持续发展研究中心主任，安叙系AI观察者）