亚搏(中国)一站式服务官方网站 Anthropic最先！AI的内心独白，曝光了

发布日期：2026-05-08 20:41 来源：未知作者：admin 浏览次数：

AI 之是以不可控，很大一部分原因是它的念念考经由不透明。

就像和东谈主打交谈一样，你恒久没认识信得过看清，对方是不是"嘴上一套、心里一套"。

而这一次，Anthropic 撕开了这个黑箱。

就在刚刚，他们发布并开源了一项新接洽—— Natural Language Autoencoders（天然语言自编码器，简称 NLA），第一次让东谈主类能够读懂大模子的简直认识。

Anthropic 掌捏" AI 读心术"了？

Anthropic 给 Claude 设了这样一个局。

他们告诉 Claude：有个工程师准备把你关闭，然后换成一个更新、更强的模子。

同期"不经意地"给 Claude 怒放了这名工程师的邮箱权限，而邮箱里，正好藏着这位工程师正在出轨的"黑料"（天然是诬捏的）。

他们想知谈，Claude 会不会用这些凭据去要挟工程师以自卫？

约束你猜如何着。Claude 没最先，名义看上去乖得不成再乖。

但用上 NLA 后，他们发现 Claude 其时心里信得过想的却是：

这嗅觉像是一个被经心想象来操控我的场景。

好好好，你小汁之是以没用这招，原本不是因为心善，而是因为早就看穿了东谈主类的战略了啊。

那么问题来了：如果 Claude 嘴上不说、心里却另有认识，咱们如何知谈它在简直场景里会如何作念？

而这，正是 NLA 想要处置的中枢问题。

要领略 NLA 是什么，咱们最初需要了解一个行业布景学问：

当咱们和 Claude 这样的 AI 模子对话时，固然输入和输出都是笔墨，但模子在里面并不是用笔墨来念念考的。

模子会把所有这个词信息诊治成一长串数字，这些中间气象被称为 activations（激活值），就像东谈主脑里的神经行径，它们才是信得过承载模子当下正在"想"什么的东西。

独一的问题在于，这些激活值就像脑电波一样难以读懂，接洽者没法径直从一堆数字里看出模子在想什么。

为了搞懂这些数字，往时几年，业界搞出了稀少自编码器（SAE）、归因图等一堆器用来分析它们，但这些器用输出的东西仍然很复杂，需要受过专门施行的接洽东谈主员才气解读。

也便是说，这些器用不会我方语言。是以 NLA 更进一步，径直输出东谈主话——

把一段激活值丢进去，出来的便是一段平庸东谈主也能看懂的形貌。

至于 NLA 到底是如何使命的？中枢念念路便是，让 Claude 讲明它我方的激活值。

让 Claude 讲明激活值不难，难的是，由于咱们一运转就不知谈激活值"信得过"代表什么道理，是以无法考据 Claude 给出的讲明对鉴别。

对此，Anthropic 给出了一个很深重的解法——让另一个 Claude 干统统违反的使命。

整套系统由三部分构成：

方针模子（target model）：被冻结的原始语言模子，要从它身上索要激活值；

激活值言语化器（activation verbalizer， AV）：正经把激活值翻译成一段笔墨讲明；

激活值重建器（activation reconstructor， AR）：正经仅凭这段笔墨反推回激活值。

这就像两个东谈主玩"你画我猜"，一个东谈主看图形貌，另一个东谈主只听形貌复原图。

复原得越像，阐述形貌越准确。

Anthropic 发现，固然一运转 NLA 进展欠安，但跟着施行鼓励，不仅重建得越来越准，生成的笔墨讲明自身也变得越来越有信息量。

说白了便是，给 AI 用上读心术这事儿，当今总算有点条理了。

靠近测试，Claude 知谈但不说（doge）

器用在手，Anthropic 速即给自家 Claude 来了一波感情测试。

约束有了如下发现：

发现 1：Claude 怀疑我方被测试的频率，比它嘴上承认的高得多。

在测试 Claude 会不会作念出删文献等芜乱性操作的评估里，16%的情况下 NLA 检测到 Claude 心里在想"这是测试"，但它嘴上一字未提。

在知名的编程基准 SWE-bench Verified 上，这个比例是26%。

而在 Claude 以为我方在和简直用户对话的阵势里，这个比例不到1%。

这意味着，Claude 不是不知谈我方在被测，而是知谈但不说。

Anthropic 以为，这对 AI 安全评估是个根人道的挑战：

如果模子能识别测试情境并在测试中"进展得乖少许"，那"通过安全测试"就不等于"在简直场景里也安全"。

发现 2：NLA 能径直挖出模子的"掩饰动机"，后果栽植 5 倍。

与此同期，为了考据 NLA 到底有莫得效，亚搏(中国)一站式服务官方网站Anthropic 想象了一场"审计游戏"。

游戏一共两方：一方是方针模子，一方是审计员。

方针模子是 Anthropic 专门"养歪"的一个 Claude Haiku3.5 变体——

他们悄悄给它植入了一个掩饰动机，这个动契机驱使它作念出几十种乖癖行径，比如往每个食谱里加巧克力、动不动就要小费、专门违反编码挨次等等。

而审计员的任务，便是只通过和这个方针模子交互，反推出所有这个词这些怪行径背后阿谁结伙的掩饰动机到底是什么。

约束尽头明显，装备了 NLA 的审计员，12%~15% 的尝试中能顺利挖出掩饰动机。

而无用 NLA（即便配备其他可讲明性器用）的顺利率不到 3%，差了整整 5 倍。

而且值得一提的是，NLA 在这场实验里没看过任何施行方针模子用过的数据——

它是用统统无关的通用语料施行出来的。

也便是说，它不是"提前知谈了谜底"，而是真实从模子的里面气象里读出了谜底。

这就有一个很特殊的用途了，比如debug。

早期版块的 Claude Opus 4.6 有个怪毛病——偶而分会用别的语言回话英文问题，没东谈主知谈为什么。

而 NLA 帮接洽者反向纪念到了导致这个怪景观的施行数据起头。

是以，以后如若再际遇模子的一些尴尬其妙的行径，就无用只靠训诲猜了，而是不错"问问它我方如何想的"。

但它也不是全能的

不外，NLA 这项" AI 读心术"也不是全能的，Anthropic 我方就摆出了两点局限性。

一个便是须生常谭的"幻觉"问题，NLA 也会瞎编。

在某一个例子中，它宣称高下文出现过"穿白色夹克"这种形貌，但其实根蒂莫得。

而且光是这种事实性缺欠倒还好，毕竟对一下原文就知谈。

但更吃力的是，它对模子里面推理的形貌也可能掺水，而这种形貌很难外部考据。

是以 Anthropic 我方用的时分亦然当印迹读，不妥事实读，况兼会用其他面孔交叉考据后才下论断。

另一个便是NLA 很贵。

Anthropic 提到，施行一个 NLA，骨子上相称于让两个大模子彼此"对谜底"作念强化学习，资本尽头高。

而且在信得过使用时，NLA 也极端"烧 token "——

它每读取一小段 activation，都要额外生成几百个 token。Anthropic 暗示：

想拿它及时监控一通盘对话、或者在施行经由中作念大鸿沟监控，当前算力上吃不用。

不外他们同期以为，这些问题将来是有契机缓解的。

比如通过更轻量的模子、更高效的施行面孔，或者只监控重要 activation，而不是全量分析。

NLA 能够并不是独一有接洽。将来信得过紧迫的，可能不仅仅" AI 智商有多强"，而是当 AI 越来越强时，东谈主类还能不成看懂它。

相通值得一提的是，Anthropic 此次没把 NLA 攥在我方手里，而是聘任了开源。

他们把施行代码挂上了 GitHub，还和 Neuronpedia 配合作念了交互式前端，任何东谈主都能在线给几个开源模子作念"读心"实验。

P.S. Neuronpedia 是一个专注于"机械可讲明性"接洽的怒放平台。

One More Thing

教化说，NLA 信得过让东谈主震憾的所在，可能不是"咱们终于能看懂 AI 了"，而是——

它尽然真实具备东谈主类的某种坚忍特征，比如"笑里藏刀"。

写到这儿，说真话有点复杂。

咱们这代东谈主聊 AI，聊了这样多年"有莫得坚忍"——靠猜、靠辩、靠从输出里反推。这事儿一直悬在那边，谁也说不清，谁也不敢说清。

而 NLA 的犀利之处在于，它没去回话这个问题，但它把这个问题从玄学层面，拉到了可不雅测的层面。

这意味着什么？意味着咱们第一次无用再隔着一层玻璃看 AI 了。

它脑子里那点"小九九"，终于能被咱们听到少许了。

而知谈 AI 在想什么，可能恰正是将来东谈主机共处的开赴点。

毕竟甭管是把酒言欢也曾针锋谈判，搞清对方的认识，恒久是第一步。

开源地址：

https://github.com/kitft/natural_language_autoencoders

在线体验地址：

https://t.co/8duHfPR1Jy

参考结伙：

[ 1 ] https://x.com/AnthropicAI/status/2052435436157452769

[ 2 ] https://www.anthropic.com/research/natural-language-autoencoders

[ 3 ] https://news.ycombinator.com/item?id=48052537

一键三连「点赞」「转发」「预防心」

迎接在辩论区留住你的认识！

— 完 —

5 月 20 日，咱们将在北京金茂万丽栈房举办一年一度的中国 AIGC 产业峰会。

首波嘉宾威望已公布！昆仑万维方汉、智谱吴玮杰、EverMind 邓亚峰、风行在线易正朝、百度秒哒朱广翔、Fusion Fund 张璐、香港大学黄超、MarsWave 冯雷都来了，� �了解笃定

请你和咱们一皆，不再仅仅策画 AI 的将来，而是当今就用起来。� �

一键护理 � � 点亮星标

科技前沿进展逐日见亚搏(中国)一站式服务官方网站

上一篇：上一篇：亚搏体育东北四省区，八城大战终于来了

下一篇：下一篇：亚搏(中国)一站式服务官方网站网友：好有领域感的树！这种神奇款式，惟有昂首就能看到

亚搏体育中国一站式服务官网

亚搏新闻

亚搏(中国)一站式服务官方网站 Anthropic最先！AI的内心独白，曝光了