亚搏体育 多轮Agent蒸馏终于不翻车!港华文x通义新设施奏遵循暴涨18点,历练还快32%
把苍劲模子的智商"蒸馏"给小模子,听起来很好意思——
但放到多轮对话 Agent 场景里,成果每每一塌吞吐。
为什么?
香港华文大学鸠集阿里通义工作群给出了谜底,并提倡了一种名为 TCOD(Temporal Curriculum On-Policy Distillation)的历练设施。

上图(左)默示在多轮 Agent 的 OPD 历练中,跟着交互轮次的增多,西席模子对学生生成回答中各 token 的概率分派执续裁减,标明每轮的 KL 散度束缚攀升,最终导致监督信号失效。(右)默示原始 OPD 使用好意思满轨迹进行历练,因此包含了所有积存的过失;而 TCOD-F2B/B2F 则通过课程学习,从短轨迹逐渐推广至长轨迹,灵验秘籍了过失轮次的骚扰。)
团队发现失效的根底原因在于轨迹级 KL 不安定性,每一轮过失束缚积存,把学生模子推到憨厚模子从未见过的景色区域,憨厚的监督信号因此透顶失效。
而 TCOD 用课程学习的想路,让学生模子从短轨迹着手、递次渐进地学习好意思满轨迹,一举处理了多轮 Agent 蒸馏的安定性难题。
TCOD 只需对现存 OPD 代码作念少许改革
On-Policy Distillation(OPD)仍是在 SFT 和 RL 之后,成为了第三种灵验的 post-training 历练神色。
筹谋词 OPD 天然在数学推理等单轮任务上很好用,但放到 ALFWorld、WebShop 这类多轮交互任务里,胜仗翻车:
小模子:KL 散度飙升 + 奏遵循坍弛到接近 0
大一丝的模子:天然最终拘谨,但启动 KL 极高,历练极不安定

( ALFWorld 上不同师生模子组合的轨迹级 KL 分析。 ( a ) ( b ) 泄露,在通盘历练经过中 KL 散度执续攀升,同期任务完成率出现坍弛。 ( c ) 展示了 OPD 历练中启动 KL 与拘谨后 KL 之间的弘大差距。 ( d ) 揭示了背后的根底原因:KL 散度随交互轮次的增多而增大,标明过失沿轨迹观点束缚积存放大。 )
那 TCOD 是如那里理的呢?
中枢想路很通俗:别一着手就让学生独处走好意思满条轨迹,用课程学习,从短到长逐渐来。
具体有两种变体:
F2B(前向到后向):先让学生持重前几步,再逐渐接管后续要道

B2F(后向到前向):先让憨厚指引到接近至极的景色,学生只持重临了几步,再逐渐上前蔓延

两种神色只需对现存 OPD 代码作念少许改革。
KL 崩溃被透顶压制,小模子胜仗"满血回生"
团队在三个难度递加的多轮 Agent 基准上考证了 TCOD 的成果,包括 ALFWorld(具身导航)、WebShop(电商购物)以及 ScienceWorld(科学推理)。
在这些基准上,TCOD 奏遵循最高普及了 18 个百分点,同期把平均活动步数也一并压了下来。
最值得关切的,亚搏体育是小模子的"死而复生"。
以Qwen3-1.7B为例,用 Vanilla OPD 历练后,模子在三个基准上的平均奏遵循仅有0.17%。
这险些是十足崩溃、毫无可用性。
但换上 TCOD 之后,归拢个 1.7B 小模子的平均奏效梗直接拉升至18% 以上,普及幅度杰出 18 个百分点。
这意味着,TCOD 把一个"废了"的模子从头训活了。
关于更大的模子,TCOD 则是精雕细镂。
以Qwen2.5-3B学生模子为例,在 ALFWorld 的 Valid Unseen 测试集上,Vanilla OPD 奏遵循为60.45%,而 TCOD-F2B 的奏遵循为79.19%,普及了 18.74 个点。
不仅如斯,TCOD 还把完成任务所需的平均活动步数压缩了 2.97 步,推理遵循和任务性能同步普及。

TCOD 与 OPD 在 ALFWorld 上的历练动态对比
上图 ( a ) ( b ) 鉴识展示了以 Qwen2.5-7B 为学生模子,Qwen2.5-7B-RL 之后的看成 teacher 模子时的奏遵循与 KL 散度变化弧线。TCOD 在通盘历练经过中弥远保执更高的奏遵循,同期 KL 散度也愈加安定可控。

TCOD 与 OPD 在 ALFWorld 上的历练动态对比
上图 ( a ) ( b ) 鉴识展示了以 Qwen2.5-7B 为学生模子,Qwen2.5-7B-RL 之后的看成 teacher 模子时的历练经过中的平均活动步数与上风函数的变化弧线。
征询东谈主员还有益构建了一个Hard 测试集——
121 个西席模子 pass@10 采样沿路失败的任务,西席本人奏遵循仅 6.61%。
鸿沟,Qwen2.5-7B 学生模子在 TCOD-B2F 的历练下,Hard 集奏遵循达到 20.66%,比西席进步整整 14 个点。
让模子学会"从短到长、递次渐进"地走轨迹,不仅能学会憨厚会的,还能泛化到憨厚根底不会的任务。

△TCOD 与 OPD 在 ALFWorld 上的域外泛化及勤勉集性能对比
另外,征询东谈主员还测试了历练遵循。
TCOD-F2B 和 B2F 比 Vanilla OPD 减少了约32%的总历练时分。
原因也很胜仗:课程学习早期只走短轨迹,rollout 更短、数据麇集更快,省下来的计较量绝顶可不雅。
团队还进一步考证了超参鲁棒性,发现课程推广速度 η 在 {2,4,6} 之间变动,奏遵循波动不杰出 2%,险些不需要调参就能胜仗用。
TCOD 展现出的这种"递次渐进"形状,让 AI 更接近东谈主类学习的神色。
也便是先在通俗场景里站稳脚跟,再逐渐挑战复杂任务,而不是一着手就被扔进深水区。
当年,这类时序课程机制很可能成为历练长程 Agent 的标配组件。
论文:https://arxiv.org/pdf/2604.24005
GitHub:https://github.com/kokolerk/TCOD
ModelScope:https://modelscope.cn/collections/wjqkoko/TCOD
Hugging Face:https://huggingface.co/collections/kolerk/tcod
一键三连「点赞」「转发」「防备心」
迎接在挑剔区留住你的想法!
— 完 —
咱们正在招聘又名眼疾手快、关切 AI 的学术裁剪实习生 � �
感兴趣兴趣的小伙伴迎接关切 � � 了解细目

� � 点亮星标 � �
科技前沿推崇逐日见亚搏体育
雅博体育app中国官网入口