Post

ECHO登场：让CLI Agent边敲命令边学会预判报错

币界网消息，微软研究团队发布的ECHO让CLI Agent在强化学习时，不仅学习「下一步该敲什么命令」，还学习「这条命令敲完后，终端会返回什么」。过去训练这类Agent时，终端返回的报错、日志、文件内容、测试结果通常只会进入上下文，帮助模型决定下一步动作，但训练损失主要算在Agent自己生成的命令上，终端返回内容本身不直接参与训练。ECHO改变了这一点：在同一次训练过程中，它会额外要求模型预测终端输出。实验显示，在terminalbench-2.0上，qwen3-8b的通过率从2.70%提升到5.17%，qwen3-14b从5.17%提升到10.79%。ECHO在部分8b实验中达到同等内部分数最少用约2.3倍训练步数，减少了对专家演示数据的依赖。ECHO证明了终端里的报错、日志和测试输出不仅是上下文，也可以直接变成Agent训练数据。

15:36 · 20.05.26·1.697 Aufrufe·

Haftungsausschluss: OKX Orbit-Inhalt dient nur zu Informationszwecken. Mehr erfahren

Antworten

Noch keine Kommentare. Schreib die erste Antwort!

ECHO登场：让CLI Agent边敲命令边学会预判报错

Antworten

Related Flash News