Post

ECHO登场:让CLI Agent边敲命令边学会预判报错

币界网
币界网
币界网消息,微软研究团队发布的ECHO让CLI Agent在强化学习时,不仅学习「下一步该敲什么命令」,还学习「这条命令敲完后,终端会返回什么」。过去训练这类Agent时,终端返回的报错、日志、文件内容、测试结果通常只会进入上下文,帮助模型决定下一步动作,但训练损失主要算在Agent自己生成的命令上,终端返回内容本身不直接参与训练。ECHO改变了这一点:在同一次训练过程中,它会额外要求模型预测终端输出。实验显示,在terminalbench-2.0上,qwen3-8b的通过率从2.70%提升到5.17%,qwen3-14b从5.17%提升到10.79%。ECHO在部分8b实验中达到同等内部分数最少用约2.3倍训练步数,减少了对专家演示数据的依赖。ECHO证明了终端里的报错、日志和测试输出不仅是上下文,也可以直接变成Agent训练数据。

Haftungsausschluss: OKX Orbit-Inhalt dient nur zu Informationszwecken. Mehr erfahren

Antworten

Noch keine Kommentare. Schreib die erste Antwort!