Допис

ECHO登场:让CLI Agent边敲命令边学会预判报错

币界网
币界网
币界网消息,微软研究团队发布的ECHO让CLI Agent在强化学习时,不仅学习「下一步该敲什么命令」,还学习「这条命令敲完后,终端会返回什么」。过去训练这类Agent时,终端返回的报错、日志、文件内容、测试结果通常只会进入上下文,帮助模型决定下一步动作,但训练损失主要算在Agent自己生成的命令上,终端返回内容本身不直接参与训练。ECHO改变了这一点:在同一次训练过程中,它会额外要求模型预测终端输出。实验显示,在terminalbench-2.0上,qwen3-8b的通过率从2.70%提升到5.17%,qwen3-14b从5.17%提升到10.79%。ECHO在部分8b实验中达到同等内部分数最少用约2.3倍训练步数,减少了对专家演示数据的依赖。ECHO证明了终端里的报错、日志和测试输出不仅是上下文,也可以直接变成Agent训练数据。

Застереження. Вміст, опублікований на OKX Orbit, надається виключно в інформаційних цілях. Докладніше

Відповіді

Ще немає коментарів. Додайте першу відповідь!

Related Flash News

Аватар джерелаBlockbeats1с тому

OpenAI即将提交IPO申请

Аватар джерелаBlockbeats1с тому

Кастомний стейблкоїн на ланцюгу USDF на Solana запущено

Аватар джерелаBlockbeats1с тому

Текст угоди між США та Іраном увійшов у фінальну стадію: акції США зростали, а спотові золото та срібло — зростали

Аватар джерелаBlockbeats1с тому

Perp DEX Variational完成5000万美元A轮融资,Dragonfly Capital领投

Аватар джерелаBlockbeats1с тому

Morgan Stanley подає оновлені документи для Solana spot ETF

Аватар джерелаBlockbeats1с тому

Catena Labs完成3000万美元A轮融资,a16z crypto与Acrew Capital领投

Аватар джерела币界网30хв тому

Трамп: Можливо, розпочати більш інтенсивний удар по Ірану

Аватар джерелаChainCatcher1г тому

Аналіз показує, що Bitcoin знову під тиском, а ризикові настрої в акціях США пригнічують крипторинок

Аватар джерелаBlockbeats1г тому

Wintermute: Макроекономічний наратив зміщується в бік очікувань підвищення ставок, що підкреслює вразливості кредитного плеча на крипторинку

Аватар джерелаBlockbeats1г тому

Аналіз: Дані ончейнув показують, що під час послідовних падіння BTC великі фонди ще не виходили, з підтримкою близько $76,000