Публикация

ECHO登场:让CLI Agent边敲命令边学会预判报错

币界网
币界网
币界网消息,微软研究团队发布的ECHO让CLI Agent在强化学习时,不仅学习「下一步该敲什么命令」,还学习「这条命令敲完后,终端会返回什么」。过去训练这类Agent时,终端返回的报错、日志、文件内容、测试结果通常只会进入上下文,帮助模型决定下一步动作,但训练损失主要算在Agent自己生成的命令上,终端返回内容本身不直接参与训练。ECHO改变了这一点:在同一次训练过程中,它会额外要求模型预测终端输出。实验显示,在terminalbench-2.0上,qwen3-8b的通过率从2.70%提升到5.17%,qwen3-14b从5.17%提升到10.79%。ECHO在部分8b实验中达到同等内部分数最少用约2.3倍训练步数,减少了对专家演示数据的依赖。ECHO证明了终端里的报错、日志和测试输出不仅是上下文,也可以直接变成Agent训练数据。

Дисклеймер: контент OKX Orbit предоставляется исключительно в информационных целях. Подробнее

Ответы

Комментариев еще нет. Будьте первым!

Related Flash News

Аватар по умолчаниюBlockbeats1 с. назад

Адреса, аффилированные с Grayscale, приобрели и стейкливали более 510 000 акций HYPE, что составляет около 24,95 миллиона долларов

Аватар по умолчаниюBlockbeats1 с. назад

Источники: Трамп планирует подписать исполнительный указ по кибербезопасности ИИ уже в четверг

Аватар по умолчаниюBlockbeats1 с. назад

Hyperliquid FDV超越Solana

Аватар по умолчаниюBlockbeats1 с. назад

Sui запускает переводы стейблкоинов без газа, чтобы упростить глобальную платежную инфраструктуру

Аватар по умолчаниюBlockbeats1 с. назад

Акции в Японии и Южной Корее открылись ростом

Аватар по умолчаниюBlockbeats1 с. назад

Два адреса получили более 110 000 SOL, что составляет почти 10 миллионов долларов

Аватар по умолчаниюBlockbeats1 с. назад

«Рупор ФРС»: Обсуждения снижения ставок почти завершены, и ФРС начала серьёзно обсуждать возможность повышения ставок

Аватар по умолчаниюBlockbeats1 с. назад

Протоколы заседаний Федеральной резервной системы: возможно, потребуется сохранять текущую политику дольше, чем ожидалось

Аватар по умолчанию币界网47 мин. назад

Defiance ETF подали заявки на новые денежные рыночные ETF, соответствующие Закону Genius

Аватар по умолчанию币界网1 ч. назад

Партнёр Dragonfly: Модель ордербука Hyperliquid не может решить проблемы ликвидности RWA