还没有填写简介。
通过在线探索,来学习到一些关于环境的知识,来 bridge model 和 真实环境之间的差距,使其能够在离线评测中,对这个环境的建模能够更好。 目前正在Alfworld环境中验证算法。算法确认之后将尝试平滑迁移至其他场景,实现通用的自探索自进化Agent范式。