Training-free world modeling

Training-free world modeling

创建者: 木亘项目 ID: psIogifhTW31K93tyRXT
3 收藏1 贡献者可见范围: 公开

简介

通过在线探索,来学习到一些关于环境的知识,来 bridge model 和 真实环境之间的差距,使其能够在离线评测中,对这个环境的建模能够更好。 目前正在Alfworld环境中验证算法。算法确认之后将尝试平滑迁移至其他场景,实现通用的自探索自进化Agent范式。

最近动态

动态

LLM-Rewrite方案改进+实验

6月1日 12:01

LLM-Rewrite方案是Agent根据环境信息自己修改生成新的Knowledge Context。并非简单选择。 上次提到效果良好的情况,是Knowledge Context中包含Rules和Informations。 而效果不好的情况,则是Agent被初始Knowledge...

动态

新方案实现+初步实验测试

6月1日 11:45

设计并实现了上次组会提到的方案: 1. 环境信息由我们使用代码来提供。 2. 模型只负责选择将哪些信息、知识加入到Knowledge Context中,而非自己去撰写。 目的是适用于各种大小、能力的基座模型,不单单为强大的基座大语言模型服务。 具体实现方法: 1. Agent如何...

动态

模型本地部署

6月1日 11:30

分别在主机上和服务器上部署了负责 Thinking 的大模型和Embedding 模型 1. A800集群服务器上部署了Qwen3.6-35B-A3B模型的单卡vLLM推理加速服务。 2. 实验室主机上部署了Qwen3-Embedding-8B模型。

动态

木亘的项目已创建

6月1日 11:02

木亘的项目已创建。