Training-free world modeling

创建者: 项目 ID: psIogifhTW31K93tyRXT

3 收藏1 贡献者可见范围: 公开

简介

通过在线探索，来学习到一些关于环境的知识，来 bridge model 和真实环境之间的差距，使其能够在离线评测中，对这个环境的建模能够更好。目前正在Alfworld环境中验证算法。算法确认之后将尝试平滑迁移至其他场景，实现通用的自探索自进化Agent范式。

动态

6月1日 12:01

LLM-Rewrite方案是Agent根据环境信息自己修改生成新的Knowledge Context。并非简单选择。上次提到效果良好的情况，是Knowledge Context中包含Rules和Informations。而效果不好的情况，则是Agent被初始Knowledge...

动态

6月1日 11:45

设计并实现了上次组会提到的方案： 1. 环境信息由我们使用代码来提供。 2. 模型只负责选择将哪些信息、知识加入到Knowledge Context中，而非自己去撰写。目的是适用于各种大小、能力的基座模型，不单单为强大的基座大语言模型服务。具体实现方法： 1. Agent如何...

动态

6月1日 11:30

分别在主机上和服务器上部署了负责 Thinking 的大模型和Embedding 模型 1. A800集群服务器上部署了Qwen3.6-35B-A3B模型的单卡vLLM推理加速服务。 2. 实验室主机上部署了Qwen3-Embedding-8B模型。

动态

6月1日 11:02

木亘的项目已创建。