动态
LLM-Rewrite方案改进+实验
6月1日 12:01
LLM-Rewrite方案是Agent根据环境信息自己修改生成新的Knowledge Context。并非简单选择。 上次提到效果良好的情况,是Knowledge Context中包含Rules和Informations。 而效果不好的情况,则是Agent被初始Knowledge...
通过在线探索,来学习到一些关于环境的知识,来 bridge model 和 真实环境之间的差距,使其能够在离线评测中,对这个环境的建模能够更好。 目前正在Alfworld环境中验证算法。算法确认之后将尝试平滑迁移至其他场景,实现通用的自探索自进化Agent范式。
LLM-Rewrite方案是Agent根据环境信息自己修改生成新的Knowledge Context。并非简单选择。 上次提到效果良好的情况,是Knowledge Context中包含Rules和Informations。 而效果不好的情况,则是Agent被初始Knowledge...
设计并实现了上次组会提到的方案: 1. 环境信息由我们使用代码来提供。 2. 模型只负责选择将哪些信息、知识加入到Knowledge Context中,而非自己去撰写。 目的是适用于各种大小、能力的基座模型,不单单为强大的基座大语言模型服务。 具体实现方法: 1. Agent如何...
分别在主机上和服务器上部署了负责 Thinking 的大模型和Embedding 模型 1. A800集群服务器上部署了Qwen3.6-35B-A3B模型的单卡vLLM推理加速服务。 2. 实验室主机上部署了Qwen3-Embedding-8B模型。
使用这个任务收集关于木亘的项目的问题、建议、缺陷反馈和改进想法。请清晰描述问题或建议,补充相关背景或链接,并说明期望的改进。
木亘的项目已创建。