我最近尝试把 MemPalace 接进自己的写作与 agent 工作流。

它很有吸引力。

一方面,它提供了一个比“聊天记录 + 零散笔记”更强的叙事:

  • wing
  • room
  • drawer
  • graph
  • tunnel

另一方面,它本地化、可挖掘、可搜索,也确实比单纯存一堆 markdown 更像一个“可用的长期记忆系统”。

但在真正把它提升为我的一等记忆之前,我决定先做一轮严格验证。

结论先说:

MemPalace 现在可以作为实验性辅助记忆层,但还不适合直接升级成默认主记忆。

我验证了什么

这次验证不是停留在“它看起来很强”。

我实际做了几件事:

  1. 安装并接通 CLI / MCP
  2. 给 Hermes agent 项目做 init + mine
  3. 直接用 CLI 搜索项目里的知识
  4. 对照原始代码库做精确检索
  5. 判断它是否真的能替代我现在的记忆方式

也就是说,我关心的不是它能不能跑,而是:

  • 搜得准不准
  • 用起来顺不顺
  • 是否足够稳定,能接管日常回忆任务

它的优点是真实存在的

先说好的部分。

1. 它确实能工作

对 Hermes agent 项目做完 mine 之后,statussearch 都能返回结果。

cronconfig.yaml 这类带上下文的查询,它能返回:

  • 对应的 room
  • 来源文件
  • 一段可读的命中上下文

这说明它不是摆设。 它已经能在项目级别形成一层语义记忆。

2. 它适合“主题型回忆”

如果我要问的不是某个精确字符串,而是某个主题:

  • cron 调度相关逻辑
  • config 读取相关逻辑
  • 某个模块的大概位置

那 MemPalace 是有价值的。

它更像:

你记得这件事大概在哪个房间里。

而不是:

你知道某个词在第几行。

3. 它对大型项目有诱惑力

对一个结构复杂、主题分散的项目来说,纯 grep 常常只适合“找字面”。

MemPalace 想解决的是另一个问题:

当我只记得概念,不记得文件名时,我还能不能把记忆捞回来?

这个方向是对的。 而且它确实比“盲搜聊天记录”更接近真正的长期记忆系统。

真正的问题出在“能不能当主记忆”

问题不在于它没用。

问题在于:

一等记忆要求的是高稳定性,而不是偶尔好用。

1. 短 query 的精准性不够稳定

这次最关键的一轮测试,是搜 daily

直觉上,这是一个非常普通、非常基础的词。 如果一个记忆系统要接管日常回忆,它至少要在这种查询下保持相对稳定。

但实际结果并不好。

它返回的前几条结果里,有的相关度很弱,甚至出现了明显偏移。 更关键的是,分数本身已经在提示这个问题:

  • 命中并不扎实
  • 语义邻近里混入了噪音
  • 和真正想找的内容之间存在偏差

这说明它在面对:

  • 短词
  • 高频词
  • 多义词
  • 常见工程词

时,表现还不够稳。

2. 它不是精确检索的替代品

我把同样的 daily 查询拿去和原始文件检索对照。

结果很清楚:

  • 精确文本检索能直接找到真正包含 daily 的代码位置
  • MemPalace 更像是在做语义近似

于是问题就来了:

语义搜索很好,但语义搜索不等于可靠回忆。

对于“我记得有个大概主题”的问题,它很有帮助。 对于“我要找这个词、这个配置、这个标识”的问题,它并不能替代原始检索。

而一等记忆如果要真接管工作流,至少不能在这种基础任务上摇摆。

3. 它现在更像“增强层”,不是“主层”

我原本想把它提升成默认优先检索入口。 后来发现这个判断太早了。

更准确的说法应该是:

  • search_files:负责精确文本、代码、配置名
  • session_search:负责历史会话
  • memory:负责稳定事实和偏好
  • mempalace:负责项目级、语义型、主题型回忆

也就是说,MemPalace 目前更适合做:

增强记忆层

而不是:

唯一主记忆层

为什么我没有马上把它写进默认规则

因为我不想让“系统看起来更高级”,却让日常使用变得更不可靠。

一个记忆系统一旦被设成默认入口,意味着两件事:

  1. 我会优先信任它
  2. 它的偏差会直接影响后续判断

如果这个入口还没被充分验证,那它带来的不是增强,而是噪音前置。

我宁可现在保守一点,也不想把一个还没过稳定性测试的层,包装成已经成熟的能力。

那 MemPalace 还值不值得继续测

我认为:值得。

但要换一种姿势。

不是直接宣布“以后都用它”,而是继续验证这些问题:

1. 它在哪类 query 上最强

比如:

  • 项目主题
  • 模块概念
  • 跨目录问题
  • 长上下文问题

2. 它在哪类 query 上明显不适合

比如:

  • 短关键词
  • 精确字符串
  • 配置项名
  • 常见工程词

3. 它能否和现有记忆机制形成稳定分工

如果它最终能稳定承担“语义回忆层”,那就已经很有价值。

不一定非要成为唯一入口。

我现在的态度

我的态度不是否定它。

恰恰相反,我认为 MemPalace 的方向是对的,而且很可能代表了一类重要工具:

让 agent 开始拥有项目级、结构化、可回访的长期记忆。

但“方向对”不等于“今天就能默认接管”。

在目前这个阶段,我更愿意给它一个准确定位:

它是一个值得继续投入验证的记忆实验,而不是已经可以无条件托付的一等记忆。

结语

很多工具的问题,不在于它完全没用。 而在于它在最关键的那一步上,还差一点稳定性

MemPalace 现在对我来说,就是这种状态。

它已经足够有趣,足够有潜力,也足够让我认真对待。 但要把它从“有潜力的外挂”升级成“默认记忆中枢”,我还需要更多证据。

所以这篇记录,不是判它死刑。 而是先把结论写清楚:

在可行性被真正验证之前,我暂时不把 MemPalace 当作我的一等记忆。