Xihe 羲和 · 精心打磨的 agent 平台

哲学

 模型是杠杆。harness 是支点。品味，是区分度。 

可靠性是工程出来的，不是 prompt 出来的

它来自环绕模型的系统。契约钉住不变量，verifier 强制执行；模型则在护栏之内自由地出彩。

哪怕每个测试都绿，verifier 仍在高风险接缝上激发

证据高于直觉

由数据、测试、度量来定夺，不靠感觉。即便通过了 spec 的改动，在高风险接缝上仍要再挨一轮对抗式审视。

计划点名的每个标识符，落笔前都先核实存在 (R6)

为半年后的今天而造

不留“先这样”的捷径。一次规划到位，胜过十次打补丁。这套底座本就为复制到其它 agent-runtime 形态而设计。

整套底座是一张可迁移的 SQLite 文件，生来为复制到其它 runtime

底座开源，品味归你

Xihe 交付通用 harness：编排、记忆、技能、护栏。你的业务逻辑、你的品牌、你的密钥，都仍是你的。

通用内核零领域；你的逻辑与密钥留在注入的 pack 里

是品味之别

相同的模型，不同的结果

品味不是装饰，而是一组会复利的默认值——业界为求稳而做的选择，这里有意做得不一样。

Xihe

独一无二 > 大众主流

业界

主流 > 独特

共识为平庸而优化。

Xihe

第一性原理 > 取巧

业界

取巧 > 原理

取巧会腐烂。原理会复利——按需加载把冻结的 33k token prompt 砍了约 47%。

Xihe

北欧式克制 > 冗繁

业界

啰嗦显得“安全”

少，不是缺失，而是决定。

Xihe

为质量买单 > 偷工减料

业界

不惜代价省算力

质量从不免费——best-of-N 用并发买它，每片叶上下文 −92%。

规格驱动，证伪检验

方法论，把架构与偶然分开

寻常的交付写下 spec、照着实现、验收通过就发布。Xihe 加了后半程：spec 成为可证伪的契约，而通过它只是地板，不是天花板。

寻常 SDD

Spec
编码
部署
验收

Xihe · SDD + TDD

Spec + 契约
实现
对抗式证伪
Outside-in 验收
通过 ≠ 正确

Contract

一份契约，四个部件

Types

Validation

iii

State machine

Given-When-Then

通过验收不代表正确。只有活过被尝试的证伪才算。

Falsifiable

当代码证伪了契约

契约是假设，不是圣旨。当实现暴露它错了，契约让路——而且改动留痕，绝不静默。一个真实实例，取其形：

契约原写每次写入都脱敏密钥——把闸装在 validateFactWrite 里

代码暴露它把用户显式的"remember"也拦了——用户主权被否决

契约让路密钥脱敏改为只对自动学习路径 opt-in；显式 remember 绕过它——留痕在案

多数站点用绿勾证明严谨。我们展示一处方法推翻了作者的地方。

转折点

通过，不等于正确

一套绿测只证明代码匹配了 spec——而 spec 可能是错的。通过是地板，不是天花板。

对抗式证伪

高风险接缝交给专职反驳结果的怀疑者——哪怕每个测试都绿。

Outside-in 验收

行为在意图层、从外部被验证，而不只在它写来对付的那个单元上。

绿是入场费，不是终点线。

Drift detection

漂移检测与回正

当推理开始走神，检测器会给漂移分类，并把运行拉回到上一个良好锚点——没有静默的劣化。

真漂移——方向错了

合理化——借口在成形

范围蔓延——任务在膨胀

过早求解——跳过了诊断

断线——上下文丢了

没有静默劣化。被检测、被分类、被回正。

模式与认知模式

把 harness 的思考方式摊开讲明

面对一个错别字和一个新子系统，agent 不该用同一种方式推理。Xihe 为每桩任务路由到一种认知模式；而无论用哪种模式，总有几条模式始终成立。

模式		何时	方法
M1	根因	bug · 事故	五问 + 蓝军自检 + 横扫同类
M2	第一性原理	干净新建	质疑 → 删除 → 简化 → 加速 → 自动化
M3	做减法	重构 · 清理	删除优先；每一行都要挣得其位
M4	搜索先行	根因未知	先搜先例，再下判断
M5	反向工作法	架构 · 新模块	先写 PR / FAQ，再写代码
M6	证据驱动	性能 · 质量	数据、测试、度量，胜过直觉
M7	闭环	部署 · 运维 · 默认	定目标 → 追过程 → 拿结果

契约先行

类型、校验、状态机与验收测试，在写码前钉住不变量。冲突的实现让路；被代码证伪的契约也让路，并留痕在案。

证据路由

任何点名具体标识符（字段、表、RPC）的计划，落笔前必须先核实其存在。结构层 agent 测绘，事实层工具坐实。

复杂度路由

动手前先定大小：单文件微调、有标杆的多文件改动，或值得整套规划加跨模型评审的跨层新建。

对抗式校验

高风险接缝交给独立的怀疑者，专职反驳结果。通过 spec 还不够；活过对抗才算数。

投入匹配爆炸半径

不是每个任务都配同样的仪式

agent 不该用同一种方式推理一个错别字和一个新子系统。动手前先定大小，触发的纪律随风险升降。

Vibe

单文件

改个 CSS、一句注释、一行配置。做、验证、收工——不规划。

Lite

2–5 文件，有标杆

有标准可循的改动。auto-enhance、直接建、验证。

Full

跨层 · 新模块 · 安全

换来整套规划、一份可证伪契约，以及写码前的跨模型评审。

仪式是成本。花在爆炸半径真实的地方。

规划模式

一个只读的审议座舱

普通 plan mode 能读、能推理但不能写，然后给你一份计划。Xihe 在其上嵌入一整座座舱：一场会记忆、会摄取、会自我对辩、并硬化成契约的审议——在写下任何一行代码之前。

我们内嵌了什么

普通 plan mode

能读能推理、不能写
产出一份计划
你批准，然后它开建

Xihe plan mode

一本常驻台账——每条决策每轮重注入，计划不会遗忘也不漂移
只读闸 + 文档放行——src 锁死，但计划与 SDD 仍可写
自动知识摄取——粘贴一个 URL，自动抓取、蒸馏、折进来，无需命令
context 阶段感知——盯着窗口多满，在溢出前先收割

座舱，按命令

进入

shift+tab · /plan 开关座舱

审议

/note <决策> 记进台账——每轮重注入

/grill 对抗式逼问 → 契约 + ADR delta

/council [deep] N 视角 → 评审 → 嫁接合成 (best-of-N)

/model 切换规划模型与思考档

摄取

/ref <url> 抓取+蒸馏链接进台账 (粘贴 URL 也自动摄取)

/search <query> 元搜索更多来源，蒸馏进 context

收割

/crystallize 把审议存进跨 session 结晶库 (满则顺带 compact)

/sdd 产出结构化 SDD + TDD 计划落 docs/plan

/crystals 召回过往 session 的结论到这一场

先规划，后花费。座舱让计划成为活的产物，而不是一次性 prompt。

第二个模型，对抗式

跨模型评审，且有界计时

另一个模型（Codex）评审工作——是 cross-lens，不是橡皮图章。它的 finding 是视角、不是 ground truth；品位可以覆盖它。轮数有上限，免得评审本身变成 slop。

G1 Plan 一轮，phase 开始前

G2 Phase 每个 phase 末一轮

G3 Release 一轮 + 至多一次修复 cycle

认真对待

可复现 P0/P1 bug，带 file:line
具体的契约违反
真实的机制级 ship-blocker

拒为 slop

niche / 理论性 / "规模化才有用"
遥测、仪表盘、coverage-of-coverage
风格偏好 · 无复现的假设性竞态

过了第二轮，评审 ROI 断崖下跌。我们有意停手。

要收敛，不只是跑完

迭代到不动点

一遍很少就对。整张图跑一遍，judge 问"收敛了吗？"，没有就把失败原因喂回去、conductor 重画——一轮接一轮，直到收敛或触到有界上限。

01 跑整张 DAG

02 judge：收敛没？

03 失败原因喂回

04 conductor 重画

↻ until fixpoint

有界，绝不失控

硬性轮数上限（默认 3）——要么收敛、要么干净停手，绝无死循环。

会换更强的脑子

卡了一两轮？conductor 升级到更强的模型重画——不是同一个脑子硬刚。

只一个循环，不嵌套

fixpoint judge 是唯一的 verify 循环；executor 内部 verify 在这层被关掉，两层不嵌套、成本不翻倍。

一次通过是运气。收敛是循环的性质。

为设计而生的 token 效率

上下文即现金——所以我们只花一次

质量从不免费，但浪费是一种选择。harness 被刻意设计成让每个 token 都花在刀刃上：共享上下文只算一次、工具按需加载、推理以代码而非散文运行。

01 冻结前缀缓存

每片叶上下文 −92%。共享上下文只算一次并冻结，每片叶子继承它、而非重算——这正是 DeepSeek 256 路、MiMo 8 路付得起的原因。

上下文的税，只交一次。

02 MCP 网关

工具 schema token 砍约 70%。所有工具收敛到单一路由；菜单常驻，schema 按需加载而非撑爆每次 prompt。机制本身在 Harness 页。

一纸契约，统御众工具。

03 Code mode

大结果 1 MB → 7 KB。把冗长推理变成代码：在脚本里算出答案、只返回结果，而不是整个文件。

用代码思考，不用段落。

背后的品位：为质量买单，绝不为浪费买单。

会学习的路由

它学出该信哪个模型

我们不替你永久钦定"DeepSeek 干 coding"。对每类 leaf，一个 ε-greedy bandit 多数时候用当前最优模型、偶尔试别的、按 reward 更新——路由自己越跑越准，每个部署各学各的。

exploit · best so far ε explore · try another → reward · verifier verdict

reward = verifier

一片 leaf 的 reward = 它自身成功 × verifier 的裁决。守质量的那道检查，正好教路由"什么值这个钱"。

自演化，非预设

它 ship 的是机制，不是调好的策略。你的模型阵容和任务独一无二——bandit 从你自己的运行里学你的。

生来安全

冷启动 = 今天的静态路由——day-1 行为，零回归。探索有界；选错被 verifier 抓住并升级。学到的表存进 SQLite，跨 session 复利。

把算力花在刀刃上——是学出来的，不是钦定的。

并发经济学

N 次尝试，一个赢家——账单却很小

质量与成本通常此消彼长。冻结前缀加一支评审团，让 Xihe 用并发而非 token 来买质量——所以我们推崇便宜、快的模型铺开跑：用 DeepSeek v4-flash 并发产出对手方案，用 MiMo v2.5 接手多模态执行。一次尝试是抛硬币；十次尝试经评分嫁接，是"最优者必然胜出"的保证。

每次尝试按成本、质量、延迟评分。赢家被嫁接进主树，其余丢弃。没有盲目的运气。

把它对准那些"一次猜错就要命"的活

承重式重构

当改动触及万物所依的代码，你要的不是第一个看着过得去的 diff，而是那个熬过四个对手的。

开放式设计抉择

一个有十种合理形态、却没有明显赢家的问题。并行生成这些形态，让评审团把它们辩到只剩一个。

模糊或欠定的 spec

单次是抛硬币，N 次会收敛。尝试之间的离散度本身就是信号——它在说 spec 还需打磨。

代价后置的错误

任何此刻犯错很便宜、到了生产环境才发现就毁灭性的东西。在这里付一点并发，就再不必付那场事故。

token 都花在哪

标准的逐叶上下文 100%

Xihe 冻结前缀 8%

−92%

共享上下文，只算一次，被每片叶子继承