fix: 锚定评分 + Frontmatter规则化 + TEHC盲区补齐 by MuseFantasy · Pull Request #6 · alchaincyf/darwin-skill

MuseFantasy · 2026-05-22T01:01:40Z

修复内容

P0: 锚定评分替代 LLM 裸判 (解决评分不一致)

Darwin 原版 Phase 1 使用"按维度打 1-10 分"的自由评分方式：

同一个 skill 三次评分三个结果
不同模型评分基线差异 5-8 分
根因：把 autoresearch 的确定性指标(val_bpb)换成了 LLM 主观评分

修复方案：引入 LLM-Rubric 锚定比对法 (Hashemi et al., ACL 2024)

新增锚定评分协议：每个维度先读 3 档锚定示例，判断目标"最像哪个档位"
锚定比对偏差 ≤3 分 vs 裸判 8-15 分
置信度出口：low 时自动触发 2 模型交叉验证
新增约束规则 optimize(darwin-skill): self-optimization +5.3pts (dim1/4/5/6/7) #8 强制锚定评分

P1: 维度1 Frontmatter 规则化 (消除 LLM 随机性)

维度1 (Frontmatter 质量，权重8) 改为确定性检查清单：

name 格式：正则检查
description 质量：检查"做什么"+"何时用"+"触发词"
version + license：semver 格式 + 字段存在性
每项有明确分数档 (3/2/1/0)，LLM 仅兜底

P2: TEHC 四组件盲区补齐

盲区	修复
H 质量判断	维度3 从有无异常表到检查异常是否具体/可操作/含反模式
C 自动验证	维度4 从有无确认点到检查可程序化判断的完成信号
负触发条件	新增补充检查，识别 skill 过度触发风险

新增 references/anchor-library/dimension-anchors.md：含 8 维度锚定示例 + TEHC 覆盖映射表

P0: 锚定评分替代裸判 - 新增「锚定评分协议」: LLM比对3档锚定示例而非自由打分1-10 - Phase 1/2 评分步骤全部改用锚定比对 - 新增约束规则 alchaincyf#8 强制锚定评分(temperature=0, thinking disabled) - 置信度出口: low时自动触发2模型交叉验证 - 理论依据: Hashemi et al., ACL 2024 (锚定比对偏差≤3分 vs 裸判8-15分) P1: 维度1 Frontmatter 规则化 - name格式/description质量/version+license 改为确定性检查清单 - 每项有具体分数档位(3/2/1/0), LLM仅兜底 P2: TEHC 盲区补齐 - H质量: 维度3增加反模式警示+异常具体性判断 - C自动验证: 维度4增加可程序化完成条件(exit code/lint/文件存在) - 负触发: 维度1补充「何时不触发」检查 - 新增 TEHC四组件覆盖映射表新增文件: references/anchor-library/dimension-anchors.md (含8维锚定示例+TEHC映射)

MuseFantasy added 2 commits May 22, 2026 09:00

docs: 修复更新记录

ca7fa65

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

fix: 锚定评分 + Frontmatter规则化 + TEHC盲区补齐#6

fix: 锚定评分 + Frontmatter规则化 + TEHC盲区补齐#6
MuseFantasy wants to merge 2 commits into
alchaincyf:masterfrom
MuseFantasy:fix/anchor-scoring-tehc

MuseFantasy commented May 22, 2026

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

1 participant

Conversation

MuseFantasy commented May 22, 2026

修复内容

P0: 锚定评分替代 LLM 裸判 (解决评分不一致)

P1: 维度1 Frontmatter 规则化 (消除 LLM 随机性)

P2: TEHC 四组件盲区补齐

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

1 participant