Skip to content

fix: 锚定评分 + Frontmatter规则化 + TEHC盲区补齐#6

Open
MuseFantasy wants to merge 2 commits into
alchaincyf:masterfrom
MuseFantasy:fix/anchor-scoring-tehc
Open

fix: 锚定评分 + Frontmatter规则化 + TEHC盲区补齐#6
MuseFantasy wants to merge 2 commits into
alchaincyf:masterfrom
MuseFantasy:fix/anchor-scoring-tehc

Conversation

@MuseFantasy

Copy link
Copy Markdown

修复内容

P0: 锚定评分替代 LLM 裸判 (解决评分不一致)

Darwin 原版 Phase 1 使用"按维度打 1-10 分"的自由评分方式:

  • 同一个 skill 三次评分三个结果
  • 不同模型评分基线差异 5-8 分
  • 根因:把 autoresearch 的确定性指标(val_bpb)换成了 LLM 主观评分

修复方案:引入 LLM-Rubric 锚定比对法 (Hashemi et al., ACL 2024)

P1: 维度1 Frontmatter 规则化 (消除 LLM 随机性)

维度1 (Frontmatter 质量,权重8) 改为确定性检查清单:

  • name 格式:正则检查
  • description 质量:检查"做什么"+"何时用"+"触发词"
  • version + license:semver 格式 + 字段存在性
  • 每项有明确分数档 (3/2/1/0),LLM 仅兜底

P2: TEHC 四组件盲区补齐

盲区 修复
H 质量判断 维度3 从有无异常表到检查异常是否具体/可操作/含反模式
C 自动验证 维度4 从有无确认点到检查可程序化判断的完成信号
负触发条件 新增补充检查,识别 skill 过度触发风险

新增 references/anchor-library/dimension-anchors.md:含 8 维度锚定示例 + TEHC 覆盖映射表

P0: 锚定评分替代裸判
- 新增「锚定评分协议」: LLM比对3档锚定示例而非自由打分1-10
- Phase 1/2 评分步骤全部改用锚定比对
- 新增约束规则 alchaincyf#8 强制锚定评分(temperature=0, thinking disabled)
- 置信度出口: low时自动触发2模型交叉验证
- 理论依据: Hashemi et al., ACL 2024 (锚定比对偏差≤3分 vs 裸判8-15分)

P1: 维度1 Frontmatter 规则化
- name格式/description质量/version+license 改为确定性检查清单
- 每项有具体分数档位(3/2/1/0), LLM仅兜底

P2: TEHC 盲区补齐
- H质量: 维度3增加反模式警示+异常具体性判断
- C自动验证: 维度4增加可程序化完成条件(exit code/lint/文件存在)
- 负触发: 维度1补充「何时不触发」检查
- 新增 TEHC四组件覆盖映射表

新增文件: references/anchor-library/dimension-anchors.md (含8维锚定示例+TEHC映射)
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Labels

None yet

Projects

None yet

Development

Successfully merging this pull request may close these issues.

1 participant