当前系统能通过 citation / freshness 等事实审计,但不足以判断报告是否真的可交付。典型表现包括:标题说“亚洲综述”但覆盖实际集中在香港和中国内地;区域大盘缺少可比较口径;小样本被过度解释;拍行层级分类不准确;重点作品只写艺术家不写作品;估价口径混用;数据不足时没有明确 limitation。
这些问题不应被拆成许多孤立小 issue,而应抽象成一个最终报告质量门禁问题:系统需要在行业无关层面检查“范围是否匹配标题、样本是否足够支撑结论、实体/作品/案例是否完整、分类和比较口径是否一致、限制条件是否清楚”。
建议修复:
增加 final quality gate,检查标题/任务范围与正文覆盖范围是否一致;若范围不足,必须写明 limitation。
对所有重点案例强制结构化字段:实体名称、作品/对象名称、场次/渠道、时间、价格/指标、为什么重要。
对区域、竞品、拍行、渠道、品类等比较型内容,要求先定义比较口径,再输出结论。
对低样本或低价值案例启用降级规则:证据不足时只写大盘或限制说明,不展开单件小样本。
对“最高、领先、头部、区域纪录、增长、超估价”等判断词做语义审计,要求说明比较范围和口径。
验收标准:
报告标题、执行摘要、一级章节和证据覆盖范围一致。
每个重点案例均有完整识别信息和一句价值解释。
所有比较结论都有清晰口径;样本不足处明确写 limitation。
读者版报告不再把质量修复要求写成正文,而是直接产出修复后的可读分析。
当前系统能通过 citation / freshness 等事实审计,但不足以判断报告是否真的可交付。典型表现包括:标题说“亚洲综述”但覆盖实际集中在香港和中国内地;区域大盘缺少可比较口径;小样本被过度解释;拍行层级分类不准确;重点作品只写艺术家不写作品;估价口径混用;数据不足时没有明确 limitation。
这些问题不应被拆成许多孤立小 issue,而应抽象成一个最终报告质量门禁问题:系统需要在行业无关层面检查“范围是否匹配标题、样本是否足够支撑结论、实体/作品/案例是否完整、分类和比较口径是否一致、限制条件是否清楚”。
建议修复:
增加 final quality gate,检查标题/任务范围与正文覆盖范围是否一致;若范围不足,必须写明 limitation。
对所有重点案例强制结构化字段:实体名称、作品/对象名称、场次/渠道、时间、价格/指标、为什么重要。
对区域、竞品、拍行、渠道、品类等比较型内容,要求先定义比较口径,再输出结论。
对低样本或低价值案例启用降级规则:证据不足时只写大盘或限制说明,不展开单件小样本。
对“最高、领先、头部、区域纪录、增长、超估价”等判断词做语义审计,要求说明比较范围和口径。
验收标准:
报告标题、执行摘要、一级章节和证据覆盖范围一致。
每个重点案例均有完整识别信息和一句价值解释。
所有比较结论都有清晰口径;样本不足处明确写 limitation。
读者版报告不再把质量修复要求写成正文,而是直接产出修复后的可读分析。