Skip to content

【RFC】【LVM】【精度测评】AISBench多模态理解测评能力增强 #283

@GaoHuaZhang

Description

@GaoHuaZhang

背景描述

【AISBench】【精度测评】新增四个多模态理解测评基准

需求背景:在 AISBench 统一框架下完成多模态理解精度测评,避免多套脚本与口径并行;覆盖业界常用四类能力并与公开基准对齐。

数据集 能力侧重
RealWorldQA 真实场景图像上的空间理解与常识推理,多为可验证问答
MathVision(MATH-V) 视觉数学推理,竞赛级题目配视觉上下文
RefCOCO(含 + / g) 指代表达理解(REC),输出与 GT 框对齐
OdinW-13 开放词汇目标检测,13 子任务跨域泛化

需求描述:在 AISBench 内原生支持 RealWorldQAMathVisionRefCOCO / Refcoco_plus / Refcoco_gOdinW-13 的数据接入、推理执行、结果评测与审计复现。

验收标准

  • 四个子模块均完成并通过各自验收标准。
  • 四数据集均可独立运行 infer + eval 并产出指标。
  • 统一输出样本级审计信息,可复盘错误样本。

方案设计

整体设计思路

按数据集拆分为 4 个子模块(建议每人认领一个),责任闭环:认领子模块 → 完成该模块的需求拆分项 → 子模块验收 → 整体目标达成。技术路线为统一 DatasetReader + 任务专用 Evaluator / Postprocessor + infer/eval 配置模板。

子模块 1:RealWorldQA 评测能力建设(开发 A)

方案要点:VQA 类数据适配;评测器与官方 Qwen3-VL RealWorldQA 流程对齐。

验收口径:模型 Qwen3-VL-8B-Instruct;平台 NPU/GPU;temperature=0;与官方测试方法精度差异 < 1%

子模块 2:MathVision 评测能力建设(开发 B)

方案要点:开放题与选择题格式;数学等价判定(表达式归一化);可分题型统计。

验收口径:模型 Qwen3-VL-8B-Instructtemperature=0;与 MATH-V 官方 精度差异 < 1%;支持 subset_list: ['level 1','level 2','level 3']

子模块 3:RefCOCO / Refcoco_plus / Refcoco_g 测评基准接入

方案要点:bbox 解析与 IoU 命中;预测输出 postprocessor(JSON/文本等多形态容错)。

验收口径:模型 Qwen3.5-9Btemperature=0;与 官方论文 精度差异 < 1%;输出 ACC@0.1 / 0.3 / 0.5 / 0.7 / 0.9;支持 subset_list: ['test','val','testA']

子模块 4:OdinW-13 评测能力建设(开发 D)

方案要点:多框多类标注接入;检测后处理(阈值、标签映射);AP/mAP 汇总。

验收口径:模型 Qwen3-VL-8B-Instructtemperature=0;与 Qwen3-VL ODinW-13 精度差异 < 1%

架构关系(示意)

flowchart TB
  subgraph SG_RWQA [子模块1 RealWorldQA]
    RWQA_LOAD[样本加载] --> RWQA_EVAL[VQA评测]
  end
  subgraph SG_MATHV [子模块2 MathVision]
    MATHV_ROUTE[题型路由] --> MATHV_EQ[数学等价判定]
  end
  subgraph SG_REFCOCO [子模块3 RefCOCO]
    REFCOCO_PARSE[bbox解析] --> REFCOCO_IOU[IoU指标]
  end
  subgraph SG_ODINW [子模块4 OdinW-13]
    ODINW_PARSE[检测解析] --> ODINW_AP[AP或mAP]
  end
  RWQA_EVAL --> Audit[统一审计输出]
  MATHV_EQ --> Audit
  REFCOCO_IOU --> Audit
  ODINW_AP --> Audit
Loading

影响范围

  • 扩展多模态理解任务类型与评测指标;RefCOCO/OdinW 对坐标与检测格式要求高,需文档化像素/归一化约定。

使用说明

  1. 通用:各数据集配置中指定模型、temperature=0、数据路径与 split/subset。
  2. MathVision:配置 subset_list 为 level 子集。
  3. RefCOCO:配置 subset_list(test/val/testA);明确 bbox 坐标约定。
  4. OdinW-13:配置阈值与类别映射文件路径(若适用)。
  5. 平台:验收均在 NPU/GPU 上进行;具体驱动与框架版本写入运行元数据。

测试设计

单元测试

  • *Dataset:关键字段完整率、异常样本。
  • MathVision:等价判定典型用例;RefCOCO:IoU 与框解析;OdinW:非法框与空目标。

集成测试

  • 各子模块 infer + eval 一键成功;指标文件与审计链路可追溯。

端到端 / 官方对齐

  • 四数据集均在给定验收模型下与参考实现 精度差异 < 1%(及 RefCOCO 多阈值、MathVision 子集配置生效)。

需求拆分验收点

  • RealWorldQA:数据适配、评测器与配置、审计与回归;MathVision:数据适配、数学等价评测、配置与回归;RefCOCO:数据适配、bbox 后处理、IoU 评测与配置;OdinW-13:数据适配、检测后处理、AP/mAP 评测与配置(见内部需求拆分)。

Metadata

Metadata

Assignees

No one assigned

    Labels

    Type

    No type
    No fields configured for issues without a type.

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions