背景描述
【AISBench】【精度测评】新增四个多模态理解测评基准
需求背景 :在 AISBench 统一框架下完成多模态理解精度测评,避免多套脚本与口径并行;覆盖业界常用四类能力并与公开基准对齐。
数据集
能力侧重
RealWorldQA
真实场景图像上的空间理解与常识推理,多为可验证问答
MathVision(MATH-V)
视觉数学推理,竞赛级题目配视觉上下文
RefCOCO(含 + / g)
指代表达理解(REC),输出与 GT 框对齐
OdinW-13
开放词汇目标检测,13 子任务跨域泛化
需求描述 :在 AISBench 内原生支持 RealWorldQA 、MathVision 、RefCOCO / Refcoco_plus / Refcoco_g 、OdinW-13 的数据接入、推理执行、结果评测与审计复现。
验收标准 :
四个子模块均完成并通过各自验收标准。
四数据集均可独立运行 infer + eval 并产出指标。
统一输出样本级审计信息,可复盘错误样本。
方案设计
整体设计思路
按数据集拆分为 4 个子模块 (建议每人认领一个),责任闭环:认领子模块 → 完成该模块的需求拆分项 → 子模块验收 → 整体目标达成。技术路线为统一 DatasetReader + 任务专用 Evaluator / Postprocessor + infer/eval 配置模板。
子模块 1:RealWorldQA 评测能力建设(开发 A)
方案要点 :VQA 类数据适配;评测器与官方 Qwen3-VL RealWorldQA 流程对齐。
验收口径 :模型 Qwen3-VL-8B-Instruct ;平台 NPU/GPU;temperature=0 ;与官方测试方法精度差异 < 1% 。
子模块 2:MathVision 评测能力建设(开发 B)
方案要点 :开放题与选择题格式;数学等价判定 (表达式归一化);可分题型统计。
验收口径 :模型 Qwen3-VL-8B-Instruct ;temperature=0 ;与 MATH-V 官方 精度差异 < 1% ;支持 subset_list: ['level 1','level 2','level 3'] 。
子模块 3:RefCOCO / Refcoco_plus / Refcoco_g 测评基准接入
方案要点 :bbox 解析与 IoU 命中;预测输出 postprocessor(JSON/文本等多形态容错)。
验收口径 :模型 Qwen3.5-9B ;temperature=0 ;与 官方论文 精度差异 < 1% ;输出 ACC@0.1 / 0.3 / 0.5 / 0.7 / 0.9 ;支持 subset_list: ['test','val','testA'] 。
子模块 4:OdinW-13 评测能力建设(开发 D)
方案要点 :多框多类标注接入;检测后处理(阈值、标签映射);AP/mAP 汇总。
验收口径 :模型 Qwen3-VL-8B-Instruct ;temperature=0 ;与 Qwen3-VL ODinW-13 精度差异 < 1% 。
架构关系(示意)
flowchart TB
subgraph SG_RWQA [子模块1 RealWorldQA]
RWQA_LOAD[样本加载] --> RWQA_EVAL[VQA评测]
end
subgraph SG_MATHV [子模块2 MathVision]
MATHV_ROUTE[题型路由] --> MATHV_EQ[数学等价判定]
end
subgraph SG_REFCOCO [子模块3 RefCOCO]
REFCOCO_PARSE[bbox解析] --> REFCOCO_IOU[IoU指标]
end
subgraph SG_ODINW [子模块4 OdinW-13]
ODINW_PARSE[检测解析] --> ODINW_AP[AP或mAP]
end
RWQA_EVAL --> Audit[统一审计输出]
MATHV_EQ --> Audit
REFCOCO_IOU --> Audit
ODINW_AP --> Audit
Loading
影响范围
扩展多模态理解任务类型与评测指标;RefCOCO/OdinW 对坐标与检测格式要求高,需文档化像素/归一化约定。
使用说明
通用 :各数据集配置中指定模型、temperature=0 、数据路径与 split/subset。
MathVision :配置 subset_list 为 level 子集。
RefCOCO :配置 subset_list(test/val/testA);明确 bbox 坐标约定。
OdinW-13 :配置阈值与类别映射文件路径(若适用)。
平台 :验收均在 NPU/GPU 上进行;具体驱动与框架版本写入运行元数据。
测试设计
单元测试
各 *Dataset:关键字段完整率、异常样本。
MathVision:等价判定典型用例;RefCOCO:IoU 与框解析;OdinW:非法框与空目标。
集成测试
各子模块 infer + eval 一键成功;指标文件与审计链路可追溯。
端到端 / 官方对齐
四数据集均在给定验收模型下与参考实现 精度差异 < 1% (及 RefCOCO 多阈值、MathVision 子集配置生效)。
需求拆分验收点
RealWorldQA:数据适配、评测器与配置、审计与回归;MathVision:数据适配、数学等价评测、配置与回归;RefCOCO:数据适配、bbox 后处理、IoU 评测与配置;OdinW-13:数据适配、检测后处理、AP/mAP 评测与配置(见内部需求拆分)。
背景描述
【AISBench】【精度测评】新增四个多模态理解测评基准
需求背景:在 AISBench 统一框架下完成多模态理解精度测评,避免多套脚本与口径并行;覆盖业界常用四类能力并与公开基准对齐。
需求描述:在 AISBench 内原生支持 RealWorldQA、MathVision、RefCOCO / Refcoco_plus / Refcoco_g、OdinW-13 的数据接入、推理执行、结果评测与审计复现。
验收标准:
方案设计
整体设计思路
按数据集拆分为 4 个子模块(建议每人认领一个),责任闭环:认领子模块 → 完成该模块的需求拆分项 → 子模块验收 → 整体目标达成。技术路线为统一 DatasetReader + 任务专用 Evaluator / Postprocessor + infer/eval 配置模板。
子模块 1:RealWorldQA 评测能力建设(开发 A)
方案要点:VQA 类数据适配;评测器与官方 Qwen3-VL RealWorldQA 流程对齐。
验收口径:模型 Qwen3-VL-8B-Instruct;平台 NPU/GPU;temperature=0;与官方测试方法精度差异 < 1%。
子模块 2:MathVision 评测能力建设(开发 B)
方案要点:开放题与选择题格式;数学等价判定(表达式归一化);可分题型统计。
验收口径:模型 Qwen3-VL-8B-Instruct;temperature=0;与 MATH-V 官方 精度差异 < 1%;支持
subset_list: ['level 1','level 2','level 3']。子模块 3:RefCOCO / Refcoco_plus / Refcoco_g 测评基准接入
方案要点:bbox 解析与 IoU 命中;预测输出 postprocessor(JSON/文本等多形态容错)。
验收口径:模型 Qwen3.5-9B;temperature=0;与 官方论文 精度差异 < 1%;输出 ACC@0.1 / 0.3 / 0.5 / 0.7 / 0.9;支持
subset_list: ['test','val','testA']。子模块 4:OdinW-13 评测能力建设(开发 D)
方案要点:多框多类标注接入;检测后处理(阈值、标签映射);AP/mAP 汇总。
验收口径:模型 Qwen3-VL-8B-Instruct;temperature=0;与 Qwen3-VL ODinW-13 精度差异 < 1%。
架构关系(示意)
flowchart TB subgraph SG_RWQA [子模块1 RealWorldQA] RWQA_LOAD[样本加载] --> RWQA_EVAL[VQA评测] end subgraph SG_MATHV [子模块2 MathVision] MATHV_ROUTE[题型路由] --> MATHV_EQ[数学等价判定] end subgraph SG_REFCOCO [子模块3 RefCOCO] REFCOCO_PARSE[bbox解析] --> REFCOCO_IOU[IoU指标] end subgraph SG_ODINW [子模块4 OdinW-13] ODINW_PARSE[检测解析] --> ODINW_AP[AP或mAP] end RWQA_EVAL --> Audit[统一审计输出] MATHV_EQ --> Audit REFCOCO_IOU --> Audit ODINW_AP --> Audit影响范围
使用说明
subset_list为 level 子集。subset_list(test/val/testA);明确 bbox 坐标约定。测试设计
单元测试
*Dataset:关键字段完整率、异常样本。集成测试
端到端 / 官方对齐
需求拆分验收点