【RFC】【LVM】【精度测评】AISBench多模态理解测评能力增强

## 背景描述

### 【AISBench】【精度测评】新增四个多模态理解测评基准

**需求背景**：在 AISBench 统一框架下完成多模态理解精度测评，避免多套脚本与口径并行；覆盖业界常用四类能力并与公开基准对齐。

| 数据集 | 能力侧重 |
| -- | -- |
| **RealWorldQA** | 真实场景图像上的空间理解与常识推理，多为可验证问答 |
| **MathVision（MATH-V）** | 视觉数学推理，竞赛级题目配视觉上下文 |
| **RefCOCO（含 + / g）** | 指代表达理解（REC），输出与 GT 框对齐 |
| **OdinW-13** | 开放词汇目标检测，13 子任务跨域泛化 |

**需求描述**：在 AISBench 内原生支持 **RealWorldQA**、**MathVision**、**RefCOCO / Refcoco_plus / Refcoco_g**、**OdinW-13** 的数据接入、推理执行、结果评测与审计复现。

**验收标准**：

- 四个子模块均完成并通过各自验收标准。
- 四数据集均可独立运行 infer + eval 并产出指标。
- 统一输出样本级审计信息，可复盘错误样本。

---

## 方案设计

### 整体设计思路

按数据集拆分为 **4 个子模块**（建议每人认领一个），责任闭环：认领子模块 → 完成该模块的需求拆分项 → 子模块验收 → 整体目标达成。技术路线为统一 DatasetReader + 任务专用 **Evaluator / Postprocessor** + infer/eval 配置模板。

### 子模块 1：RealWorldQA 评测能力建设（开发 A）

**方案要点**：VQA 类数据适配；评测器与官方 [Qwen3-VL RealWorldQA](https://github.com/QwenLM/Qwen3-VL/tree/main/evaluation/RealWorldQA) 流程对齐。

**验收口径**：模型 **Qwen3-VL-8B-Instruct**；平台 NPU/GPU；**temperature=0**；与官方测试方法精度差异 **< 1%**。

### 子模块 2：MathVision 评测能力建设（开发 B）

**方案要点**：开放题与选择题格式；**数学等价判定**（表达式归一化）；可分题型统计。

**验收口径**：模型 **Qwen3-VL-8B-Instruct**；**temperature=0**；与 [MATH-V 官方](https://github.com/mathllm/MATH-V) 精度差异 **< 1%**；支持 **`subset_list`: ['level 1','level 2','level 3']**。

### 子模块 3：RefCOCO / Refcoco_plus / Refcoco_g 测评基准接入

**方案要点**：bbox 解析与 IoU 命中；预测输出 postprocessor（JSON/文本等多形态容错）。

**验收口径**：模型 **Qwen3.5-9B**；**temperature=0**；与 [官方论文](https://arxiv.org/pdf/2511.21631) 精度差异 **< 1%**；输出 **ACC@0.1 / 0.3 / 0.5 / 0.7 / 0.9**；支持 **`subset_list`: ['test','val','testA']**。

### 子模块 4：OdinW-13 评测能力建设（开发 D）

**方案要点**：多框多类标注接入；检测后处理（阈值、标签映射）；**AP/mAP** 汇总。

**验收口径**：模型 **Qwen3-VL-8B-Instruct**；**temperature=0**；与 [Qwen3-VL ODinW-13](https://github.com/QwenLM/Qwen3-VL/tree/main/evaluation/ODinW-13) 精度差异 **< 1%**。

### 架构关系（示意）

```mermaid
flowchart TB
  subgraph SG_RWQA [子模块1 RealWorldQA]
    RWQA_LOAD[样本加载] --> RWQA_EVAL[VQA评测]
  end
  subgraph SG_MATHV [子模块2 MathVision]
    MATHV_ROUTE[题型路由] --> MATHV_EQ[数学等价判定]
  end
  subgraph SG_REFCOCO [子模块3 RefCOCO]
    REFCOCO_PARSE[bbox解析] --> REFCOCO_IOU[IoU指标]
  end
  subgraph SG_ODINW [子模块4 OdinW-13]
    ODINW_PARSE[检测解析] --> ODINW_AP[AP或mAP]
  end
  RWQA_EVAL --> Audit[统一审计输出]
  MATHV_EQ --> Audit
  REFCOCO_IOU --> Audit
  ODINW_AP --> Audit
```

### 影响范围

- 扩展多模态理解任务类型与评测指标；RefCOCO/OdinW 对坐标与检测格式要求高，需文档化像素/归一化约定。

---

## 使用说明

1. **通用**：各数据集配置中指定模型、**temperature=0**、数据路径与 split/subset。
2. **MathVision**：配置 `subset_list` 为 level 子集。
3. **RefCOCO**：配置 `subset_list`（test/val/testA）；明确 bbox 坐标约定。
4. **OdinW-13**：配置阈值与类别映射文件路径（若适用）。
5. **平台**：验收均在 NPU/GPU 上进行；具体驱动与框架版本写入运行元数据。

---

## 测试设计

### 单元测试

- 各 `*Dataset`：关键字段完整率、异常样本。
- MathVision：等价判定典型用例；RefCOCO：IoU 与框解析；OdinW：非法框与空目标。

### 集成测试

- 各子模块 **infer + eval** 一键成功；指标文件与审计链路可追溯。

### 端到端 / 官方对齐

- 四数据集均在给定验收模型下与参考实现 **精度差异 < 1%**（及 RefCOCO 多阈值、MathVision 子集配置生效）。

### 需求拆分验收点

- RealWorldQA：数据适配、评测器与配置、审计与回归；MathVision：数据适配、数学等价评测、配置与回归；RefCOCO：数据适配、bbox 后处理、IoU 评测与配置；OdinW-13：数据适配、检测后处理、AP/mAP 评测与配置（见内部需求拆分）。


Provide feedback

Saved searches

Use saved searches to filter your results more quickly

【RFC】【LVM】【精度测评】AISBench多模态理解测评能力增强 #283

背景描述

【AISBench】【精度测评】新增四个多模态理解测评基准

方案设计

整体设计思路

子模块 1：RealWorldQA 评测能力建设（开发 A）

子模块 2：MathVision 评测能力建设（开发 B）

子模块 3：RefCOCO / Refcoco_plus / Refcoco_g 测评基准接入

子模块 4：OdinW-13 评测能力建设（开发 D）

架构关系（示意）

影响范围

使用说明

测试设计

单元测试

集成测试

端到端 / 官方对齐

需求拆分验收点

Metadata

Assignees

Labels

Type

Fields

Projects

Milestone

Relationships

Development

数据集	能力侧重
RealWorldQA	真实场景图像上的空间理解与常识推理，多为可验证问答
MathVision（MATH-V）	视觉数学推理，竞赛级题目配视觉上下文
RefCOCO（含 + / g）	指代表达理解（REC），输出与 GT 框对齐
OdinW-13	开放词汇目标检测，13 子任务跨域泛化

【RFC】【LVM】【精度测评】AISBench多模态理解测评能力增强 #283

Description

背景描述

【AISBench】【精度测评】新增四个多模态理解测评基准

方案设计

整体设计思路

子模块 1：RealWorldQA 评测能力建设（开发 A）

子模块 2：MathVision 评测能力建设（开发 B）

子模块 3：RefCOCO / Refcoco_plus / Refcoco_g 测评基准接入

子模块 4：OdinW-13 评测能力建设（开发 D）

架构关系（示意）

影响范围

使用说明

测试设计

单元测试

集成测试

端到端 / 官方对齐

需求拆分验收点

Metadata

Metadata

Assignees

Labels

Type

Fields

Projects

Milestone

Relationships

Development

Issue actions