AISBench/benchmark 借用agent能力进一步提高易用性 #228

SJTUyh · 2026-04-01T07:20:07Z

SJTUyh
Apr 1, 2026
Maintainer

🔍背景

AISBench/benchmark评测工具从gitee的初步至今已经发布1年左右，也已经从基于opencompass框架的LLM测评工具逐渐发展为大模型全场景的测评平台（和evalscope类似了），从历史issue的支撑情况来看，目前主要有以下易用性问题：

易用性问题

1. 常规命令行执行测评太繁琐了

对于很多用惯命令行工具的新用户第一次用AISBench，不太适应AISBench中需要先选取任务（step 1），再到任务对应配置文件（1个或多个）中改个别参数（例如端口、IP）（step 2），最后命令行启动（step3）这种执行方式。
同时因为关键配置在配置文件内容中，需要跑多个配置不同的任务时还需要构造几个不同的任务配置文件，文件的内容还要做差异化处理，而传统命令行执行只要复制命令做一点差异化修改。
相比于命令行直接传端口和IP，AISBench这套常规命令行执行三板斧显得非常麻烦。

2. 自定义配置文件执行测评学习成本太高

AISBench中自定义配置文件执行测评的方式比常规命令三板斧要方便，因为不需要专门去找一个或多个任务对应的配置文件，只需要在配置文件定义任务然后用二进制指定配置文件执行即可，无论单任务还是多任务都很简单，甚至借助python语法逻辑可以更方便实现多个任务的简单差异化。
但是对用户来说自定义配置文件的内容规则相对松散而且复杂，没有统一的范式（能查询到的文档 https://ais-bench-benchmark-rf.readthedocs.io/zh-cn/latest/advanced_tutorials/run_custom_config.html 也只提供了样例，没有限定规则），大部分用户想要自由灵活使用自定义配置文件目前很不现实。所以不难发现到目前为止几乎没有用户用过自定义配置文件这个强大的能力（0 issue）。

👉 一句话总结痛点：用户想用AISBench达成自己的测试目标还是太复杂了😵‍💫

历史想过的解决方案

干脆直接在命令行支持配置常用参数❌

AISBench底层还是基于一个合并的总配置来定义并执行任务的，对应很初级的用户来说可能够用，但是一旦要涉及到改数据集任务提示词之类的操作就无法在命令行里实现，还是需要改配置文件。

尝试提供一个通用的自定义配置文件❌

AISBench的测评场景比较多，就是只考虑主要的LLM推理服务化测评场景，就算模型配置部分可以归一，但是由于数据集配置是分散的，用户还需要知道从哪里去导入数据集，这个易用性更差。

每个场景都提供一个独立的自定义配置文件😕

这种方式是类似evalscope的，文档作为索引，每个支撑的测评场景都要配备端到端的文档。这种方式虽然解决了易用性问题，但是工作量过于庞大，持续维护成本太高，准确的文档几乎只能人写也无法靠AI显著提速。

🌟 核心议题：如何让AI Agent 借助AISBench已有的能力帮助用户快速达成测评目标？

简单场景描述

用户只需要告诉AI Agent：我需要测试GLM-5 模型的推理服务在AIME2025数据集下的精度表现，希望能够复现论文精度。AI Agent就会要求用户提供必要信息（例如被测服务的url等），之后用AISBench构造一个满足用户要求的测评任务并在用户许可下执行，最终拿到结果。

一种可行的实现方案

AISBench所有配置和内部实现皆python代码，因此可以将整个项目接入常见的Code Agent（Curser， Claude Code， TRAE， OpenCode），我们需要做的就是实现一个专门的skill让Code Agent调用。这个skill的核心目标就是写出一个满足用户测试目标的自定义配置文件，并提供执行命令启动。这个skill大概估计会比较复杂（涉及到的reference和assets会比较多），具体的详细设计会在讨论区持续更新。

🚀 拓展议题：AI Agent如何在AISBench中帮助用户达成AISBench还不支持的测评目标？

简单场景描述

例如用户想测一个新的数据集，这个数据集虽然新但是范式和已支持的数据集差不多（例如AIME2026 可以参考AIME2025的实现）。AI Agent是否能够直接把这个新的数据集接入到AISBench中测评？

大致的使能方式

让AI Agent写个AISBench的插件临时接入AISBench，并结合核心议题的skill达成目标。

欢迎大家基于议题进行讨论🔥🔥🔥

SJTUyh · 2026-04-01T09:03:50Z

SJTUyh
Apr 1, 2026
Maintainer Author

@junemoon-happy 补充的潜在应用场景

Agent能力潜在应用场景 1：0 day 复现新模型精度

当前现状：

当Huggingface上新发布一个模型，很多用户会使用AISBench进行精度复现。
对于第一次使用AISBench进行精度复现的用户来说，虽然有一篇最佳实践，但是这篇方法论用户其实感知不到，所以很多时候都是先直接用AISBench测，发现精度过于离谱，才提issue，然后我们让用户了解方法论。这样让用户先踩坑（消耗大量资源做无用功）再知道怎么正确复现的体验很不好。
对于熟悉复现精度方法论的部分用户来说，按照这套方法论自行检索模型测评相关的配置，手动修改AISBench中的配置再执行这套流程本身是固化的，但是非常繁琐，也可能因为人的失误配置错误。

接入Agent后（设想的最终形态）

flowchart TD
    A["用户告知Agent：需要复现模型精度"] --> B["Agent启动【精度复现方法论】技能"]
    B --> C["联网检索模型涉及的测评数据集配置"]
    C --> D["生成数据集配置调研结果"]
    D --> E{"判断：数据集是否已在AISBench支撑？"}
    
    E -- 是（已支持） --> F["Agent启动【自定义配置文件生成】技能"]
    F --> G["自动生成模型评测配置文件"]
    G --> H["用户一键启动评测，复现精度"]
    
    E -- 否（未支持） --> I["Agent询问用户：是否提交Issue？"]
    I -- 用户许可 --> J["基于调研结果，在AISBench GitHub社区提Issue"]
    I -- 用户不许可 --> K["流程结束，等待后续处理"]

用户告诉Agent自己想要复现什么模型的精度，Agent会先基于精度复现方法论的skill去检索这个模型涉及测评的数据集配置，并生成调研结果。对于AISBench已经支撑测评的数据集，Agent基于调研结果，结合自定义配置文件生成skill直接生成评测配置，用户可以一键启动；对于未支持的数据集，Agent在用户许可下，基于调研结果在AISBench github社区提issue。

0 replies

SJTUyh · 2026-04-01T09:06:46Z

SJTUyh
Apr 1, 2026
Maintainer Author

@junemoon-happy 补充的潜在应用场景

Agent能力潜在应用场景 1：性能摸高

当前现状：
为了测试一种硬件形态的最佳性能，测试人员往往需要使用AISBench进行大量的重复测试，目前观察到的主要的测试方式有如下两种

大部分用户基于快速入门按正常思路就是手动或者用自动化脚本频繁得改任务配置文件的参数，测完一个手动记录一个，手动寻优
极少熟练的用户会写一套自动化脚本去生成多个模型配置，自动多次重复执行AISBench，寻优的操作还是手动做或者针对具体测试场景写一套脚本，但是AISBench一旦跑挂如何重新继续寻优又需要用户自己调整，用户依然要自己关心任务执行进展

接入Agent后（设想的最终形态）

flowchart TD
    A["用户告知Agent：测试推理服务最优性能"] --> B["Agent调用【性能寻优】技能"]
    B --> C["Agent引导用户输入限制条件\n• TTFT上限\n• 可调参数范围\n• 目标性能指标"]
    C --> D["Agent设计性能测试用例"]
    D --> E["调用【自定义配置文件生成】技能\n生成测试配置"]
    E --> F["AISBench执行性能测试&寻优"]
    F --> G{"执行是否失败？"}
    
    G -- 是 --> H["按技能指引自动拉起重试"]
    H --> F
    
    G -- 否 --> I["定期向用户同步寻优进展"]
    I --> J{"是否达到寻优目标？"}
    J -- 是 --> K["结束，生成寻优报告"]
    J -- 否 --> L{"用户确认是否继续"}
    L -- 是 --> F
    L -- 否 --> K

用户告诉Agent想要测当前推理服务的最优性能，Agent调用对应skill，Agent引导用户输入限制条件（TTFT不高于多少，只能调哪些参数，目标性能等），Agent就开始设计测试用例并通过生成自定义配置文件的skill不停得跑，并定期向用户同步寻优进展（用户确认是否继续执行），AISBench执行失败Agent会按照skill指引自动继续拉起执行，最终达到用户寻优的目标，最终自动生成寻优报告。

0 replies

zhongzhouTan-coder · 2026-04-02T01:49:43Z

zhongzhouTan-coder
Apr 2, 2026
Collaborator

考虑是自己写各种 skill 还是自己构建一套精通 aisbench 的 agent 框架(内置各种tools 以及 skills 以及各种 agent 调教文档)？

3 replies

SJTUyh Apr 2, 2026
Maintainer Author

昨天和 @junemoon-happy 的讨论结果是直接使用业界常用的code agent，因为AISBench本质上都是python代码，而且有大量的后端能力没有直接呈现在文档和固有的配置文件里，所以非常强依赖Code Agent去按Skill要求选择性理解代码并基于代码去写自定义配置文件

zhongzhouTan-coder Apr 2, 2026
Collaborator

业界有很多 agent 框架可以直接用，比如 copilot cli 或者 claude code 等 agent 框架(直接使用他们开放的 sdk)，后续也可以考虑基于这些去二开，这样只需要用户配置模型 api key，我们只需要写各种 skills tools 以及各种自定义 agent 配置。

SJTUyh Apr 2, 2026
Maintainer Author

对，就是这种想法，而且Claude Code "开源" 后估计会有好多好用的开源Code Agent框架。CLI和常规IDE其实都能用

AISBench/benchmark 借用agent能力进一步提高易用性 #228

Uh oh!

Uh oh!

SJTUyh Apr 1, 2026 Maintainer

🔍背景

易用性问题

1. 常规命令行执行测评太繁琐了

2. 自定义配置文件执行测评学习成本太高

👉 一句话总结痛点：用户想用AISBench达成自己的测试目标还是太复杂了😵‍💫

历史想过的解决方案

干脆直接在命令行支持配置常用参数❌

尝试提供一个通用的自定义配置文件❌

每个场景都提供一个独立的自定义配置文件😕

🌟 核心议题：如何让AI Agent 借助AISBench已有的能力帮助用户快速达成测评目标？

简单场景描述

一种可行的实现方案

🚀 拓展议题：AI Agent如何在AISBench中帮助用户达成AISBench还不支持的测评目标？

简单场景描述

大致的使能方式

欢迎大家基于议题进行讨论🔥🔥🔥

Replies: 3 comments · 3 replies

Uh oh!

Uh oh!

SJTUyh Apr 1, 2026 Maintainer Author

Uh oh!

Uh oh!

SJTUyh Apr 1, 2026 Maintainer Author

Uh oh!

zhongzhouTan-coder Apr 2, 2026 Collaborator

Uh oh!

SJTUyh Apr 2, 2026 Maintainer Author

Uh oh!

Uh oh!

zhongzhouTan-coder Apr 2, 2026 Collaborator

Uh oh!

SJTUyh Apr 2, 2026 Maintainer Author

SJTUyh
Apr 1, 2026
Maintainer

Replies: 3 comments 3 replies

SJTUyh
Apr 1, 2026
Maintainer Author

SJTUyh
Apr 1, 2026
Maintainer Author

zhongzhouTan-coder
Apr 2, 2026
Collaborator

SJTUyh Apr 2, 2026
Maintainer Author

zhongzhouTan-coder Apr 2, 2026
Collaborator

SJTUyh Apr 2, 2026
Maintainer Author